在ChatGPT的发布前,英国一家名为Engineered Arts的人形机器人公司已经将其最新款Ameca模型接入了GPT3,实现了一个令人瞩目的场景——Ameca能够自由地跟工程师进行对话。我们之前介绍过会做表情的机器人,就是这款Ameca及其不同版本,它因其丰富且超逼真的人类表情而引起了广泛关注,如皱眉、眨眼、瞪眼、咧嘴笑等。
如果将Ameca模型进一步升级,并让它接入ChatGPT,那么它可能会变得更加强大和智能。可以想象,如果这些技术得到进一步发展,我们或许能见到一个真正“逆天”的存在。
除了控制机械臂和空中无人机,微软还将ChatGPT集成到了必应搜索引擎中。这是因为微软认为,ChatGPT不仅仅可以生成文本,还有潜力去指导语言模型解决复杂的机器人任务。最近,一篇由微软发表的技术论文详细阐述了一系列设计原则,用以指导语言模型如何更好地操作机器。
尽管如此,微软也承认,这种结合仍然面临一些挑战,比如提供完整而准确的问题描述,以及确定正确的函数调用和API集。此外,还需要通过特殊参数来偏向答案结构,以确保输出符合预期。在有效利用ChatGPT进行机器人应用方面,研究人员提出了一个四步流程:
首先,他们定义了一个高级机器人函数库,该库可以针对特定的场景定制,并映射到现有的低级控制堆栈或感知库中,从而使得ChatGPT能够推断出它们应该如何行动。
然后,他们为ChatGPT构建了一个提示符,该提示符描述了任务目标,同时标识了可用的高级函数,并包含关于约束信息或者聊天应如何组织响应的一般指示。
接着,在回路中评估 ChatGPT 的代码输出,可以通过直接分析,也可以通过模拟用户使用自然语言给予反馈,以评价答案质量和安全性。如果用户满意,则代码可以部署到实际使用环境中进行迭代优化。
最后,有这样一种情况展示着这一点:在实验室里,将 ChatGPT 用于控制手臂执行复杂操作。这个过程涉及对话反馈,让该模型学习如何组合最初提供给它的 API 来完成更高层次功能,而不是简单地编码这些功能。当这个模式学会后,它能够将学习到的技能逻辑地链接起来,不仅能堆叠木块,还能用 SVG 代码 “绘制” 微软标志,然后根据已学知识找到现有动作来实现物理形式,即搭建出那张标志形状的地板图案。
此外,对于空中的无人飞行物体来说,这些可能性同样被探索。在这种情况下,由研究人员提供的一个长提示列出了所有可用的计算命令用于控制无人飞行车辆。在之后的一系列请求下,无论是要求识别饮料还是编写导航代码结构,都由该系统处理并执行。这项工作证明,无论是在传统意义上还是在现代科技界,都有可能看到新的可能性被开启。而对于那些渴望了解未来的我们来说,这样的进展简直太令人期待不过!