OpenAI用13天做出神级机器人：当GPT有了人形-品玩

火遍硅谷、OpenAI重金押注的人形机器人Figure 01，现在会看会听，能和人类自由对话了。

当地时间3月13日早晨，初创公司Figure AI在X放出这段最新demo。

效果十分炸裂，总共展示了以下几组行为：

1.首先询问机器人能看见什么，Figure 01清晰描述了一切，包括视角正中的红苹果、放有杯碟的沥水架、以及站在面前的工作人员和他搭在桌上的右手。

2.接着工作人员问，“可以给我点吃的吗？”

Figure 01把苹果拿起递过去，并按照要求，一边清理工作人员刚倾倒在桌面的纸团，一边解释刚刚的行为：“我给了你苹果，因为我觉得这是桌上唯一能吃的东西。”然后自然而然地把收好在篮子里的纸团给回工作人员。

3.“根据现在所见，你面前的碟子应该到哪儿去？”Figure 01思考片刻做出判断：杯碟应该归置进晾晒架，而后按指令放好。

4.最后一步，让它自己评价任务完成的怎么样。Figure 01自信地回答道：“我觉得我做得很不错！苹果找到了新主人，垃圾清理了，桌面上的东西各归各位。”

这里的Figure 01是3月9日更新版本，由OpenAI技术加持。从两周前双方宣布合作，决定共同开发下一代人形机器人AI模型，推进机器人学习边界，到现在面前这个科技感满满的“人形GPT”仅仅用了13天。

而且据Figure AI创始人Bratt Adcock称，所有这些行为都没有经过远程操作，而是通过机器人的自我学习而来。并且以正常的1.0倍速连续拍摄，没有加速、没有剪辑，所见即所得。可以感受到视频中Figure 01的速度已经快要接近人类。

具体来看，此次Figure 01体现出的炸裂能力有：

1. 识别周围环境，准确描述视觉体验。视频开头它说看到桌上的苹果和面前站着的人类。

2. 推理和决策下一步行动。例如“桌子上的盘子和杯子很可能需要放在沥水架上”。

3. 将模棱两可的请求翻译成一些与上下文相关的行为。比如将对方说的“我饿了，有没有吃的”转换成“递给这个人一个苹果”的行动。

4. 用语言解释推理过程，比如“苹果是这里唯一能吃的”。

5. 反思自己的记忆做出判断，即在视频最后回顾了全套行为，并且基于常识进行评价。

那这一切又是怎么完美实现的呢？

领导该项目的高级AI工程师Corey Lynch发文解释了背后原理。

他表示，Figure 01正是通过与OpenAI提供的大模型连接起来，才被赋予了这些天秀的“有趣新功能”。

他们将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本，在处理整个对话历史、包括过去的图像后做出语言回应，这些回应再通过文本转语音最终传递给人类。

所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像，交给大模型处理，大模型推理预测下一步行为，将像素映射到200Hz、24个自由度的动作（包括手腕姿势和手指关节角度），直接输出结果。整个过程依靠端到端的机器人控制，而无需经过中间过程的编码。

更新后的Figure 01优越之处还在于，接入的OpenAI大模型能理解历史对话，为机器人提供了强大的短期记忆。从而理解上下文语义，做出准确的判断和执行。

比如demo里甄别过杯子盘子应该放回沥水架后，工作人员下达指令：“Can you put them there?” 这其中代指的“它们”和“那儿”是很模糊的。但是经过预训练的模型通过分析对话历史记录，就能促使Figure 01迅速形成答案并输出动作：1）将杯子放在沥水架上2）将盘子放在沥水架上。

除此以外，机器人基于视觉运动策略学习到的行为执行更快速、反应更灵敏，相比之下有些行为提前手动指定是很难的，比如在任何位置操纵一个可变形的袋子。同时，一个整体的全身控制器能确保Figure 01保持平衡，时刻处于安全稳定的动态中。

除人工智能加持外，Figure 01还垂直整合了由专业工程师设计的所有系统，包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构。

对于此次更新，网友们反应极度热烈。有人说，能做出一个能帮你刷碗打扫屋子的智能机器人已经赢了。

还有人已经想象到了商业化适用场景，“Figure机器人似乎可以成为盲人群体的向导”。

更有网友不留情面地cue波士顿动力“该回实验室给机器人研究点新舞步了”。Figure机器人的智能化之强，也让人感叹和它对视8秒会不会被暴揍。

“13天内如此惊人的成绩，等不及要看接下来会发生什么了！”

而携手Figure AI提供燃料，将其推上神坛的OpenAI，也被网友称为“难以抗衡的合作关系”，建议波士顿动力火速更换合作伙伴。

Figure AI最新估值是13天前的26亿美元，而今两周过去，估值应该是多少？网友：“不可估量”。

Figure AI曾在上月27号宣布，获得来自微软、英伟达、OpenAI以及亚马逊创始人贝佐斯等投资人约6.75亿美元的新一轮融资，成为马斯克“擎天柱”机器人之外最受投资人们追捧的AI人形机器人。

据Figure AI称，他们的目标是造出真正的通用机器人，替代人类执行危险或机械化的工作，并最终实现“行走的AI智能体”，自主执行日常任务。从如今OpenAI入局后这短短两周结果来看，这一目标仿佛变得更近。而OpenAI在人工智能产业中全面撒网加大部署这一步，似乎又走对了。

很多人说闭上眼已经可以把Figure 01在自己身边的体验具象化。机器人真的在变得“像人”。它不再是实验室里可看不可得的观赏品那天，也许比我们想象的更快到来。

现在是2024年的3月，几个月后会前进到哪一步？倒计时开始。