品玩

科技创新者的每日必读

打开APP
关闭

OpenAI用13天做出神级机器人:当GPT有了人形

会看听说、还能思考, Figure AI与OpenAI 的互相成就。

张潇雪

发布于 3月14日

火遍硅谷、OpenAI重金押注的人形机器人Figure 01,现在会看会听,能和人类自由对话了。

当地时间3月13日早晨,初创公司Figure AI在X放出这段最新demo。

效果十分炸裂,总共展示了以下几组行为:

1.首先询问机器人能看见什么,Figure 01清晰描述了一切,包括视角正中的红苹果、放有杯碟的沥水架、以及站在面前的工作人员和他搭在桌上的右手。

2.接着工作人员问,“可以给我点吃的吗?”

Figure 01把苹果拿起递过去,并按照要求,一边清理工作人员刚倾倒在桌面的纸团,一边解释刚刚的行为:“我给了你苹果,因为我觉得这是桌上唯一能吃的东西。”然后自然而然地把收好在篮子里的纸团给回工作人员。

3.“根据现在所见,你面前的碟子应该到哪儿去?”Figure 01思考片刻做出判断:杯碟应该归置进晾晒架,而后按指令放好。

4.最后一步,让它自己评价任务完成的怎么样。Figure 01自信地回答道:“我觉得我做得很不错!苹果找到了新主人,垃圾清理了,桌面上的东西各归各位。”

这里的Figure 01是3月9日更新版本,由OpenAI技术加持。从两周前双方宣布合作,决定共同开发下一代人形机器人AI模型,推进机器人学习边界,到现在面前这个科技感满满的“人形GPT”仅仅用了13天。

而且据Figure AI创始人Bratt Adcock称,所有这些行为都没有经过远程操作,而是通过机器人的自我学习而来。并且以正常的1.0倍速连续拍摄,没有加速、没有剪辑,所见即所得。可以感受到视频中Figure 01的速度已经快要接近人类。

具体来看,此次Figure 01体现出的炸裂能力有:

1. 识别周围环境,准确描述视觉体验。视频开头它说看到桌上的苹果和面前站着的人类。

2. 推理和决策下一步行动。例如“桌子上的盘子和杯子很可能需要放在沥水架上”。

3. 将模棱两可的请求翻译成一些与上下文相关的行为。比如将对方说的“我饿了,有没有吃的”转换成“递给这个人一个苹果”的行动。

4. 用语言解释推理过程,比如“苹果是这里唯一能吃的”。

5. 反思自己的记忆做出判断,即在视频最后回顾了全套行为,并且基于常识进行评价。

那这一切又是怎么完美实现的呢?

领导该项目的高级AI工程师Corey Lynch发文解释了背后原理。

他表示,Figure 01正是通过与OpenAI提供的大模型连接起来,才被赋予了这些天秀的“有趣新功能”。

他们将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本,在处理整个对话历史、包括过去的图像后做出语言回应,这些回应再通过文本转语音最终传递给人类。

所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像,交给大模型处理,大模型推理预测下一步行为,将像素映射到200Hz、24个自由度的动作(包括手腕姿势和手指关节角度),直接输出结果。整个过程依靠端到端的机器人控制,而无需经过中间过程的编码

更新后的Figure 01优越之处还在于,接入的OpenAI大模型能理解历史对话,为机器人提供了强大的短期记忆。从而理解上下文语义,做出准确的判断和执行。

比如demo里甄别过杯子盘子应该放回沥水架后,工作人员下达指令:“Can you put them there?” 这其中代指的“它们”和“那儿”是很模糊的。但是经过预训练的模型通过分析对话历史记录,就能促使Figure 01迅速形成答案并输出动作:1)将杯子放在沥水架上2)将盘子放在沥水架上。

除此以外,机器人基于视觉运动策略学习到的行为执行更快速、反应更灵敏,相比之下有些行为提前手动指定是很难的,比如在任何位置操纵一个可变形的袋子。同时,一个整体的全身控制器能确保Figure 01保持平衡,时刻处于安全稳定的动态中。

除人工智能加持外,Figure 01还垂直整合了由专业工程师设计的所有系统,包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构。

对于此次更新,网友们反应极度热烈。有人说,能做出一个能帮你刷碗打扫屋子的智能机器人已经赢了。

还有人已经想象到了商业化适用场景,“Figure机器人似乎可以成为盲人群体的向导”。

更有网友不留情面地cue波士顿动力“该回实验室给机器人研究点新舞步了”。Figure机器人的智能化之强,也让人感叹和它对视8秒会不会被暴揍。

“13天内如此惊人的成绩,等不及要看接下来会发生什么了!”

而携手Figure AI提供燃料,将其推上神坛的OpenAI,也被网友称为“难以抗衡的合作关系”,建议波士顿动力火速更换合作伙伴。

Figure AI最新估值是13天前的26亿美元,而今两周过去,估值应该是多少?网友:“不可估量”。

Figure AI曾在上月27号宣布,获得来自微软、英伟达、OpenAI以及亚马逊创始人贝佐斯等投资人约6.75亿美元的新一轮融资,成为马斯克“擎天柱”机器人之外最受投资人们追捧的AI人形机器人。

据Figure AI称,他们的目标是造出真正的通用机器人,替代人类执行危险或机械化的工作,并最终实现“行走的AI智能体”,自主执行日常任务。从如今OpenAI入局后这短短两周结果来看,这一目标仿佛变得更近。而OpenAI在人工智能产业中全面撒网加大部署这一步,似乎又走对了。

很多人说闭上眼已经可以把Figure 01在自己身边的体验具象化。机器人真的在变得“像人”。它不再是实验室里可看不可得的观赏品那天,也许比我们想象的更快到来。

现在是2024年的3月,几个月后会前进到哪一步?倒计时开始。

张潇雪

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测