品玩

科技创新者的每日必读

打开APP
关闭
业界动态

RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

shuohang

发布于 12月4日

在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日,「具身进化论」在查询最新发布的 RoboChallenge 测试结果时注意到,π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型 wall-oss-flow 虽然在多次企业自我宣传中提到,「基本上和 PI、和 google 在同一个水平线上」,但是在多个任务上成功率偏低。根据公开的测评记录,其在 31 次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge 是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由 Dexmal 原力灵机联合 Hugging Face 发布,被视作「机器人界的硬核基准」。其最大特点是真机真测:评测同时接入 UR5、Franka、Aloha 双臂系统以及国产 ARX-5 四类主流机器人,统一软件栈并配备多台 RGB-D 深度相机,以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中 Table30 场景包含 30 个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。

据了解,RoboChallenge 之所以被认为更加客观,是因为其采用了「任务成功率 + 进度评分」的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。「具身进化论」对比发现,基于 Physical Intelligence(Pi)系列构建的π0 和π0.5 是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。

π0 测试结果

π0.5 测试结果

相比之下,自变量的 wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow 共测试 31 次,其中 2 次成功率为 60%,1 次成功率为 50%,1 次成功率为 20%,其余所有任务成功率均为 0。

wall-oss-flow 测试结果

「具身进化论」从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的「多阶段连续操作能力」形成明显差距。

公开信息显示,自变量 2023 年成立,创始人兼 CEO 为王潜。今年 9 月,自变量发布其开源大模型 WALL-OSS,自变量在官方宣传稿中强调该模型「具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型」。

王潜甚至曾在接受媒体采访时表示:「我们(自变量)的模型水平基本上和 PI、和 google 在同一个水平线上。」

但此次 RoboChallenge 的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与 PI 的模型(π0 和 π0.5)也存在明显差距。

一位具身智能从业者对「具身进化论」分析,RoboChallenge 的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对「模型真实能力差异」有了更清晰的认知。

对具身智能行业而言,此次结果再次提醒:真正的竞争不在 PR 宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测