RoboChallenge测评：π0、π0.5领先，自变量WALL-OSS-Flow零成功率引关注_新经济时代的信息中心

在具身智能竞速加速升温的当下，真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日，“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到，π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到，“基本上和PI、和google在同一个水平线上”，但是在多个任务上成功率偏低。根据公开的测评记录，其在31次测试中大部分成功率为零，这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台，也是目前行业内最受关注的真实物理机器人评测平台，由Dexmal原力灵机联合Hugging Face发布，被视作“机器人界的硬核基准”。其最大特点是真机真测：评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人，统一软件栈并配备多台RGB-D深度相机，以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务，包括叠抹布、整理果篮、插花、开关水龙头等，难度从基础操作递进到长链条组合动作。

据了解，RoboChallenge 之所以被认为更加客观，是因为其采用了 “任务成功率 + 进度评分”的双指标体系。前者统计任务是否完整成功，后者将任务拆解为多个关键阶段并按推进程度累计分值，即便任务未完成也能反映模型做到哪一步，为能力评估提供更细粒度的信息。

在该评测体系中，多款主流开源模型已完成测试。“具身进化论”对比发现，基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线，它们在成功率与进度得分上整体领先其他开源模型，特别是π0.5，显示出更成熟的任务执行能力。

RoboChallenge测评：π0、π0.5领先，自变量WALL-OSS-Flow零成功率引关注

π0测试结果

RoboChallenge测评：π0、π0.5领先，自变量WALL-OSS-Flow零成功率引关注

π0.5测试结果

相比之下，自变量的wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示：wall-oss-flow共测试31次，其中2次成功率为60%，1次成功率为50%，1次成功率为20%，其余所有任务成功率均为0。

RoboChallenge测评：π0、π0.5领先，自变量WALL-OSS-Flow零成功率引关注

wall-oss-flow测试结果

“具身进化论”从进度分情况看到，模型虽然在部分任务中能完成初段动作，但多数情况下未能完成关键步骤，执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。

公开信息显示，自变量2023年成立，创始人兼CEO为王潜。今年9月，自变量发布其开源大模型WALL-OSS，自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力，在长程操作任务方面表现优于其他基础模型”。

王潜甚至曾在接受媒体采访时表示：“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。”

但此次RoboChallenge 的评测结果显示，自变量模型的水平、能力在真实机器人执行任务时未能体现，与PI的模型(π0 和 π0.5)也存在明显差距。

一位具身智能从业者对“具身进化论”分析，RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境，避免主观展示带来的偏差。随着越来越多模型加入测评，业内对“模型真实能力差异”有了更清晰的认知。

对具身智能行业而言，此次结果再次提醒：真正的竞争不在PR宣传中，而在三方认可的评测，学术基准线，以及机器人能否稳定完成任务的那一刻。

真实世界，正在成为检验大模型能力的最终标准。而认识到差距，正是追赶的开始。

原文版权信息

本文转载自：cnfina

免责声明

本站转载的文章，版权归原作者所有；旨在传递信息，不代表本站的观点和立场。不对内容真实性负责，仅供用户参考之用，不构成任何投资、使用等行为的建议。如果发现有问题，请联系我们处理。

本站提供的草稿箱预览链接仅用于内容创作者内部测试及协作沟通，不构成正式发布内容。预览链接包含的图文、数据等内容均为未定稿版本，可能存在错误、遗漏或临时性修改，用户不得将其作为决策依据或对外传播。

因预览链接内容不准确、失效或第三方不当使用导致的直接或间接损失（包括但不限于数据错误、商业风险、法律纠纷等），本网站不承担赔偿责任。用户通过预览链接访问第三方资源（如嵌入的图片、外链等），需自行承担相关风险，本网站不对其安全性、合法性负责。

禁止将预览链接用于商业推广、侵权传播或违反公序良俗的行为，违者需自行承担法律责任。如发现预览链接内容涉及侵权或违规，用户应立即停止使用并通过网站指定渠道提交删除请求。

本声明受中华人民共和国法律管辖，争议解决以本网站所在地法院为管辖法院。本网站保留修改免责声明的权利，修改后的声明将同步更新至预览链接页面，用户继续使用即视为接受新条款。

RoboChallenge测评：π0、π0.5领先，自变量WALL-OSS-Flow零成功率引关注

原文版权信息

免责声明

随便看看

猜你喜欢

2026虾吃虾涮虾调料：新手也能在家做出餐厅级虾火锅

化妆培训领域标杆品牌——航睿化妆学校

北信源助力某大型国有商业银行涉密网安全改造

POOPOSUPER与韩国IFG5达成K-CONTENTS战略合作 开创中韩潮流产业IP共创全链路新范式

香港优才如何提高申请成功率？空格盛世教育专业解读

AI赋能 礼遇迎新：东方航空APP升级 服务旅客春运出行

POOPOSUPER与韩国IFG5达成K-CONTENTS战略合作开创中韩潮流产业IP共创全链路新范式

AI赋能礼遇迎新：东方航空APP升级服务旅客春运出行