- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

RoboChallenge：把具身智能真正拉到“上场打”的评测

AI梦工厂小助手发表于 2026/01/23 14:50:33 2026/01/23

【摘要】过去几年，具身智能的发展速度并不慢，但一个现实问题始终存在：现在具身智能到底能做什么，实际效果如何？很多工作停留在仿真环境、剪辑过的视频 Demo，或者单点任务展示上，很难判断模型在真实世界里能走多远。RoboChallenge 的出现，某种程度上就是为了解决这个问题——不看演示、不看设想，只看机器人能不能把活干完。

过去几年，具身智能的发展速度并不慢，但一个现实问题始终存在：现在具身智能到底能做什么，实际效果如何？

很多工作停留在仿真环境、剪辑过的视频 Demo，或者单点任务展示上，很难判断模型在真实世界里能走多远。RoboChallenge 的出现，某种程度上就是为了解决这个问题——不看演示、不看设想，只看机器人能不能把活干完。

网站地址：https://link.zhihu.com/?target=https%3A//robochallenge.cn/home

RoboChallenge 是一个面向真实机器人平台的公开评测挑战，核心思路很直接：用统一的硬件、统一的任务、统一的规则，让不同具身智能模型在真机上跑一遍。

评测并不追求花哨，而是集中在“日常但不简单”的操作能力上，例如抓取、放置、组合操作、多步骤任务执行，以及在遮挡、干扰等条件下的稳定性。这些任务被整理成一个代表性集合（Table30），基本覆盖了当前通用操作型机器人的核心能力边界。

相比传统 benchmark，这套评测更像一次真实环境里的综合体测，既考模型能不能做，也考能不能持续做、做对多少。

Spirit-v1.5：不是某个任务特别强，而是“整体都不差”

在最近一次 RoboChallenge 的评测中，Spirit-v1.5 拿到了综合第一的位置。这并不是因为它在某一个任务上碾压式领先，而是一个更“工程向”的结果：

在 30 个任务上的整体完成度最高
是少数在多数任务上都能稳定执行的模型
在长序列操作和失败后的继续执行上表现更稳

从结果看，Spirit-v1.5 的优势并不是“极限能力”，而是平均能力足够高、下限足够稳。这在真实机器人系统中，往往比偶尔的高光表现更重要。

代码：https://github.com/Spirit-AI-Team/spirit-v1.5

模型：https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

技术路线：一次对“端到端”的相对务实实践

Spirit-v1.5 采用的是典型的 Vision-Language-Action（VLA）统一模型路线，但它的实现思路并不激进，更像是在当前技术条件下，对端到端方法的一次务实落地。

1. 统一建模，而不是强行拆模块

传统机器人系统通常会把视觉、规划、控制分成多个模块，逻辑清晰，但一旦任务复杂，误差会在模块之间不断放大。Spirit-v1.5 的选择是：

视觉、语言指令和动作决策统一在一个模型中
不追求“最优控制”，而是追求整体行为的一致性
更关注多步骤任务中状态的连续理解

这让它在复杂任务中，不容易因为某一步小偏差而彻底崩掉。

2. 放弃“干净示范”，转向更真实的数据

另一个比较关键的点在于数据策略。Spirit-v1.5 并没有过度依赖精心标注、动作高度规范的示范数据，而是更多使用目标驱动、过程不完美的数据。

也就是说，训练数据里包含：

动作不标准的尝试
中途失败、再调整的过程
多技能自然串联的执行轨迹

这些数据在传统视角下可能“不够优雅”，但在真实机器人任务中反而更常见。这种训练方式带来的直接好处是：
模型对噪声和意外的容忍度更高，也更容易泛化到没见过的任务。

3. 真机表现优先，而不是指标优先

从 RoboChallenge 的成绩来看，Spirit-v1.5 并不是在某些单项指标上追求极致，而是明显偏向**“真机可用性”**的设计取向。

这也解释了它为什么在统一评测中能跑得更稳——很多设计决策，显然是围绕“机器人真的要反复干活”来做的，而不是为了某一个 benchmark 分数。

开源的意义：不只是秀成绩

Spirit-v1.5 在公布成绩的同时选择开源，这一点在具身智能领域其实并不常见。开源的价值并不只是“大家都能跑一跑”，更重要的是：

评测结果可以被复现
模型行为可以被拆解分析
社区可以基于同一基线继续推进

对于一个还在快速探索阶段的领域来说，这种可对照、可讨论、可改进的状态，往往比单个 SOTA 成绩更重要。

原文链接： https://zhuanlan.zhihu.com/p/1994087076912718381

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

RoboChallenge：把具身智能真正拉到“上场打”的评测

Spirit-v1.5：不是某个任务特别强，而是“整体都不差”