RoboChallenge:把具身智能真正拉到“上场打”的评测
过去几年,具身智能的发展速度并不慢,但一个现实问题始终存在:现在具身智能到底能做什么,实际效果如何?
很多工作停留在仿真环境、剪辑过的视频 Demo,或者单点任务展示上,很难判断模型在真实世界里能走多远。RoboChallenge 的出现,某种程度上就是为了解决这个问题——不看演示、不看设想,只看机器人能不能把活干完。
网站地址:https://link.zhihu.com/?target=https%3A//robochallenge.cn/home

RoboChallenge 是一个面向真实机器人平台的公开评测挑战,核心思路很直接: 用统一的硬件、统一的任务、统一的规则,让不同具身智能模型在真机上跑一遍。
评测并不追求花哨,而是集中在“日常但不简单”的操作能力上,例如抓取、放置、组合操作、多步骤任务执行,以及在遮挡、干扰等条件下的稳定性。这些任务被整理成一个代表性集合(Table30),基本覆盖了当前通用操作型机器人的核心能力边界。

相比传统 benchmark,这套评测更像一次真实环境里的综合体测,既考模型能不能做,也考能不能持续做、做对多少。

Spirit-v1.5:不是某个任务特别强,而是“整体都不差”

在最近一次 RoboChallenge 的评测中,Spirit-v1.5 拿到了综合第一的位置。这并不是因为它在某一个任务上碾压式领先,而是一个更“工程向”的结果:
- 在 30 个任务上的整体完成度最高
- 是少数在多数任务上都能稳定执行的模型
- 在长序列操作和失败后的继续执行上表现更稳
从结果看,Spirit-v1.5 的优势并不是“极限能力”,而是平均能力足够高、下限足够稳。这在真实机器人系统中,往往比偶尔的高光表现更重要。

代码:https://github.com/Spirit-AI-Team/spirit-v1.5
模型:https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
技术路线:一次对“端到端”的相对务实实践
Spirit-v1.5 采用的是典型的 Vision-Language-Action(VLA)统一模型路线,但它的实现思路并不激进,更像是在当前技术条件下,对端到端方法的一次务实落地。
1. 统一建模,而不是强行拆模块
传统机器人系统通常会把视觉、规划、控制分成多个模块,逻辑清晰,但一旦任务复杂,误差会在模块之间不断放大。Spirit-v1.5 的选择是:
- 视觉、语言指令和动作决策统一在一个模型中
- 不追求“最优控制”,而是追求整体行为的一致性
- 更关注多步骤任务中状态的连续理解
这让它在复杂任务中,不容易因为某一步小偏差而彻底崩掉。
2. 放弃“干净示范”,转向更真实的数据
另一个比较关键的点在于数据策略。Spirit-v1.5 并没有过度依赖精心标注、动作高度规范的示范数据,而是更多使用目标驱动、过程不完美的数据。

也就是说,训练数据里包含:
- 动作不标准的尝试
- 中途失败、再调整的过程
- 多技能自然串联的执行轨迹
这些数据在传统视角下可能“不够优雅”,但在真实机器人任务中反而更常见。这种训练方式带来的直接好处是:
模型对噪声和意外的容忍度更高,也更容易泛化到没见过的任务。
3. 真机表现优先,而不是指标优先
从 RoboChallenge 的成绩来看,Spirit-v1.5 并不是在某些单项指标上追求极致,而是明显偏向**“真机可用性”**的设计取向。

这也解释了它为什么在统一评测中能跑得更稳——很多设计决策,显然是围绕“机器人真的要反复干活”来做的,而不是为了某一个 benchmark 分数。

开源的意义:不只是秀成绩
Spirit-v1.5 在公布成绩的同时选择开源,这一点在具身智能领域其实并不常见。开源的价值并不只是“大家都能跑一跑”,更重要的是:
- 评测结果可以被复现
- 模型行为可以被拆解分析
- 社区可以基于同一基线继续推进
对于一个还在快速探索阶段的领域来说,这种可对照、可讨论、可改进的状态,往往比单个 SOTA 成绩更重要。
- 点赞
- 收藏
- 关注作者
评论(0)