RoboChallenge:把具身智能真正拉到“上场打”的评测

举报
AI梦工厂小助手 发表于 2026/01/23 14:50:33 2026/01/23
【摘要】 过去几年,具身智能的发展速度并不慢,但一个现实问题始终存在:现在具身智能到底能做什么,实际效果如何? 很多工作停留在仿真环境、剪辑过的视频 Demo,或者单点任务展示上,很难判断模型在真实世界里能走多远。RoboChallenge 的出现,某种程度上就是为了解决这个问题——不看演示、不看设想,只看机器人能不能把活干完。

过去几年,具身智能的发展速度并不慢,但一个现实问题始终存在:现在具身智能到底能做什么,实际效果如何?

很多工作停留在仿真环境、剪辑过的视频 Demo,或者单点任务展示上,很难判断模型在真实世界里能走多远。RoboChallenge 的出现,某种程度上就是为了解决这个问题——不看演示、不看设想,只看机器人能不能把活干完。

网站地址:https://link.zhihu.com/?target=https%3A//robochallenge.cn/home

11111111.jpeg


RoboChallenge 是一个面向真实机器人平台的公开评测挑战,核心思路很直接: 用统一的硬件、统一的任务、统一的规则,让不同具身智能模型在真机上跑一遍。

评测并不追求花哨,而是集中在“日常但不简单”的操作能力上,例如抓取、放置、组合操作、多步骤任务执行,以及在遮挡、干扰等条件下的稳定性。这些任务被整理成一个代表性集合(Table30),基本覆盖了当前通用操作型机器人的核心能力边界。

2222.jpeg


相比传统 benchmark,这套评测更像一次真实环境里的综合体测,既考模型能不能做,也考能不能持续做、做对多少。

33333.jpeg


Spirit-v1.5:不是某个任务特别强,而是“整体都不差”

44444.jpeg


在最近一次 RoboChallenge 的评测中,Spirit-v1.5 拿到了综合第一的位置。这并不是因为它在某一个任务上碾压式领先,而是一个更“工程向”的结果:

  • 在 30 个任务上的整体完成度最高
  • 是少数在多数任务上都能稳定执行的模型
  • 在长序列操作和失败后的继续执行上表现更稳

从结果看,Spirit-v1.5 的优势并不是“极限能力”,而是平均能力足够高、下限足够稳。这在真实机器人系统中,往往比偶尔的高光表现更重要。

55555.jpeg


代码:https://github.com/Spirit-AI-Team/spirit-v1.5

模型:https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

技术路线:一次对“端到端”的相对务实实践

Spirit-v1.5 采用的是典型的 Vision-Language-Action(VLA)统一模型路线,但它的实现思路并不激进,更像是在当前技术条件下,对端到端方法的一次务实落地。

1. 统一建模,而不是强行拆模块

传统机器人系统通常会把视觉、规划、控制分成多个模块,逻辑清晰,但一旦任务复杂,误差会在模块之间不断放大。Spirit-v1.5 的选择是:

  • 视觉、语言指令和动作决策统一在一个模型中
  • 不追求“最优控制”,而是追求整体行为的一致性
  • 更关注多步骤任务中状态的连续理解

这让它在复杂任务中,不容易因为某一步小偏差而彻底崩掉。

2. 放弃“干净示范”,转向更真实的数据

另一个比较关键的点在于数据策略。Spirit-v1.5 并没有过度依赖精心标注、动作高度规范的示范数据,而是更多使用目标驱动、过程不完美的数据

66666.jpeg


也就是说,训练数据里包含:

  • 动作不标准的尝试
  • 中途失败、再调整的过程
  • 多技能自然串联的执行轨迹

这些数据在传统视角下可能“不够优雅”,但在真实机器人任务中反而更常见。这种训练方式带来的直接好处是:
模型对噪声和意外的容忍度更高,也更容易泛化到没见过的任务。

3. 真机表现优先,而不是指标优先

从 RoboChallenge 的成绩来看,Spirit-v1.5 并不是在某些单项指标上追求极致,而是明显偏向**“真机可用性”**的设计取向。

77777.jpeg


这也解释了它为什么在统一评测中能跑得更稳——很多设计决策,显然是围绕“机器人真的要反复干活”来做的,而不是为了某一个 benchmark 分数。

88888.jpeg


开源的意义:不只是秀成绩

Spirit-v1.5 在公布成绩的同时选择开源,这一点在具身智能领域其实并不常见。开源的价值并不只是“大家都能跑一跑”,更重要的是:

  • 评测结果可以被复现
  • 模型行为可以被拆解分析
  • 社区可以基于同一基线继续推进

对于一个还在快速探索阶段的领域来说,这种可对照、可讨论、可改进的状态,往往比单个 SOTA 成绩更重要。

原文链接: https://zhuanlan.zhihu.com/p/1994087076912718381
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。