AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录
具身智能之心·2025-10-17 00:04

核心观点 - 清华大学智能产业研究院与上海人工智能实验室联合发布全开源通用跨本体具身基座模型X-VLA,该模型以仅0.9B的参数量在五大权威仿真基准上实现性能突破,并成功完成120分钟无辅助自主叠衣任务,为行业提供了新的技术范式 [3][8] 核心亮点 - 性能突破:模型率先实现超长时序灵巧操作任务(如自主叠衣)的全流程开源,攻克长期复杂自主作业难题 [8] - 极致高效:仅0.9B超轻量参数即在五大仿真基准上实现SOTA性能,达成卓越的效费比 [8] - 创新技术:通过Soft-Prompt与定制化训练范式打破大规模异构数据训练难题,构建高效通用的跨本体基座模型 [8] - 开源开放:完整公开模型参数、代码与训练数据,助力行业复现与创新 [7][8] 高效模型设计 - 面向本体泛化的Soft-Prompt机制:通过可学习的Soft-Prompt动态编码机器人硬件配置信息,增强模型对异构机器人平台的适应能力并提升混合数据训练稳定性 [10] - 基于功能分工的多模态编码策略:主视角图像由高性能视觉-语言模型编码以提取高层语义特征,辅助视角则通过轻量化网络进行局部特征提取,优化计算资源分配 [10] - 基于flow-matching的生成式动作解码器:采用概率生成方式建模机器人动作序列,增强动作轨迹平滑性与对环境不确定性的鲁棒性 [10] 大规模高质量异构数据预训练 - 实施平衡化数据采样策略,确保异构数据集的均衡训练,避免模型偏斜 [12] - 建立多模态数据清洗与时空对齐流水线,将动作数据统一映射至标准任务空间并进行时序对齐与重采样,提升数据质量 [12] - 确立以语义-动作对齐为导向的数据遴选标准,筛选视觉帧清晰、语言指令精准且与动作序列高度关联的样本,确保模型学习明确因果关系 [12] 定制后训练流程与技巧 - 预训练缩放定律曲线呈现优异线性增长趋势,表明模型性能随参数和数据规模扩大可稳定提升,验证了架构的可扩展性 [15] - 后训练阶段展现出极高数据效率与稳定性,仅需中小规模场景专属数据微调即可快速适应下游任务并达到SOTA性能 [16] - 采用分层分组的自适应学习率调整和面向异构模块的渐进式warm-up策略,保证训练稳定性并优化收敛效率 [17] 仿真基准测试结果 - 在五大权威仿真基准(包括LIBERO、SIMPLER等)上全面超越现有SOTA模型 [18] - 具体性能表现:在Simpler基准的VM任务上达到80.4%,VA任务上达到75.7%,WidowX任务上达到95.8%;在LIBERO基准的Spatial任务上达到98.2%,Object任务上达到98.6%,Goal任务上达到97.8%,Long任务上达到97.6%,平均达到98.1%;在Calvin基准的ABC -> D任务上达到4.43;在RoboTwin-2.0基准的Easy任务上达到70.0%,Hard任务上达到39.0%,平均PS达到51.1%;在NAVSIM基准的PDMS任务上达到87.3% [18] 实机实验测试结果 - 在真实机器人平台上,模型在常规抓取和复杂桌面操作任务中展现强大性能,并成功完成不限时长的自主叠衣任务 [19] - 模型具备零样本迁移部署至全新环境的能力,展示了其应对复杂长程任务的卓越能力 [19]