IROS 2025-Challenge冠军方案:X-VLA重磅开源,全面刷新机器人基准性能记录
具身智能之心·2025-10-29 04:07

模型性能突破 - 模型在五大权威仿真基准上全面刷新性能纪录,在Simpler基准的VM任务中达到80.4分,VA任务达到75.7分,WidowX任务达到95.8分,显著超越现有SOTA模型[2][7][24] - 模型以仅0.9B的超轻量参数量实现卓越效费比,在LIBERO基准的Spatial、Object、Goal、Long任务中分别达到98.2、98.6、97.8、97.6分,平均分98.1分,超越现有最高分97.1分[2][7][24] - 模型在Calvin基准的ABC->D任务达到4.43分,在RoboTwin-2.0基准的Easy和Hard任务分别达到70.0分和39.0分,平均分51.1分,在VLABench基准达到87.3分,全面超越现有SOTA[24] 技术竞赛表现 - 在IROS-2025 AGIBOT World Challenge中从全球23个国家431支战队中脱颖而出,最终获得全球第一名[4][5] - 竞赛围绕抓取、折叠、烹饪、倒水等六大真实物理任务展开,模型在多任务多场景的真实物理操作中展现出卓越泛化能力与鲁棒性[4][5] 技术创新亮点 - 引入面向本体泛化的Soft-Prompt机制,动态编码机器人硬件配置信息为连续表征,显著增强模型对异构机器人平台的适应能力[16] - 采用基于功能分工的多模态编码策略,主视角图像由高性能视觉-语言模型编码,辅助视角通过轻量化网络提取局部特征,优化计算资源分配[16] - 采用基于flow-matching的生成式动作解码器,以概率生成方式建模机器人动作序列,增强动作轨迹平滑性与环境鲁棒性[17] 训练数据优化 - 实施严格的多模态数据清洗与时空对齐流水线,将不同空间动作数据统一映射至标准任务空间,提升状态-动作序列的时间一致性逻辑[21] - 确立以语义-动作对齐为导向的数据遴选标准,筛选视觉帧清晰、语言指令精准且与动作序列高度关联的数据样本[21] 实际应用成果 - 在真实机器人平台上成功完成无限时长的自主叠衣任务,展示了应对复杂长程任务的卓越能力[27] - 在大量简单抓取和桌面操作任务中展现强大性能,验证了模型在真实物理环境中的实用性[27]