小米开源首个跨域具身基座模型MiMo-Embodied,29个榜单SOTA

文章核心观点 - 小米具身智能团队发布了首个开源的、成功融合自动驾驶与具身智能的跨域基座模型 MiMo-Embodied,旨在打破两大领域长期割裂的局面,构建能够统一理解物理世界并进行复杂推理的通用智能体 [5] - 该模型采用创新的四阶段渐进式训练策略,在17个具身智能基准和12个自动驾驶基准上均刷新了记录(SOTA),性能超越了包括GPT-4o、Gemini-Pro在内的闭源模型,证明了跨域知识融合的巨大潜力 [5][18] - 模型实现了正向迁移,即两个领域的知识融合产生了协同效应,而非简单叠加,为构建通用的视觉-语言-行动(VLA)模型奠定了基础 [18][46] 模型架构与核心能力 - MiMo-Embodied 基于小米自研的 MiMo-VL 架构,将物理世界的交互能力解构为六大核心维度,旨在构建统一的感知与推理模型架构 [9][11] - 在自动驾驶侧,模型需具备环境感知、状态预测与驾驶规划能力,以应对高速动态场景 [11] - 在具身智能侧,模型重点攻克可供性预测与空间理解能力,以处理室内精细操作任务 [11] 四阶段渐进式训练策略 - 阶段一为具身与通用知识奠基,利用海量通用图文数据和具身智能数据进行监督微调,建立模型对静态物理世界的基础认知 [14] - 阶段二为自动驾驶知识注入与混合监督,引入大规模自动驾驶数据,并通过混合监督确保模型在学习驾驶知识时不遗忘具身能力 [14] - 阶段三为思维链推理的逻辑升华,利用包含显式推理步骤的数据集进行微调,提升模型在复杂场景下的逻辑推理能力与可解释性 [15] - 阶段四为强化学习的终极打磨,利用GRPO算法针对多模态模型的“幻觉”问题进行优化,将模型的执行精度推向极致 [16] 具身智能基准测试表现 - 在可供性预测能力上,模型在RoboRefIt、Where2Place、VABench-Point、Part-Afford和RoboAfford-Eval五个专业基准上均达到最优性能,尤其在VABench-Point、Part-Afford和RoboAfford-Eval上大幅领先 [19][22] - 在任务规划能力上,模型在RoboVQA基准上表现最优,在长时规划基准EgoPlan2上也取得极具竞争力的成绩 [23] - 在空间理解能力上,模型在综合空间智能任务CV-Bench上取得88.82分的最优结果,在RoboSpatial、RefSpatial-Bench和CRPE关系子集上均领先 [25][26] 自动驾驶基准测试表现 - 在环境感知能力上,模型在全景语义理解和具有挑战性的局部感知场景中均展现出最优表现和卓越鲁棒性 [27][28] - 在状态预测能力上,模型在单图像基准MME-RealWorld和多视图图像基准DriveLM上均取得强劲表现,准确捕捉行为意图并建模多智能体交互 [27][29] - 在驾驶规划能力上,模型在所有面向规划的基准测试中均表现突出,能生成准确、符合情境且可解释的驾驶决策 [27][30] 真实世界场景验证 - 在具身导航与操作任务中,模型在家庭导航场景(如定位卧室的床、餐厅的吸尘器)和功能导向操作任务(如识别勺子把手、定位放置位置)中均表现出色 [33][34] - 在自动驾驶轨迹规划中,模型在NAVSIM基准上显著超越竞争模型,并能处理路口转弯、弯道掉头、跟车和变道超车等多样化复杂场景 [38] - 在大规模专有数据集评估中,模型在所有评估类别均显著超越基线,尤其在复杂的交互任务(如转弯、绕障和变道)中性能提升最为显著 [39] 消融实验与策略有效性 - 系统性消融实验证明,仅使用自动驾驶数据训练的模型在具身任务上性能显著下降,而直接混合训练两个领域的数据会导致自动驾驶性能略有下降 [41][43] - 采用多阶段训练策略的MiMo-Embodied在具身任务上平均达到62.4%(相比混合训练提升4%),在自动驾驶任务上达到最优的63.3%(相比混合训练提升8.1%) [43][44] - 实验结果充分证明多阶段训练策略能够在不牺牲单一任务性能的前提下,实现具身智能和自动驾驶能力的协同提升 [44]