小米的MiMo-Embodied,到底讲的是什么?整合自驾和具身任务,29项SOTA!
具身智能之心·2025-11-22 16:03

文章核心观点 - 小米推出首个跨领域统一模型MiMo-Embodied,成功整合自动驾驶与具身智能两大领域,在29项相关基准测试中取得SOTA性能 [5] - 该模型解决了现有模型局限于单一领域、缺乏跨场景泛化能力的问题,为动态物理环境中的理解与推理提供了统一解决方案 [5][7] - 通过精心设计的四阶段训练策略,实现了自动驾驶与具身智能能力的正向迁移与相互增强,性能显著超越单一领域训练和直接混合训练的方法 [9][27] 模型解决的问题与核心能力 - 解决跨领域统一性问题:首次将自动驾驶(户外场景)与具身智能(室内场景)任务整合进单一模型,突破现有模型跨场景泛化能力不足的局限 [5][7] - 全面覆盖核心能力:同时支持自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力 [8] - 构建统一评估体系:弥补了现有基准仅针对单一领域部分能力测试的不足,提供了全面的跨具身能力评估 [5] 模型架构与训练策略 - 核心架构组件:基于MiMo-VL的ViT视觉编码器、MLP投影器以及负责文本理解与逻辑推理的大语言模型,支持单图、多图、视频等多种视觉输入 [12][13] - 四阶段训练策略: - 阶段1:融合通用数据集与具身智能数据集,建立基础理解能力 [21] - 阶段2:注入自动驾驶专用数据,强化动态环境理解与安全关键任务能力 [21] - 阶段3:思维链推理微调,增强模型逻辑连贯性与决策透明度 [21] - 阶段4:强化学习微调,针对短板场景优化,提升输出精度与可靠性 [21] - 训练参数配置:前三个阶段批量大小为512,学习率为2×10⁻⁶,第四阶段批量大小为32,学习率为1×10⁻⁶,均采用AdamW优化器和Cosine学习率调度 [20] 性能表现与基准测试 - 具身智能基准测试(17项):在可用性预测、任务规划、空间理解等领域全面领先,其中在VABench-Point基准得分为82.30,在Part-Afford基准得分为69.81,显著优于Qwen2.5-VL、GPT-4o等对比模型 [22][24] - 自动驾驶基准测试(12项):在环境感知、状态预测、驾驶规划等任务中表现优异,在CODA-LM基准得分为76.14,在NAVSIM基准得分为83.58,超越RoboTron-Drive等专用模型 [24][25][26] - 消融实验验证:四阶段训练策略使具身任务平均性能达62.4%(较混合训练提升4%),自动驾驶性能达63.3%(较混合训练提升8.1%),显著优于单一领域训练方案 [27][38] 真实世界应用展示 - 目标物体定位:在具身导航任务中能够准确指示目标物体位置(如床、吸尘器、植物、马桶),定位精度显著高于GPT-4o、Qwen2.5-VL等对比模型 [31][32] - 复杂操作任务执行:能够理解并执行"将锅盖放在锅左侧"、"将粉色勺子放入锅中"等多步骤操作指令,展现出强大的空间推理与任务规划能力 [33][34] - 跨领域泛化能力:模型在部署到下游具身操作任务时表现出色,验证了其在真实物理环境中的实用性与可靠性 [33][34]