小米打通智驾和具身大模型,然后开源了

核心观点 - 小米汽车陈龙团队提出并开源了全球首个打通自动驾驶与具身智能领域的跨具身(X-Embodied)基座模型MiMo-Embodied,旨在解决两大领域间的知识迁移难题,并实现统一的视觉语言模型能力 [1][3] 模型架构与设计理念 - MiMo-Embodied基于MiMo-VL架构,由视觉Transformer(ViT)、投影器(MLP)和大语言模型(LLM)三部分组成,旨在无缝集成视觉与文本信息,增强多模态推理能力 [12][13] - 模型设计旨在解决当前具身/自动驾驶VLM领域缺乏统一模型、存在显著领域差距以及评估体系缺失的三大问题 [6][7][8][9] - 其核心目标是将自动驾驶(户外道路)和具身智能(室内操作)的任务合并到一个统一的VLM中,以整合跨领域能力 [10] 数据构建与训练策略 - 训练数据涵盖通用多模态理解、具身AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的高质量数据集 [15] - 采用了包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,以逐步建立并强化模型能力 [3][16] - 阶段1:结合通用数据和具身数据进行监督微调,建立核心的视觉语言理解与具身推理能力 [18][19] - 阶段2:在阶段1基础上加入大量自动驾驶数据,重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 [18][20] - 阶段3:使用包含明确推理步骤的思维链(CoT)数据进行微调,增强模型处理复杂多步问题的能力 [18][20] - 阶段4:使用GRPO强化学习算法进行微调,通过设计奖励信号进一步优化模型的精确度和可靠性 [18][20] 性能评估:具身智能能力 - 在涵盖可供性预测、任务规划和空间理解三大核心领域的共计29个基准测试上,MiMo-Embodied超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能 [3][22] - 在可供性预测任务中,MiMo-Embodied在RoboRefit基准上取得82.30分,在VABench-Point上取得46.93分,在Part-Afford上取得65.50分,在RoboAfford-Eval上取得69.81分,表现优于多数对比模型 [23] - 在空间理解任务中,MiMo-Embodied在多个基准上表现优异,例如在CV-Bench上取得88.82分,在EmbSpatial上取得46.75分,在SAT上取得76.24分,在RoboSpatial上取得78.67分,在RefSpatial上取得61.76分 [24] 性能评估:自动驾驶能力 - 在自动驾驶的感知、预测和规划能力评估中,MiMo-Embodied在12个基准测试上均取得强劲性能 [24][25] - 在感知与规划任务中,模型在CODA-LM基准上取得58.55分,在Drama基准上取得76.14分,在MME-RealWorld基准上取得60.25分,在IDKB基准上取得43.42分,在OmniDrive基准上取得45.21分,在Nulnstruct基准上取得83.58分 [25] - 在其他关键自动驾驶基准上,模型在DriveLM上取得57.85分,在MAPLM上取得74.52分,在nuScenes-QA上取得56.71分,在LingoQA上取得69.90分,在BDD-X上取得52.18分,在DriveAction上取得80.99分 [26] 现实世界任务定性评估 - 在具身导航任务中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0等模型,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和更一致的性能 [27] - 在具身操作任务中,MiMo-Embodied展现出强大的可供性和空间推理能力 [29] - 在自动驾驶场景中,模型能够处理交叉路口转弯、弯道掉头、跟车和变道超车等多样化复杂任务,并能感知道路上下文、整合车辆状态与导航意图以做出连贯决策 [32][33][34][35] - 在转弯、绕开障碍物和变道等复杂交互式操作中,MiMo-Embodied的性能提升最为显著 [36] 团队背景与未来方向 - 该研究由小米汽车陈龙团队完成,论文一作为郝孝帅博士,其于2024年8月加入小米汽车,在首席科学家陈龙博士指导下从事具身多模态大模型研究 [39][42] - 团队计划基于MiMo-Embodied模型的能力,进一步探索具身智能视觉-语言-动作(VLA)模型,以通过自然语言理解增强复杂环境中的交互 [38] - 模型已全面开源,相关论文、代码及权重已在arXiv、GitHub和Huggingface平台发布 [44]