Workflow
EmbodiedBrain模型
icon
搜索文档
突破具身智能任务规划边界,刷新具身大脑多榜单SOTA,中兴EmbodiedBrain模型让具身大脑学会「复杂规划」
机器之心· 2025-12-03 08:30
文章核心观点 - 中兴星云大脑团队推出具身视觉-语言基础模型EmbodiedBrain,旨在解决当前大语言模型在具身智能任务中面临的模型设计与实际需求脱节、实时延迟与性能权衡、离线评估不真实三大核心瓶颈 [2] - 该模型以7B和32B两种参数规格构建,提供了涵盖数据架构、训练策略、评估体系的全流程创新框架,为下一代通用具身智能体发展提供突破性解决方案 [2] 架构创新 - 模型基于Qwen2.5-VL框架,采用模块化编码器-解码器架构,实现“感知-推理-行动”全链路深度协同 [5] - 核心组件包括原生分辨率视觉Transformer、轻量级MLP视觉-语言融合器和基于Qwen2.5初始化的解码器,各司其职且高效联动 [9] - 工作流程将视觉和文本输入转化为多模态token序列,解码器输出包含自然语言响应、分步规划和可执行动作序列的三部分结构化结果 [10] - 以“从冰箱取番茄并加热”任务为例,模型能生成清晰规划(导航至冰箱→打开冰箱→取出番茄→导航至微波炉→加热番茄)和对应动作序列,实现语义理解到物理执行的闭环 [10] 数据与训练 - 创新设计规划中心型结构化数据格式,严格遵循“用户查询-模型响应-显式规划-底层动作”层级逻辑,确保高层任务目标与底层执行步骤精准对齐 [12] - 训练数据涵盖四大核心类别:通用多模态指令数据(约52K样本)、空间推理数据(约130K样本)、任务规划数据(约51.5K样本)和视频理解数据(约20K样本) [14][15][17] - 通过对比5种数据混合方案,确定最优配比(52:130:51.5:20),该配比在空间推理平均得分达70.27%,任务规划平均得分达64.64% [17][25] - 训练采用两阶段策略:Stage 1多模态拒绝采样SFT提升基础感知与推理能力;Stage 2 Step-GRPO多任务强化学习聚焦长程任务规划与输出格式标准化,实现约20%训练加速 [20][21][24] 评估体系 - 构建三维评估体系,覆盖14项主流基准测试,包括通用多模态能力(5项)、空间感知(4项)和任务规划(5项) [27] - 在通用多模态能力评估中,EmbodiedBrain-32B在MM-IFEval达46.98%,较Qwen2.5-VL 32B(46.66%)与RoboBrain 2.0 32B(39.75%)显著领先;在MMStar达65.80%,超越同类模型 [28] - 在空间感知评估中,EmbodiedBrain-7B在BLINK达88.11%,较RoboBrain 2.0 7B(62.94%)提升39.99%;32B版本在CV-Bench达83.64%,EmbSpatial达77.03%,均为测试模型最高 [30] - 在任务规划评估中,EmbodiedBrain-32B在Internal Planning基准F1分数达90.50%,较Qwen2.5-VL 32B(28.30%)提升超2倍;在VLM-PlanSim-99仿真基准成功率斩获46.46%,几乎是对比模型的两倍 [31] 典型案例与开源 - 在空间推理任务中能精准回答物体相对位置、目标物体计数等问题,例如正确识别“车门在左侧”、“手中物品为鸡蛋” [37] - 在任务规划案例中,针对“清洗碗具并冷藏”任务,模型生成11步完整执行序列,从导航至碗具到存放至冰箱,每一步符合物理逻辑与任务流程 [41] - 团队已将全部训练数据、模型权重与评估方法开源,同时开源创新的VLM-PlanSim-99仿真环境,为具身智能领域提供统一基准平台与工具链 [43] - 未来将重点推进多智能体协同任务和领域随机化技术研究,提升模型在不同真实机器人平台上的适配性,推动具身智能从仿真环境走向实际应用 [43]