Workflow
字节团队最新Robix!全能大模型,一个模型就能搞定机器人推理、任务规划和交互
具身智能之心·2025-09-08 00:03

文章核心观点 - 字节跳动提出统一视觉-语言模型Robix 作为机器人高层认知中枢 通过端到端架构整合推理 规划与交互能力 解决现有分层系统在动态场景中的能力割裂问题[2][3][5] - Robix通过三阶训练策略(持续预训练 有监督微调 强化学习)实现物理世界感知与人类需求适配 在基础推理 离线规划和在线场景中超越主流商业模型[5][13][22] - 模型在真实场景测试中任务进度达92.5-92.6% 较Gemini-2.5-Pro提升4.3个百分点 响应延迟更低 展现更强的物理操作适配性[29][32] 技术架构与工作机制 - 采用分层系统设计 Robix作为高层认知层处理多模态推理与任务规划 低层控制器执行原子动作指令形成感知-推理-动作闭环[7][8] - 输入包含视觉观测 用户指令和历史交互记录 输出原子动作指令 自然语言回复和结构化思考轨迹三大类型[9][11] - 支持复杂指令理解 实时中断处理 任务状态监测和主动对话四大核心交互能力[12] 训练策略与数据构建 - 持续预训练使用2000亿tokens数据 包含3D空间理解(400亿) 视觉定位(700亿) 任务中心推理(100亿)和通用多模态推理(900亿)四类数据集[13][14] - 有监督微调通过合成7类交互指令数据 涵盖多阶段指令 约束指令 实时中断处理和模糊指令澄清等场景[17][18][19] - 强化学习采用GRPO算法 引入思考-动作一致性奖励机制 解决推理与动作脱节问题[22][23] 性能表现 - 基础具身推理:Robix-32B在VSIBench得分50.9超Gemini-2.5-Pro(43.4)7.5个百分点 在LVIS-MG达79.2超开源模型最高值73.8[24][25] - 离线任务规划:Robix-32B-RL在OOD任务准确率86.8% 超Gemini-2.5-Pro(83.8%)3个百分点 在ID任务超开源模型28.1-64.6个百分点[27] - 在线真实场景:搭配自动VLA控制器时任务进度92.5% 超Gemini-2.5-Pro(88.2%)4.3个百分点 超GPT-4o(64.4%)28.1个百分点[32] 优势与局限 - 核心优势体现在统一性(单模型整合三大能力) 灵活性(支持动态重规划)和泛化性(OOD任务持续领先)[35][38] - 主要局限为动态场景鲁棒性不足 高频场景切换可能出现推理漏洞 且依赖短期记忆窗口难以支持长时交互[38]