Workflow
字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
机器之心·2025-09-07 05:12

文章核心观点 - 字节跳动Seed团队发布一体化机器人模型Robix 实现从指令执行器到统一思考者的转变 通过端到端多模态架构整合推理 任务规划与人机交互 显著提升机器人在复杂动态环境中的适应性和智能水平 [2][4][6] 技术架构创新 - 采用层次化机器人系统架构 将大脑(高阶认知层)与小脑(低阶控制层)解耦 实现宏观思考与微观执行的协同 [7][12] - 构建统一视觉语言模型 原生整合推理 任务规划与自然语言交互三大功能 解决现有多模态模型具身推理不足和交互能力缺失的瓶颈 [9][10] - 通过持续预训练增强物理世界认知 使用约2000亿token数据强化视觉识别 3D空间理解和任务推理等核心能力 [36][37] 性能表现 - 在31个公开基准测试中 Robix-7B和Robix-32B在3D空间理解任务平均准确率较基座模型Qwen2.5-VL分别提升6.5和5.1个绝对点 并在5项任务超越Gemini-2.5-Pro [42][48] - 视觉定位能力显著提升 在多物体定位LVIS-MG基准上Robix-7B/32B较Qwen2.5-VL-7B/32B的F1分数分别提高39.6和25.0个绝对点 [48] - 具身任务推理优势明显 在Agibot-ER基准上准确率较Qwen2.5-VL-7B/32B提升12.8和7.2个绝对点 [48] 交互能力突破 - 具备主动规划与动态调整能力 可识别任务缺失环节(如做菜缺配料)并主动询问 实时响应中断指令并重规划(如更改物品处理方式) [5][20][25] - 展现立体空间理解 能准确处理"离你较远的这一排从左往右数第三个物体"等复杂空间指令 [29] - 支持开放式对话 可评价用户绘画作品并进行任务总结式主动交互(如询问剩余物品处理方式) [27][36] 训练方法论 - 三阶段训练策略:先通过海量数据构建物理直觉 再通过交互合成流水线模拟七类复杂人机场景 最后用强化学习纠正思想-行动偏差 [35][38][39] - 创新交互数据集覆盖多阶段指令 约束指令 随时打断 模糊指令等七种场景 提升模型泛化能力 [38] - 引入思想-行动一致性奖励函数 通过强化学习优化逻辑严谨性和行动可靠性 [39] 实测表现 - 在线真实任务测试中 Robix-32B与UMI设备结合实现92.6%平均任务完成率 优于Gemini-2.5-Pro(91.0%)和GPT-4o(64.3%) [51] - 端到端测试中与VLA模型GR-3结合达到92.5%完成率 高于Gemini-2.5-Pro(88.2%) 解决VLM-VLA指令对齐问题 [55] - 在跨领域泛化任务中准确率领先Gemini-2.5-Pro达11.8个百分点 思维链推理使Open Instruction任务性能提升26.7个点 [54]