字节发了个机器人全能大模型，带队人李航

技术突破 - 字节推出Robix视觉-语言单模型整合机器人推理任务规划和自然语言交互三大功能解决多模块拼接导致的信息代沟问题 [1][3][4] - 模型采用思维链推理技术基于当前场景物体空间关系和任务要求进行迭代决策实现思考过程动作指令和人类回复的逻辑循环整合 [10][12][13][14] - 通过三阶段训练策略：持续预训练阶段使用机器人数据学习3D空间和语言-画面对应监督微调阶段模拟真实场景训练逻辑思维强化学习阶段通过算法纠正决策偏差 [17][19] 性能表现 - 在8个空间理解任务中 Robix的7B和32B版本有7个任务表现优于Qwen2 5-VL 平均准确率更高 [21] - 在多数基准测试中超越闭源模型包括GPT-4o和Gemini 2 5 Pro [21] - 离线评估中Robix-32B-RL在所有评估集上排名第一 [22] - 在线评估使用UMI设备时 Robix-32B在5个任务中的3个超越Gemini 2 5 Pro 平均任务进度更高且大幅超越Qwen2 5-VL-32B [23] - 使用GR-3进行自动化真实机器人评估时 Robix-32B平均任务进度达92 5% 分别比Gemini 2 5 Pro和GPT-4o高出4 3和28 1个百分点 [25] 行业影响 - 机器人模型发展方向从拼凑模块数量转向提升单一模型的综合能力 [27] - 项目由字节AI实验室负责人李航博士领导其曾担任华为诺亚方舟实验室主任和首席科学家 2017年加入字节后主导机器人项目 [28][30]