字节发了个机器人全能大模型,带队人李航
量子位·2025-09-06 04:21
技术突破 - 字节推出Robix视觉-语言单模型 整合机器人推理 任务规划和自然语言交互三大功能 解决多模块拼接导致的信息代沟问题 [1][3][4] - 模型采用思维链推理技术 基于当前场景物体 空间关系和任务要求进行迭代决策 实现思考过程 动作指令和人类回复的逻辑循环整合 [10][12][13][14] - 通过三阶段训练策略:持续预训练阶段使用机器人数据学习3D空间和语言-画面对应 监督微调阶段模拟真实场景训练逻辑思维 强化学习阶段通过算法纠正决策偏差 [17][19] 性能表现 - 在8个空间理解任务中 Robix的7B和32B版本有7个任务表现优于Qwen2 5-VL 平均准确率更高 [21] - 在多数基准测试中超越闭源模型 包括GPT-4o和Gemini 2 5 Pro [21] - 离线评估中Robix-32B-RL在所有评估集上排名第一 [22] - 在线评估使用UMI设备时 Robix-32B在5个任务中的3个超越Gemini 2 5 Pro 平均任务进度更高且大幅超越Qwen2 5-VL-32B [23] - 使用GR-3进行自动化真实机器人评估时 Robix-32B平均任务进度达92 5% 分别比Gemini 2 5 Pro和GPT-4o高出4 3和28 1个百分点 [25] 行业影响 - 机器人模型发展方向从拼凑模块数量转向提升单一模型的综合能力 [27] - 项目由字节AI实验室负责人李航博士领导 其曾担任华为诺亚方舟实验室主任和首席科学家 2017年加入字节后主导机器人项目 [28][30]