Workflow
谷歌发布机器人最新「大脑」模型,思考能力SOTA,还能「跨物种」学习
36氪·2025-09-26 04:05

产品发布 - 谷歌DeepMind发布专为机器人和具身智能打造的Gemini Robotics 1.5系列模型 包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5两个核心组件 [2][3] - 该系列模型构建出强大的智能体框架 通过协同工作显著提升机器人对长周期任务和多样化环境的泛化能力 [4][9] 技术特性 - Gemini Robotics 1.5是最先进的视觉-语言-行动模型 能将视觉信息和指令转化为机器人运动指令以执行任务 [7] - Gemini Robotics-ER 1.5是最强大的视觉-语言模型 擅长在物理环境中进行规划与逻辑决策 拥有顶尖空间理解能力并支持自然语言交互 [6][7] - 模型具备"思考后行动"能力 能以自然语言生成内部推理序列 执行需要多步骤或深层语义理解的任务 [6][15] - Gemini Robotics-ER 1.5可直接调用谷歌搜索等工具获取信息 并支持使用第三方用户自定义功能 [6] 性能表现 - Gemini Robotics-ER 1.5在学术和内部基准测试中均实现最先进的性能表现 是首个为具身推理优化的思维模型 [10] - 模型具备物体检测与状态估计 分割掩码 指向识别 轨迹预测以及任务进度评估与成功检测等多重能力 [13] 应用案例 - 机器人成功完成旧金山市垃圾分类任务 根据标准将物品分到堆肥 回收和垃圾三类桶中 [6] - Apollo机器人完成行李打包任务 主动查询伦敦天气后提醒多雨并将雨伞放入行李 [6] - 机器人实现不同颜色水果分类放置 展现环境感知 颜色分析和多步骤执行能力 [15] - 展示跨机器人形态学习能力 Aloha的经验可迁移至Apollo 使其完成开门 拿衣服等全新动作 [16] 行业影响 - 该技术突破有望打开通用机器人新时代 使机器人成为与人类协作 主动完成复杂任务的智能伙伴 [1][6] - 跨具身学习能力允许不同形态机器人间相互迁移技能 无需针对每种新形态专门调整模型 [16] - 未来物流 零售等不同场景中的机器人可互相学习 大幅加速通用机器人研发进程 [16]