谷歌发布机器人最新「大脑」模型，思考能力SOTA，还能「跨物种」学习

产品发布 - 谷歌DeepMind发布专为机器人和具身智能打造的Gemini Robotics 1.5系列模型包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5两个核心组件 [2][3] - 该系列模型构建出强大的智能体框架通过协同工作显著提升机器人对长周期任务和多样化环境的泛化能力 [4][9] 技术特性 - Gemini Robotics 1.5是最先进的视觉-语言-行动模型能将视觉信息和指令转化为机器人运动指令以执行任务 [7] - Gemini Robotics-ER 1.5是最强大的视觉-语言模型擅长在物理环境中进行规划与逻辑决策拥有顶尖空间理解能力并支持自然语言交互 [6][7] - 模型具备"思考后行动"能力能以自然语言生成内部推理序列执行需要多步骤或深层语义理解的任务 [6][15] - Gemini Robotics-ER 1.5可直接调用谷歌搜索等工具获取信息并支持使用第三方用户自定义功能 [6] 性能表现 - Gemini Robotics-ER 1.5在学术和内部基准测试中均实现最先进的性能表现是首个为具身推理优化的思维模型 [10] - 模型具备物体检测与状态估计分割掩码指向识别轨迹预测以及任务进度评估与成功检测等多重能力 [13] 应用案例 - 机器人成功完成旧金山市垃圾分类任务根据标准将物品分到堆肥回收和垃圾三类桶中 [6] - Apollo机器人完成行李打包任务主动查询伦敦天气后提醒多雨并将雨伞放入行李 [6] - 机器人实现不同颜色水果分类放置展现环境感知颜色分析和多步骤执行能力 [15] - 展示跨机器人形态学习能力 Aloha的经验可迁移至Apollo 使其完成开门拿衣服等全新动作 [16] 行业影响 - 该技术突破有望打开通用机器人新时代使机器人成为与人类协作主动完成复杂任务的智能伙伴 [1][6] - 跨具身学习能力允许不同形态机器人间相互迁移技能无需针对每种新形态专门调整模型 [16] - 未来物流零售等不同场景中的机器人可互相学习大幅加速通用机器人研发进程 [16]