Gemini Robotics 1.5系列

搜索文档
首款推理具身模型,谷歌DeepMind造!打破一机一训,零样本迁移
具身智能之心· 2025-09-28 01:05
产品发布与定位 - 谷歌DeepMind正式发布新一代通用机器人基座模型Gemini Robotics 1.5系列 成为全球首个具备模拟推理能力的具身模型[3][5] - 该系列由两大模型组成:GR 1.5负责动作执行的多模态大模型 GR-ER 1.5强化推理能力并提供规划与理解支持[4][6] - 两大模型协同工作 其中GR-ER 1.5不执行实际操作 而GR 1.5专为执行层设计 两者结合实现"先思考再行动"的完整闭环[6][7][37] 技术能力与创新 - 模型具备执行复杂长程任务能力 可将多步任务分解为多个阶段并逐一完成 例如分拣深浅色衣物或根据天气打包行李[7][11][13] - 引入全新Motion Transfer机制 将不同机器人平台的运动轨迹映射到统一动作语义空间 实现零样本跨平台技能迁移[9][19][46] - 在230项任务基准测试中 模型在指令泛化、动作泛化、视觉泛化和任务泛化四个维度表现优异 明显优于前代模型[58] - 长时序任务完成进度分数最高接近80% 几乎是单一VLA模型的两倍[59] - 在ASIMOV-2.0安全基准中展现出更高风险识别与干预能力 能够理解物理风险并触发保护机制[61] 应用场景与性能 - 可驱动多种机器人硬件包括低成本双臂机器人ALOHA、工业级Franka和人形机器人Apollo 实现丝滑无缝迁移[16][17] - 能够根据特定要求自主上网搜索信息 例如根据不同城市的垃圾分类标准帮助完成分类任务[8] - 具备自我检测与修正能力 在操作失败时可立即转换方案 例如抓取水瓶失败后改用另一只手完成[31] - 能识别潜在风险并避免危险动作 确保在人类环境中的运行安全性[32] 技术架构与数据 - 两款模型均基于Gemini基础模型构建 并使用适应物理空间操作的数据进行微调[34] - GR 1.5作为执行者 直接将自然语言和视觉输入转化为低层级机器人动作[35] - GR-ER 1.5作为大脑指挥官 负责理解复杂任务、做出高层规划并调用外部工具及监控进度[36] - 训练数据包括真实机器人在ALOHA、Franka、Apollo等平台完成的成千上万种操作数据 以及互联网中的文本、图像与视频信息[39][40] - 约90%以上的迭代在MuJoCo仿真环境中完成 显著提升研发效率并保证现实硬件执行的稳定性与安全性[47][48] 行业影响与定位 - 该模型代表谷歌将通用AI推向现实世界的重要里程碑 使机器人从执行单一指令转向对物理任务进行真正理解和解决问题[10][64] - 在学术基准测试中 GR-ER 1.5在空间推理、复杂指点和进度检测等任务上全面超越GPT-5和Gemini 2.5 Flash[56] - 具备显性思考能力 行动前会用自然语言拆解复杂任务 提升可解释性和信任感[24][25][51]
首款推理具身模型,谷歌DeepMind造!自主理解/规划/执行复杂任务,打破一机一训,还能互相0样本迁移技能
量子位· 2025-09-27 04:46
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌DeepMind正式发布 新一代通用机器人基座模型 ——Gemini Robotics 1.5系列。 它不止于对语言、图像进行理解,还结合了视觉、语言与动作 (VLA) ,并通过具身推理 (Embodied Reasoning) 来实现"先思考,再行 动"。 全球首个具备模拟推理能力的具身模型来了! 这一系列由两大模型组成: 其中,ER代表"具身推理"。 这意味着GR-ER 1.5是全球首个具备模拟推理能力的具身模型。 不过, GR-ER 1.5并不执行任何实际操作 ,GR 1.5正是为执行层而生。 两者结合,能让机器人不仅完成"折纸、解袋子"这样的单一动作,还能解决"分拣深浅色衣物"甚至"根据某地天气自动打包行李"这种需要理解 外部信息、分解复杂流程的多步任务。 甚至,它能根据特定地点的特定要求 (比如北京和上海的不同垃圾分类标准) ,自己上网搜索,以帮助人们完成垃圾分类。 而且用上GR 1.5系列的模型,还能够在多种不同的机器人之间进行能力的零样本跨平台迁移。 Gemini Robotics 1.5 (GR 1.5) :负责动作执行的多模态大模型; ...