Gemini Robotics 1.5 系列
搜索文档
——机器人行业点评报告:Google DeepMind加大布局机器人项目,软硬件同步发力
申万宏源证券· 2025-11-28 06:04
行业投资评级与核心观点 - 报告未明确给出整体行业投资评级,但指出机器人主机厂商及相关产业链将直接受益于Google DeepMind的布局[2] - 核心观点:Google DeepMind加大机器人领域布局,软硬件同步发力,旨在构建以Gemini为基础的通用AI系统,类似“机器人界的安卓”;AI驱动的机器人技术预计在未来几年迎来突破性时刻[2] - 引入波士顿动力前CTO Aaron Saunders担任硬件工程副总裁,标志着对具身智能模型的信心和产业趋势拐点的判断[2] Google DeepMind技术布局与进展 - DeepMind内部启动Gemini Robotics项目,目标是用多模态大模型直接输出动作token;2025年3月推出Gemini Robotics系列,6月推出On-Device版本,9月发布新一代通用机器人基座模型Gemini Robotics 1.5系列[2] - Gemini Robotics 1.5系统由两个模型协同工作:协调器(Gemini Robotics-ER 1.5)负责上层思考与任务规划;动作模型(Gemini Robotics 1.5)负责将指令转化为底层动作轨迹[2] - 三大技术创新包括运动迁移(无需额外训练跨形态学习)、“思考再行动”的VLA(提升多步骤任务成功率)以及强化物理世界推理能力;测试显示其多形态、多任务泛化能力明显优于同类模型[2] - 此前DeepMind在具身智能领域偏重科研(如2022年RT-1、2023年RT-2模型),Gemini 3的进展证明通用模型可行性,为具身智能应用赋能[2] 受益公司及产业链分析 - 报告列出重点公司估值表,涉及主机厂商如优必选(09880)、极智嘉-W(02590),以及零部件公司如恒立液压(601100)、汇川技术(300124)等[3] - 主机厂优必选2025年预测EPS为-2.0元/股,对应PE为-49.5;零部件公司恒立液压2025年预测EPS为2.1元/股,对应PE为47.7[3] - 产业链公司覆盖运动控制、液压系统、电气部件等环节,直接受益于机器人技术突破与商业化推进[2][3]
机械设备行业专题研究:机器人大脑是商业化焦点,Sim2real或成主流训练方案
国盛证券· 2025-10-26 09:06
行业投资评级 - 增持(维持)[4] 核心观点 - 机器人大脑是商业化焦点,Sim2real或成主流训练方案 [1] - 从LLM到VLA再到世界模型,人形机器人“大脑”发展迅猛,模型性能逐步提高 [1][9] - Tesla Optimus等海外模型拟人化程度高,国内研究机构在算法和数据集方面取得不错进展 [3] 机器人大脑模型技术演进 - LLM基于大规模文本数据训练的Transformer架构,解决了文本理解问题但无法处理图像 [9] - VLM跨模态融合突破文本限制,可同时识别图像和文本,由视觉编码器和语言模型组成 [12] - VLA模型跨越了图像/文本感知与机器人动作之间的鸿沟,RT-2是全球首个VLA模型,极大提升了泛化能力但数据收集成本较高 [1][17] - 模型输入端从视觉扩展到触觉,提升了鲁棒性 [1] - ViLLA框架采用无标注视频训练,解决了机器人动作不符合物理学的问题 [22] - 机器人模型终局形态或为世界模型,如Gemini Robotics 1.5系列已具备思维能力,可将AI世界带入物理世界 [26][28] 主流训练方案与发展 - Sim2Real或为未来主流训练方式,通过合成数据生成技术让机器人积累经验,使用虚拟数据为主、真实数据为辅 [2] - Sim2Real技术核心是串联AI超级计算机、仿真计算机(Omniverse和Isaac Sim)和物理AI计算机(GROOT、Cosmos、Jetson Thor)三台计算机 [2] - 银河通用发布的DexonomySim开源合成数据集即采用虚拟与真实数据合成 [2] 重点公司/机构模型分析 - Tesla Optimus的AI系统高度借鉴FSD技术,采用纯视觉方案和端到端单一神经网络,并与xAI的Grok模型深度融合,拟人化程度高 [29][30][33] - Tesla从模仿学习转向视频学习,下一步大模型架构方向或为世界模型 [36] - 北京通用人工智能研究院提出全球首个“力位混合控制算法”统一理论,无需使用传感器,相关任务成功率较仅使用位置控制策略提高约39.5% [3][58] - 银河通用发布全球首个灵巧手功能性抓取合成大数据集DexonomySim [3] - 智元启元大模型(GO-1)采用ViLLA架构,由VLM和MoE组成,可结合互联网视频和人类示范进行学习 [40] - Figure AI的Helix模型采用“系统1”(200Hz高速执行)与“系统2”(7-9Hz语义推理)双层解耦架构,可通过语言指定获取新技能 [46][48] - 宇树科技推出的UnifoLM-WMA-0是世界模型-动作架构,核心是理解机器人与环境交互物理规律的世界模型 [51]