Workflow
机器人硬件的寒武纪大爆发
icon
搜索文档
深度|斯坦福副教授、具身智能独角兽PI联创:未来将呈现机器人硬件的寒武纪大爆发,人们低估了运动控制中蕴含的智能
Z Potentials· 2025-05-04 05:11
机器人研究历程 - 研究始于十多年前加州大学伯克利分校攻读博士学位期间 主要探索神经网络控制 训练神经网络直接从图像像素映射到机器人手臂的电机力矩 这在当时并不流行 但如今已成为主流研究方向之一 [5] - 早期训练机器人完成拧瓶盖、用铲子放入碗中、精准插入物体等任务 但发现跨场景泛化能力是巨大挑战 [5] - 博士毕业后在Google Brain工作一年 随后回斯坦福创立实验室 继续围绕强化学习、视频预测、模仿学习等方向展开研究 [6] Physical Intelligence核心方向 - 目标是打造庞大神经网络模型 能够控制任何机器人在任何环境下完成任何任务 从根本上解决机器人通用智能问题 [7] - 与传统方法不同 强调最大化利用跨平台机器人数据 整合六轴关节、七轴关节、双臂、单臂等不同形态数据提升模型泛化能力 [7] - 构建"基础模型"驱动下一代现实世界机器人技术 避免因硬件迭代导致旧数据失效 [8] 技术架构与数据策略 - 核心挑战是缺乏海量机器人动作数据 需在现实世界扩大数据收集规模 去年10月已展示扩展数据后机器人可执行叠衣服、擦桌子等复杂任务 [9] - 使用Transformer和预训练视觉-语言模型 使机器人能理解未训练过的概念 例如将猫罐头递给Taylor Swift [10] - 当前重点提升数据多样性 在三座建筑采集数据后 需扩展至更多场景、物体和任务 同时优化机器人环境适应能力 [10][11] 开源策略与行业定位 - 采取开源模式 公开部分模型权重和技术细节 与硬件公司合作提供设计方案 推动整个领域发展 [12] - 认为当前阶段开放协作比保护知识产权更重要 优秀工程师更倾向开放环境 且最大风险是技术本身无法突破而非竞争 [12][13] - 相比大公司 初创企业更具灵活性 能快速将机器人部署到不同环境测试 突破数据采集限制 [26][27] 关键技术突破 - SayCan研究证明语言模型可用于高层规划 Archi Tool研究展示网络数据提升泛化能力 RT-X研究实现跨机器人形态模型训练 [18] - Mobile ALOHA远程操作系统使机器人学习复杂灵巧操作 后续研究探索系鞋带等高难度任务 [18][19] - 分层交互机器人(HI Robot)采用双模型架构 上层推理决策下层执行动作 支持个性化需求调整 如制作素食三明治 [21][22] 传感器与感知能力 - 当前主要依赖RGB摄像头 腕部摄像头可部分替代触觉传感器 但触觉硬件仍面临耐用性和成本挑战 [24] - 认为智能研究瓶颈在数据和架构而非传感器 需优先解决模型记忆能力问题 再考虑添加嗅觉、听觉等冗余感知 [25] 行业未来形态 - 预测机器人硬件将出现"寒武纪大爆发" 呈现高度多样性 类似厨房用具按功能专门化 [30][31] - 可能形成按需定制化硬件生态 但供应链规模化压力也可能推动少数标准化形态 [32][33]