Workflow
通用型 AI 机器人
icon
搜索文档
摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
机器之心· 2025-08-21 13:08
人形机器人技术进展 - 宇树科技H1机器人在世界人形机器人运动会上出现需人工遥控的意外 引发对非全自主机器人的争议[1][2] - 宇树科技明确表示下次比赛将实现全自主 技术层面无难度[3] - 波士顿动力与丰田研究院合作开发大型行为模型(LBM) 核心是构建端到端语言条件策略 使Atlas能理解指令并自主完成复杂任务[4] Atlas机器人自主能力展示 - Atlas完全自主执行收纳整理任务 视频未加速 展示多项亮点操作[5][6] - 应对人类干扰(如冰球棍扒拉箱子)时自主决策打开箱盖并挪动箱子 动作与人类相似[8] - 抓取零件掉落时立即用另一只手捡起[9] - 识别并移开箱子捡起外部零件后继续任务[11] - 识别机器狗腿部零件并折叠放置在架子上[13] - 识别面板零件并下蹲拉开箱子收纳 充分利用人形形态能力(行走/精确定位双脚/下蹲/转移质心/避免自我碰撞)[15] 技术实现与模型构建 - 模型构建采用迭代闭环流程:数据收集(真实硬件与仿真环境遥控操作)/数据处理(标注筛选)/模型训练(神经网络)/评估迭代(标准化任务测试)[22][24] - 模型以30Hz频率将传感器图像/本体感觉/人类语言指令实时转化为精确控制指令[26] - 采用扩散Transformer架构与流匹配损失函数 确保动作流畅准确[27] - 在"Spot车间"演示中 单一通用语言指令模型自主完成三子任务:抓取并折叠机器狗腿部零件放置货架/抓取面板零件拉开箱子放入/清空手推车后搬运剩余零件至翻斗车[27][28][29][30] - 同一模型完成数十项挑战性操作:系绳结/翻转吧台凳/铺平桌布/搬运22磅汽车轮胎 处理可变形物体与传统编程方法相比更高效[31] 模型核心能力与优势 - 具备智能异常处理能力:零件掉落或箱盖关闭时自主反应纠正 能力来自训练数据中的干扰与恢复场景学习 非预设程序[32] - 开发新行为无需顶尖编程与长周期 通过演示即可学习 为技能库扩展提供前景[33] - 无需重新训练即可调整执行速度至演示速度1.5-2倍 任务成功率不受显著影响 效率可能超越人类操作员[33] 研发核心原则 - 追求广泛任务覆盖:结合模型预测控制器与VR交互界面 操作员演示从指尖动作到全身协调行为 丰富训练数据多样性[34] - 训练通用化"通才"模型:庞大多样化数据集训练使泛化能力与鲁棒性超"专才"模型 整合多机器人平台数据 简化部署并促进涌现行为[34] - 建设快速迭代基础设施:结合仿真/硬件测试/机器学习平台 快速实验与科学评估 持续提升机器人表现[34]