《Science Robotics》重磅:仅需2小时,机器人柔性装配技能直逼人类顶尖水平
机器人大讲堂·2025-09-06 11:43

文章核心观点 - 美国伯克利大学研究团队提出的人机协同强化学习系统HIL-SERL,通过巧妙融合人类引导与机器人自主探索,仅需1至2.5小时的真实世界训练,即可使机器人精通一系列复杂操作任务,成功率接近100%,执行速度超越人类水平,并展现出强大的抗干扰与自适应能力[2][9] 传统方法困境与HIL-SERL系统原理 - 传统机器人操控方法依赖精心设计的控制规则或模仿学习,缺乏适应性,在新场景易失败,且难以达到人类水平的熟练度和速度[1] - 强化学习在模拟环境中表现优异,但在现实世界训练存在成本高、效率低和安全风险等难题[1] - HIL-SERL系统通过少量人类演示提供入门指导,随后在机器人自主尝试中,由人类操作员进行干预纠正,并将纠正数据纳入训练,形成高效安全的学习闭环[3] - 系统架构由执行器进程、学习器进程及重放缓冲区三个分布式核心组件构成,采用离策略强化学习技术,整合预训练视觉模型与安全底层控制器[4] 系统性能验证与实验结果 - 实验设计涵盖精密装配、双臂协调和动态操作等多类高难度任务,例如电脑主板组装、汽车仪表盘组装及平底锅翻转物体等[5][8] - 经过1至2.5小时真实训练后,机器人在各项任务中成功率接近100%,执行速度比模仿学习快1.8倍,显著高于HG-DAgger基线49.7%的平均成功率[9] - 在部分任务如叠叠乐、插入RAM棒和组装正时皮带上的表现超越了人类操作员[9] - 系统展现出强大抗干扰能力,在面对主板移动5毫米、夹爪被掰开、零件旋转15度等突发状况时,能迅速调整策略,如微调机械臂角度或加大握力,实现实时纠错[9][10][12] 系统策略演化与适应性原理 - 系统能根据任务需求自主演化出不同的控制策略,无需人为指定[13][16] - 对于高精度实时调整任务,系统学会闭环反应策略,动作方差初期较高允许试探,接近目标时迅速降低以实现精细调整,并能基于感官反馈进行实时纠错[13] - 对于动态操作任务,系统采用开环预测策略,动作方差全程保持低位,执行预先规划的稳定连贯动作序列[13] - 此方法通过直接在感知数据上学习,编码了解决任务所需的内在动态,避免了传统方法对复杂动态建模和状态估计的高度依赖,更高效且易扩展[16] 研究意义与行业应用展望 - 研究证明,结合高效算法、预训练视觉模型、安全控制和人类指导,强化学习能克服样本效率低和安全性差的弱点,直接在现实世界中高效学习复杂技能[14] - 该技术为工业应用打开新局面,特别适用于需要多品种、小批量生产的柔性制造领域,如电子产品组装、汽车零部件装配等[14] - 未来,此类系统可作为生成高质量机器人数据的“技能引擎”,为训练更通用的机器人基础模型提供支持,最终实现真正通用的机器人操作能力[14]