EMP框架
搜索文档
浙大 | EMP框架让人形机器人“学动作不摔倒”!
具身智能之心· 2025-10-24 16:03
研究背景与核心创新点 - EMP项目代表了一种人形机器人强化学习的新范式,其核心创新在于在强化学习前插入一个“动作可行性网络”,用于判断动作的可行性[5] - 该项目的亮点在于通过上半身模仿、下半身平衡和可执行修正,实现安全稳定的人形控制[5] - 未来结合视觉语言模型等技术,机器人可能在执行语言指令前先评估自身能力是否可行[5] EMP创新点概览 - 完整的“上半身模仿框架”由三部分构成:运动重定向网络、上半身强化学习控制策略、可执行运动先验模块[6] - 运动重定向网络基于图卷积,将人类上半身动作映射到机器人关节空间,生成可训练的上半身数据集[6] - 上半身强化学习控制策略使用Isaac Gym训练,专注于下半身平衡控制,同时跟踪上半身模仿目标[6] - 可执行运动先验模块采用变分自编码器结构,实时调整上半身动作幅度与方向,确保动作在机器人物理能力范围内[6] 算法框架与核心机制 - 系统采用三阶段流程:数据生成阶段用图卷积网络将人类动作映射到机器人结构;策略训练阶段让机器人在Isaac Gym中学会平衡状态下执行动作;运动修正阶段判断并修正超出执行极限的动作[11] - 运动重定向采用VQ-VAE框架,将人类上半身作为节点建立骨架图结构,利用图卷积编码器-解码器结构转换动作[13] - 损失函数包括末端效应器误差、姿态误差、结构保持误差和潜变量分布约束损失,以生成高质量的机器人动作数据集[13] 强化学习控制策略 - 策略拆分为负责下半身平衡控制的π_lower和负责上半身模仿动作的π_upper[15] - 强化学习目标是在保持稳定的前提下尽量模仿人类上半身目标动作,状态空间包括关节角度、基座姿态和目标动作等信息[15] - 奖励函数设计包含稳定性奖励、运动一致性奖励以及能量与光滑度惩罚,采用PPO变体算法训练6小时即可收敛[16] - 通过随机化摩擦、惯量、扭矩等参数以及加入推搡扰动,增强策略的抗扰动性以实现仿真到现实的迁移[17] EMP模块技术细节 - EMP模块基于变分自编码器,当目标动作过大时会判断重心偏移风险并自动收敛动作幅度,在保持平衡的同时不失去原始动作形态[18][19] - 损失函数包括重构损失、姿态保持和自碰撞惩罚,其中光滑性与姿态稳定是维持平衡的关键[21] - 由于仿真环境无法直接反传梯度,团队训练了一个世界模型来预测状态转移,使EMP模块能间接获得物理反馈,整个训练过程在RTX4060上仅需5小时[22][23] 仿真与实机实验结果 - 实验采用27自由度人形机器人,在Isaac Gym环境中进行,RL与EMP运行频率为50Hz,PD控制器为1kHz[25] - 对比实验显示,EMP方法成功率达到了98.1%,自碰撞率为0.15,基座姿态稳定性为0.69,在保持最佳稳定性的同时几乎不牺牲模仿精度[29] - 消融实验表明,去掉方向损失会导致稳定性完全崩溃,去掉重心损失会使机器人重心频繁偏移,多重损失的协同约束是EMP稳定站立的关键[32] - 实机测试在真实人形机器人平台上部署,EMP策略可直接运行无需再训练,即使在双手负载随机变化的情况下仍能保持稳定,在另一款老旧平台上也能将成功率提升至97.8%[33][34]