文章核心观点 - 香港大学、NVIDIA和清华大学的联合研究团队提出了一种名为AMS的统一人形机器人全身控制框架,首次在单一策略中同时实现了动态运动跟踪和极限平衡控制能力 [5] - AMS通过三个关键技术解决了人形机器人领域动态敏捷性与平衡稳定性难以统一的“两难困境” [3][5] - 该框架在Unitree G1人形机器人上的真机实验表明,一个策略即可完成动态运动(如折返跑、运球)和极限平衡(如叶问蹲),并支持多种实时遥操作,展示了作为基础控制模型的潜力 [24][29][31][33] 人形机器人控制面临的挑战 - 人形机器人需要在人类环境中同时具备敏捷的动态运动和精确的平衡控制,这两种能力存在矛盾,协同实现是一大挑战 [3][7] - 现有研究主要分两个方向推进:动态运动跟踪方向(如ASAP,专注于跳舞、跑步等高机动动作)和平衡控制方向(如HuB,专注于单腿平衡等极限姿态),但很难在统一框架中同时实现两者 [8][10] - 难以统一的主要原因有两点:数据限制(依赖人类动作捕捉数据,存在“长尾分布”问题,极端平衡场景数据不足,且能力上限受限于人类动作空间)和优化目标冲突(为一种运动设计的奖励函数可能会阻碍另一种运动的学习) [12] AMS框架的核心技术方案 - 异构数据源:突破依赖人类动捕数据的限制,通过从机器人自身动作空间直接采样来生成合成平衡动作数据 [1][16] - 优势包括物理可行性保证(避免传感器噪声和重定向误差)和可扩展性(可轻松生成大规模数据,包括人类难以完成的极限平衡动作) [16][17] - 整合人类动捕数据与合成平衡数据,缓解了数据长尾分布问题,使策略能零样本跟踪“叶问蹲”等未见过的极端平衡动作 [19][20] - 混合奖励机制:选择性应用奖励,化解优化目标冲突 [1][21] - 通用奖励应用于所有数据,鼓励鲁棒的运动跟踪 [21] - 平衡先验奖励(如质心奖励、足部接触一致性奖励)仅应用于合成平衡数据,为平衡动作提供精确物理指导而不牺牲敏捷性 [21][22] - 自适应学习策略:实现高效的自适应学习 [1][23] - 自适应采样:根据跟踪性能动态调整运动序列的采样概率,进行困难样本挖掘 [23] - 自适应奖励调整:为每个运动维护特定的误差容忍度参数,实现“因材施教”的个性化学习 [23] 实验验证与能力展示 - 动态运动跟踪能力:AMS策略能流畅执行折返跑、篮球运球、武术等多种高动态动作 [24][26] - 极限平衡控制能力:得益于可扩展的合成平衡动作数据,AMS能精确控制随机采样生成的单腿平衡等极限姿态 [26][28] - 实时遥操作支持:AMS支持基于惯性动捕和基于RGB相机的多种实时遥操作模式,展示了其作为基础控制模型的实用价值 [29][31][33]
人形机器人控制新突破!敏捷稳定两不误,一个策略让人形机器人完成叶问蹲和跳舞|港大&英伟达&清华
量子位·2025-12-03 13:06