AgiBot X2
搜索文档
复旦&港大等团队!WholeBodyVLA:面向全身移动操作控制的VLA框架
具身智能之心· 2025-12-18 00:07
文章核心观点 - 由复旦、港大等团队提出的WholeBodyVLA框架,是首个实现大范围人形机器人端到端移动-操作的系统之一,通过统一潜在动作学习和面向移动-操作的强化学习策略,解决了现有方法在“操作感知型移动”方面的不足,在AgiBot X2机器人上的实验表明,其性能比现有基线方法提升21.3% [4][5][12] 现有方法的不足与核心挑战 - 现有模块化或端到端方法无法规划和执行能主动创造操作前提条件(如接近、调整姿态)的移动,而是将移动和操作视为独立阶段,限制了机器人的工作空间 [2][3] - 核心挑战在于“操作感知型移动”,以及两个根本问题:人形机器人遥操作数据稀缺,以及现有强化学习控制器的精度和稳定性有限 [4][6] WholeBodyVLA提出的解决方案 - **统一潜在动作学习**:设计了一个学习框架,使视觉语言动作系统能够从低成本、无动作标签的第一视角人类视频中学习移动-操作知识,以缓解数据稀缺问题 [4][6][8] - **面向移动-操作的强化学习策略**:提出采用简化离散指令接口的LMO策略,专门优化前进、转弯、下蹲等核心移动-操作动作的准确性和稳定性,以解决低层执行不可靠的问题 [4][10] - **高效数据采集**:设计了仅需单操作员和单目相机的低成本、高效人类第一视角数据采集流程,以扩充数据集 [4][19] WholeBodyVLA方法细节 - **分离的潜在动作模型**:由于移动和操作视频的视觉变化模式不同,分别训练了用于操作的LAM和用于移动的LAM,再联合监督VLA训练,以避免性能不佳 [17][18] - **VLA训练与执行**:VLA基于视觉和语言指令,通过交叉熵损失联合预测两种潜在动作,轻量级解码器将其映射为机器人特定的上肢关节角度和移动指令,再由LMO策略转换为下肢力矩执行 [19] - **LMO策略设计**:采用仅依赖本体感受状态的紧凑观测空间,以及明确启停语义的离散指令接口,并通过两阶段课程学习和参考塑形来优化精度与稳定性 [20][21][22][24] 实验验证与性能 - **任务设置**:在AgiBot X2机器人上评估了三个综合任务:装袋、装箱和推车,以评估双臂协同、下蹲精度、转弯准确性和重载稳定性 [26][27] - **性能对比**:在三个任务的平均得分上,WholeBodyVLA达到78.0%,显著高于模块化设计的64.0%、GR00T w/ LMO的42.0%和OpenVLA-OFT w/ LMO的56.7% [31] - **消融实验**:移除统一潜在学习会导致成功率下降38.7%;使用基于速度的RL控制器变体成功率低24%;分离LAM设计优于共享单一LAM [31][32][36] 技术贡献验证 - **无标签视频的贡献**:使用人类第一视角视频进行潜在预训练能显著提升性能并减少对遥操作数据的依赖,使用超过50%人类视频预训练的模型,仅用25条遥操作轨迹微调即可匹配使用较少视频但需200条轨迹微调的模型性能 [35] - **LMO的贡献**:LMO策略有效解决了基于速度控制器常见的绊倒、路径偏移等问题,在扩展任务(如不平坦地形、长多步序列)中表现出更高的可靠性 [36] - **泛化能力**:框架在更具挑战性的场景中(如不平坦地形遍历、长时程多步序列、日常移动-操作活动)均保持性能优势,展现出强大的泛化能力和可扩展性 [38]