Workflow
视觉 - 语言 - 动作(VLA)大模型
icon
搜索文档
NeurIPS 2025|清华团队分析RL将如何提升VLA泛化性
具身智能之心· 2025-10-15 04:00
研究背景与核心观点 - 视觉-语言-动作大模型在具身智能领域潜力巨大,但当前主流的有监督微调方法在面对新环境或任务时泛化能力有限 [1] - 清华大学研究团队首次系统性揭示了强化学习在提升VLA模型泛化能力上的独特优势,并提出了全面的评测基准和高效训练方法 [1][3] - 强化学习微调VLA模型能显著提升语义理解和任务执行的鲁棒性,在视觉变化场景下保持与有监督微调相当的表现 [3] 研究方法与模型基础 - 研究采用目前最先进的开源OpenVLA模型为基础,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂 [4][6] - 团队构建了涵盖视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在泛化性上的表现 [3][19] 强化学习方法比较 - 测试了三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [8] - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [15] - PPO的优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态的非平稳性可能破坏了GRPO的优势估计稳定性 [15] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [15] 高效PPO训练方案 - 提出共享Actor-Critic架构设计,让Actor和Critic共享同一个主干网络,仅添加轻量级MLP作为价值头,使显存占用减少45%,训练速度提升35% [12] - 使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需的环境交互次数 [14] - 将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [14] 有监督微调与强化学习性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和 [17] - 强化学习在训练分布内任务性能与有监督微调相当,但在分布外任务上取得了42.6%的性能提升,展现出更强的泛化性 [18] - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [21] - 在执行鲁棒性方面强化学习大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,都展现出显著更强的适应能力 [21] - 在视觉泛化上,两种方法表现相当 [21] 案例分析与深层差异 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [23] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [23] - 强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围,这种更广泛的覆盖解释了强化学习在执行任务上的优越泛化能力 [23]