强化学习（RL） - 财报，业绩电话会，研报，新闻

强化学习（RL）

搜索文档

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心· 2025-10-12 02:41

研究背景与核心问题 - 视觉-语言-动作大模型面临关键挑战：当前主流的有监督微调训练方式在遇到新环境或任务时容易出错，难以实现类人般的泛化能力 [2] - 研究核心问题：探索强化学习能为VLA带来哪些独特的泛化优势，并与有监督微调进行系统性对比 [2] - 清华大学研究团队在NeurIPS 2025发表文章，首次系统性揭示强化学习在提升VLA泛化能力上的独特优势 [2] 研究方法与实验设计 - 研究团队构建了涵盖多种视觉、语义和执行挑战的全新评测基准，系统对比强化学习和有监督微调在提升模型泛化性上的表现 [4] - 采用目前SoTA之一的开源OpenVLA模型为基础进行研究，该模型从Llama2-7b微调而来，接收RGB图像和指令，输出离散动作token控制机械臂行动 [7] - 测试三种在大语言模型领域广受认可的强化学习算法：PPO、DPO和GRPO [9] 强化学习方法比较结果 - 在机器人控制这一多步决策任务中，经典的PPO算法展现出显著优势，而专为语言模型设计的DPO和GRPO难以高效学习 [11] - PPO优势源于机器人任务的部分可观测马尔可夫决策过程特性，每个动作都会改变环境状态，这种非平稳性可能破坏了GRPO的优势估计稳定性 [11] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量，以及离线数据与在线执行之间存在显著的分布偏移 [11] 高效PPO训练方案 - 共享Actor-Critic架构设计：让Actor和Critic共享同一个主干网络，仅在最后添加轻量级MLP作为价值头，显存占用减少45%，训练速度提升35% [13] - VLA模型预热策略：使用140条高质量轨迹对模型进行预热，让后续的强化学习收敛速度提升50%，大幅减少所需环境交互次数 [15] - 最小化PPO训练轮次：将PPO训练轮次设为1就已足够，更多更新轮次无法提升性能反而增加训练时间，整个训练过程在单张A100 GPU上仅需42小时即可收敛 [15] SFT与RL性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和，无论是训练分布内还是分布外新物体/桌面的性能都达到上限 [18] - 强化学习在收敛时训练分布内任务性能与有监督微调相当，但在分布外任务上取得42.6%的性能提升，展现出更强的泛化性 [19] - 基于ManiSkill仿真器构建全面评测基准，从视觉、语义和执行三个维度系统地对泛化能力进行拆解 [21] 泛化能力具体表现 - 强化学习在语义理解任务上表现出明显优势，特别是在处理未见物体的抓取任务时 [23] - 在执行鲁棒性方面大幅领先，无论是物体位置变化、机器人初始姿态偏移，还是任务执行中途的物体移位，强化学习都展现出显著更强的适应能力 [23] - 在视觉泛化上，两种方法表现相当 [23] 深层差异与影响 - 在强噪声干扰下，有监督微调策略会在抓取物体后反复掉落，而强化学习策略能够稳定完成任务 [26] - 面对未见物体时，有监督微调容易陷入重复尝试抓取已持有物体的死循环，强化学习则能正确判断并完成放置 [26] - 执行轨迹分布差异：强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态，而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围 [26] - 强化学习在构建真正通用的具身智能体中具有核心价值，能够通过试错学习、自主适应新环境的能力在复杂多变的应用场景中愈发重要 [25]