行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-行动模型在真实世界分布外场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐渐完善[2] 代表性研究方法与框架 - 基于世界模型的在线方案是活跃方向,例如使用世界模型和基于行动的偏好奖励进行训练的NORA-1.5模型[2][5] - 离线强化学习被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调[5] - 工具方面,Rlinf等框架支持的方法越来越多,为VLA+RL训练提供了统一高效的平台[2][11] 近期重要研究成果(2025年) - 2025年11月,NORA-1.5、pi0.6、GR-RL、WMPO、RobustVLA、World-Env、ProphRL等多个工作取得惊艳效果[2][5][8][9] - 2025年10月,DeepThinkVLA、Self-Improving VLA with Data Generation via Residual RL、RLinf-VLA、VLA-RFT等工作发布,专注于增强推理能力、自我改进与在模拟器中的验证奖励微调[8][9][10][11] - 2025年9月及之前,CO-RFT、ReinboT、VLA-Critic、Self-Improving Embodied Foundation Models、Dual-Actor Fine-Tuning、SimpleVLA-RL等工作陆续被会议收录,涉及分块离线强化学习、策略提炼、人机交互等多种方法[5][10][11][12] 早期与中期关键工作(2023-2024年) - 2023年10月,Q-Transformer通过自回归Q函数实现了可扩展的离线强化学习,为后续研究奠定基础[8][9] - 2024年2月,Perceiver Actor-Critic工作发布[7] - 2024年9月至12月,FLaRe、Policy Agnostic RL、RLDG、GRAPE等工作聚焦于大规模强化学习微调、策略无关的RL以及通过偏好对齐实现策略泛化[17][19] 技术细分方向 - 安全与鲁棒性:例如2025年3月的SafeVLA致力于通过约束学习实现VLA模型的安全对齐[16][19] - 恢复与适应:例如2025年6月的RLRC专注于基于强化学习的压缩VLA模型恢复,TGRPO通过轨迹组相对策略优化进行微调[13][14] - 实证研究:例如2025年5月的“What Can RL Bring to VLA Generalization?”对强化学习提升VLA泛化能力进行了实证研究[13][14]
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心·2025-12-23 03:43