行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - 世界模型与在线方案:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - 离线强化学习:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - 工具与框架:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - NORA-1.5:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - Pi0.6:推测结合了强化学习技术,取得了惊艳效果[2] - GR-RL与WholebodyVLA:近期工作显示出显著效果[2] - WMPO:基于世界模型的VLA策略优化方法[8][9] - RobustVLA:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - DeepThinkVLA:通过增强推理能力来提升VLA模型[8][9] - Self-Improving VLA:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - 后期训练与微调:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - 策略优化与泛化:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - 安全与对齐:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - 数据生成与蒸馏:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心·2025-12-22 10:23