领域首篇RL+VLA 综述：强化学习如何推动 VLA 走向真实世界？

文章核心观点强化学习正成为连接视觉语言动作模型预训练与真实世界部署的关键桥梁通过强化学习的闭环优化 VLA模型能够从依赖模仿学习的开环推理转向具备结果导向失败恢复自主探索与闭环纠错能力的智能体从而克服其在真实世界分布外场景中的脆弱性提升泛化能力和鲁棒性 [1][2][4] RL-VLA架构：从开环推理到闭环优化 - 动作建模：RL通过奖励驱动策略更新使VLA转向闭环决策具体架构包括自回归VLA 生成式VLA和双系统结构 [4][6] - 自回归VLA：通过token-level RL实现稳定优化但离散动作令牌难以实现灵巧操作细粒度分词会增加预测难度 [6] - 生成式VLA：在扩散或Flow动作空间中进行sequence-level RL 但依赖局部采样和不完美信号可能导致动作分布随迭代更新而扭曲或崩溃 [6] - 双系统结构：RL用于对齐高层视觉语言模型规划与低层VLA控制但两者间的异构表示和时间尺度可能导致价值估计不一致联合训练不稳定 [6] - 奖励设计：为克服模仿学习局限性和奖励稀疏性问题采用内在奖励和外在奖励外在奖励来自人类偏好或基础模型更具任务对齐性 [8][9] - 环境建模：采用物理模拟器或学习型世界模型来预测未来状态推动基于模型的RL-VLA [9] RL-VLA训练范式深度拆解 - 在线强化学习：智能体在训练中与环境持续交互通过试错收集轨迹并更新策略赋予VLA适应性闭环控制能力但非平稳动力学和多模态噪声使策略优化难以维持稳定可靠的更新 [11][12] - 离线强化学习：从静态数据集中学习策略核心挑战是数据集的不平衡性和不完整的奖励信号限制了泛化能力 [13][15] - 策略优化：采用PPO变体来平衡学习效率和稳定性实证研究证明RL微调相比标准监督微调能显著增强分布外场景下的泛化能力 [14] - 样本效率：通过结合人类专家演示或集成Actor-Critic架构提供密集信号在有限预算下学习有效策略 [14] - 主动探索：设计高效探索策略例如使用大语言模型生成高层任务规划来指导低层RL策略探索或自动生成具有挑战性的分布外数据创建失败和恢复轨迹 [14] - 训练稳定性：通过动态推演采样或利用世界模型作为模拟器生成合成推演降低真实世界互动带来的方差和不稳定 [14] - 测试时强化学习：在部署过程中 VLA通过轻量级更新或适配器模块调整行为无需进行全面模型微调但预推理未来动作序列和评估大量动作候选带来了显著的计算成本限制了实时部署能力 [16][17] - 数据利用：采用保守约束限制策略更新防止偏离数据集覆盖的分布或通过重塑轨迹生成奖励进行定制化表示 [20] - 目标修改：设计与VLA结构相匹配的RL目标或利用RL目标增强离线数据集生成高质量的合成轨迹 [20] - 价值指导：利用预训练的奖励或价值函数直接影响动作选择例如重新排序动作候选项或引入价值引导思维 [20] - 内存缓冲指导：在推理时检索相关的历史经验以提高探索效率和知识复用 [20] - 规划引导适应：显式推理未来的动作序列以选择最优动作例如使用在线蒙特卡洛树搜索或利用价值函数进行进度监控和错误纠正 [20] 真实世界部署 - 核心目标：在物理机器人上运行RL-VLA模型实现在非结构化环境中的安全和自主操作主要通过Sim-to-Real迁移和物理世界强化学习来应对样本效率安全性和硬件限制等挑战 [21] - Sim-to-Real迁移：目标让在模拟环境中训练的VLA模型有效泛化到物理机器人解决领域迁移问题但迁移后的策略表现仍逊于模拟环境例如SimpleVLA-RL在物理机器人上的成功率远低于模拟环境 [22][23] - 物理世界强化学习：直接在真实机器人上训练操作策略但带来了样本效率低下和安全风险等重大挑战 [24] - 人在环强化学习：通过整合人类专业知识加速收敛并减少不安全探索但现有方法严重依赖人类干预样本导致人力成本高昂且可扩展性差 [24][25] - 可逆性与自主恢复：使机器人能够在发生故障后自行处理并继续学习减少人工重置和劳动成本但真实世界交互的固有不可逆性部分可观察性以及长期训练的不稳定性阻碍了可靠的故障检测和恢复 [26][27] - 安全探索：在经验收集过程中确保智能体避免与物理环境发生不安全的互动最大挑战在于高层语义推理与低层安全保障的整合 [28][29] - 领域随机化：通过随机化广泛的模拟参数来匹配真实世界中的感知多样性例如SimpleVLA-RL模型通过在多样化任务模拟中应用领域随机化实现了对真实机器人的零样本迁移无需额外微调 [30] - 数字孪生：创建物理系统的同步虚拟副本实现安全和可扩展的策略训练包括实时校正数据生成和可微分引擎等方法 [30] - 人类纠正干预：人类提供实时反馈以纠正机器人动作加速技能获取和安全探索 [31] - 人类恢复辅助：在自主恢复不可靠时人类手动介入重置机器人或环境减少失败的影响 [31] - 人类课程任务设计：人类主管设计从简单到复杂的课程任务以平衡安全性和学习效率 [31] - 免重置学习：引入辅助重置策略将智能体带回初始状态或可恢复区域实现持续训练 [31] - 语义感知恢复：强调对操作时空动态的推理通过语言模型或本体论来解释故障原因并规划适当的恢复行为 [31] - 保守安全评论家：训练辅助评论家来评估动作提议违反安全约束的可能性 [31] - 实时安全执行：在执行层面应用控制理论安全约束例如使用阻抗控制器来限制末端执行器的力和速度 SafeVLA模型通过约束学习优化VLA以应对安全风险 [31] 评估 - 评估现状：是RL-VLA研究中尚未统一但极其关键的一环未来评测需要从单次成功率走向鲁棒性可恢复性与长期自主性 [32] - 仿真基准：包括LIBERO ManiSkill CALVIN RoboTwin等用于分析泛化与算法对比 [36] - 真实世界基准：包括LeRobot SERL等更贴近部署挑战 [36] - 评测难点：成功率难以反映恢复能力与安全性不同RL范式不同动作表示间缺乏可比性长时序任务与真实物理约束评估不足 [36] 开放挑战与展望 - 核心进展：RL-VLA通过强化学习驱动的闭环优化克服了模仿学习在分布外场景中的根本限制使其策略更具泛化能力和鲁棒性 [34] - 关键挑战与解决方案： - 开放挑战：记忆检索机制和思维链式监督以保持长期时间一致性 [34] - 解决方案：基于模型的强化学习通过预测世界模型进行可扩展的训练提高效率和可扩展性 [34] - 开放挑战：自主故障处理智能体以减少人类干预提高效率 [34] - 解决方案：多机器人共享训练与实转模拟推演 [34] - 开放挑战：预测风险建模以确保可靠的物理操作 [34] - 解决方案：基于约束的策略优化和语言条件下的安全推理 [34] - 开放挑战：长序列任务的扩展性样本效率低下真实机器人训练成本 [34] - 未来方向：强化学习正在推动VLA从高性能模仿者进化为具备自主探索恢复与安全决策能力的通用机器人系统 [34]