稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
机器之心·2025-10-18 05:44

研究背景与问题 - 流策略因其建模多峰动作分布的能力和比扩散策略更简洁的优势,在机器人学习领域被广泛应用,并集成于先进的VLA模型中[4] - 使用数据高效的离线策略强化学习(如SAC)训练流策略时会出现训练崩溃,其根本原因在于流策略的K步采样推理导致反向传播深度等于K,引发了类似经典RNN的梯度爆炸或梯度消失问题[4] - 现有解决方案通过使用替代目标或策略蒸馏来规避此问题,但牺牲了流策略原有的强大表达能力,并未真正端到端地优化流策略本身[5] 核心方法与技术创新 - 提出将流策略视为一个残差循环神经网络(Residual RNN),其K步采样过程等效于RNN的前向传播,从而将训练不稳定性问题转化为如何稳定训练RNN的问题[10][11] - 引入两种现代序列模型结构来参数化流策略的速度网络:Flow-G采用GRU风格的门控机制自适应调和“保留当前动作”与“写入新动作”,以抑制梯度放大;Flow-T采用Transformer解码器对“动作-时间token”进行仅基于状态的交叉注意力计算,在全局语境下细化动作,同时通过限制自注意力不跨时间混合以保持流模型的马尔可夫性质[17][18] - 通过添加高斯噪声并进行配套漂移修正的方法,解决了SAC熵正则化因确定性K步采样无法直接给出可积密度的问题,使得SAC的Actor/Critic损失可以直接用流策略多步采样的对数似然来表示[15] 性能表现与实验结果 - 在MuJoCo环境的From-scratch训练中,SAC Flow-G和Flow-T均达到了SOTA的性能水平,展现出极高的数据效率[22][24] - 消融实验证实,所提方法能有效稳定梯度,防止梯度爆炸;直接使用SAC微调流策略(Naive SAC Flow)的梯度范数呈现爆炸趋势,而Flow-G和Flow-T的梯度范数保持平稳,其对应性能也显著更优[27][29] - 方法对采样步数K具有鲁棒性,在K=4、7、10的条件下均能稳定训练,其中Flow-T对采样深度的鲁棒性尤为突出[30] - 在稀疏奖励的高难度任务(如OGBench-Cube-Double)中,From-scratch训练不足,凸显了Offline-to-online训练的必要性;在OGBench的Cube-Triple/Quadruple等任务中,SAC Flow-T收敛更快,成功率领先或持平现有离线策略基线[34] 与现有工作的比较优势 - 相较于FQL/QC-FQL等需要先将流策略蒸馏为单步模型再进行强化学习的方法,SAC Flow无需蒸馏,完整保留了流模型的建模能力[33] - 相比FlowRL等使用Wasserstein约束替代目标的方法,SAC Flow直接端到端优化标准SAC损失,避免了目标与模型之间的错位问题[35] - 基于流策略的方法普遍比扩散策略基线(如DIME、QSM)收敛更快,而SAC Flow在此基础上进一步超越了FlowRL[34]