SAC Flow
搜索文档
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
具身智能之心· 2025-10-20 00:03
文章核心观点 - 提出一种名为SAC Flow的新方案,使用高数据效率的强化学习算法SAC来端到端优化真实的流策略,无需采用替代目标或策略蒸馏 [1] - 核心创新在于将流策略的多步采样过程视为一个残差循环神经网络,并引入GRU门控和Transformer Decoder两套速度参数化方法来稳定训练 [1][8] - 该方法在MuJoCo、OGBench、Robomimic等多个基准测试中实现了极高的数据效率和显著的性能提升,达到SOTA水平 [1] 研究背景与问题 - 流策略因其建模多峰动作分布的表达能力及比扩散策略更简洁的优势,在机器人学习领域热门,并被广泛应用于先进的VLA模型如π_0、GR00T等 [4] - 使用数据高效的off-policy RL算法(如SAC)训练流策略时会出现训练崩溃,原因是流策略的K步采样推理导致反向传播深度等于采样步数K,引发梯度爆炸或消失 [4][7] - 现有工作通过使用替代目标或策略蒸馏来规避此问题,但牺牲了流策略本体的表达能力,未能真正端到端优化流策略 [5] 技术方法:SAC Flow - 将流策略的每一步中间动作视为隐状态,Euler积分过程等价于一个残差RNN的单步前向,从而将流策略的K步采样反传等价于对RNN网络的反传 [10] - 提出两种速度网络参数化方式:Flow-G(GRU门控结构)自适应决定保留当前动作或写入新动作以抑制梯度放大;Flow-T(Transformer Decoder)在全局状态语境下稳态细化动作 [16][17] - 通过添加高斯噪声和配套漂移修正,解决SAC熵正则化中确定性K步采样无法直接给出可积密度的问题,使SAC的损失函数可直接用流策略多步采样的对数似然表示 [14] - 支持两种训练范式:对于密集奖励任务可从头开始训练;对于稀疏奖励任务且拥有示例数据的场景,支持离线预训练后再进行在线微调 [18] 实验结果 - 在MuJoCo的Hopper、Walker2D、HalfCheetah、Ant、Humanoid、HumanoidStandup环境中,SAC Flow-T/Flow-G能够稳定快速地收敛,并取得更高的最终回报 [20] - 消融实验表明,SAC Flow-T和Flow-G能有效稳定梯度范数,防止训练崩溃,而直接使用SAC微调流策略则会出现梯度爆炸 [24][26] - 方法对采样步数K具有鲁棒性,在K=4/7/10的条件下均能稳定训练,其中Flow-T对采样深度的鲁棒性尤其强 [27] - 在OGBench的Cube-Triple/Quadruple等高难度任务中,SAC Flow-T收敛更快,整体成功率领先或持平现有off-policy基线(如FQL、QC-FQL) [30] - 相比扩散策略基线(如DIME、QSM),基于流策略的方法普遍收敛更快,而SAC Flow在此基础上性能进一步超越FlowRL [30]
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
机器之心· 2025-10-18 05:44
研究背景与问题 - 流策略因其建模多峰动作分布的能力和比扩散策略更简洁的优势,在机器人学习领域被广泛应用,并集成于先进的VLA模型中[4] - 使用数据高效的离线策略强化学习(如SAC)训练流策略时会出现训练崩溃,其根本原因在于流策略的K步采样推理导致反向传播深度等于K,引发了类似经典RNN的梯度爆炸或梯度消失问题[4] - 现有解决方案通过使用替代目标或策略蒸馏来规避此问题,但牺牲了流策略原有的强大表达能力,并未真正端到端地优化流策略本身[5] 核心方法与技术创新 - 提出将流策略视为一个残差循环神经网络(Residual RNN),其K步采样过程等效于RNN的前向传播,从而将训练不稳定性问题转化为如何稳定训练RNN的问题[10][11] - 引入两种现代序列模型结构来参数化流策略的速度网络:Flow-G采用GRU风格的门控机制自适应调和“保留当前动作”与“写入新动作”,以抑制梯度放大;Flow-T采用Transformer解码器对“动作-时间token”进行仅基于状态的交叉注意力计算,在全局语境下细化动作,同时通过限制自注意力不跨时间混合以保持流模型的马尔可夫性质[17][18] - 通过添加高斯噪声并进行配套漂移修正的方法,解决了SAC熵正则化因确定性K步采样无法直接给出可积密度的问题,使得SAC的Actor/Critic损失可以直接用流策略多步采样的对数似然来表示[15] 性能表现与实验结果 - 在MuJoCo环境的From-scratch训练中,SAC Flow-G和Flow-T均达到了SOTA的性能水平,展现出极高的数据效率[22][24] - 消融实验证实,所提方法能有效稳定梯度,防止梯度爆炸;直接使用SAC微调流策略(Naive SAC Flow)的梯度范数呈现爆炸趋势,而Flow-G和Flow-T的梯度范数保持平稳,其对应性能也显著更优[27][29] - 方法对采样步数K具有鲁棒性,在K=4、7、10的条件下均能稳定训练,其中Flow-T对采样深度的鲁棒性尤为突出[30] - 在稀疏奖励的高难度任务(如OGBench-Cube-Double)中,From-scratch训练不足,凸显了Offline-to-online训练的必要性;在OGBench的Cube-Triple/Quadruple等任务中,SAC Flow-T收敛更快,成功率领先或持平现有离线策略基线[34] 与现有工作的比较优势 - 相较于FQL/QC-FQL等需要先将流策略蒸馏为单步模型再进行强化学习的方法,SAC Flow无需蒸馏,完整保留了流模型的建模能力[33] - 相比FlowRL等使用Wasserstein约束替代目标的方法,SAC Flow直接端到端优化标准SAC损失,避免了目标与模型之间的错位问题[35] - 基于流策略的方法普遍比扩散策略基线(如DIME、QSM)收敛更快,而SAC Flow在此基础上进一步超越了FlowRL[34]