Workflow
softmax参数化
icon
搜索文档
RL训练中,为什么熵减往往意味着训练收敛?
自动驾驶之心· 2025-10-29 00:04
文章核心观点 - 文章从理论层面分析了在强化学习训练中,策略的熵值减小与训练收敛之间的内在联系 [1][4] - 核心观点指出,熵减导致收敛的现象主要是由softmax策略参数化方式特有的曲率性质造成的 [17] 理论分析:熵减与策略梯度衰减 - 对于softmax策略,状态s处关于logits的策略梯度范数的期望值直接等于1-exp{-H₂},其中H₂为Renyi-2熵 [6] - Renyi-2熵越小(例如接近0),期望的策略梯度范数也越接近0,而一般讨论的信息熵是Renyi-1熵,且Renyi熵在order上存在单调性,Renyi-1熵大于Renyi-2熵 [6] - 该现象背后的原理是:高概率动作的策略梯度范数更小,而熵越低越容易产生高概率动作,从而导致期望的梯度范数衰减 [7] 理论分析:熵减与策略更新幅度衰减 - 假设基础策略经过算法更新后得到新策略,状态s处更新前后logits向量的差为Δₛ,则新旧策略在状态s处的反向KL散度存在一个上界 [8] - 该上界与动作空间大小|𝒜|、logits变化的最大幅度‖Δₛ‖∞²以及(1-exp(-ℋ))成正比,其中ℋ为策略的熵 [8] - 当熵ℋ越接近0时,(1-exp(-ℋ))也越接近0,从而导致新旧策略在状态s处的KL移动幅度越接近0 [16] 结论与改进方向 - 熵减导致的学习衰退现象完全是由于softmax参数化的特殊曲率导致的 [17] - 在之前的RL研究中,使用牛顿法(如NPG)或更换其他参数化方式(如Hadamard参数化的PG)能够在一定程度上克服此问题,避免陷入局部最优 [17] - 文章指出,LLM与RL结合的研究仍有改进softmax参数化导致特殊学习动态的机会 [17]