Workflow
模型熵
icon
搜索文档
快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题
机器之心· 2025-10-25 01:03
研究背景与动机 - 强化学习已成为推动语言模型在复杂推理与思维链能力上实现智能跃升的关键技术环节,相比传统的监督微调,RL通过奖励信号直接优化模型行为[2] - 行业在大规模RL实践中普遍面临模型熵失衡的核心挑战,即探索与利用的不协调,这导致模型训练不稳定和性能难以提升[3] - 策略熵的平衡是优化大模型处理复杂推理任务的核心挑战,熵坍缩会使模型输出单一化丧失探索能力,而熵爆炸会导致模型过度探索难以收敛[6] 算法创新:CE-GPPO - 公司提出CE-GPPO算法,以熵为核心视角重新审视RL中梯度裁剪机制的影响,并提出梯度保留策略,在保证训练稳定的前提下利用裁剪区间外的梯度[3] - 算法核心思想是不丢弃被裁剪token的梯度,而是有控制地保留和缩放它们,使其成为平衡探索与利用的"阀门"[11] - 通过stop gradient解耦机制对超出clip区间的token在反向传播时恢复梯度传导,并通过双系数β₁和β₂对梯度进行缩放,实现精细调控[15] - 梯度表达式显示,裁剪区间外的梯度被限制在β₁(1-ɛ)或β₂(1+ɛ)范围内,其中β₁和β₂通常接近1,从而维持训练稳定[16][17] 实验结果与性能 - 在多个数学推理基准上的实验结果显示,CE-GPPO在所有基准上均超越强基线方法,在AIME25和HMMT25等高难度任务上提升最显著[20][21] - 在1.5B模型上,CE-GPPO最佳配置平均得分达54.9,显著高于基线的45.2;在7B模型上,最佳配置平均得分达67.5,高于基线的60.8[20] - 模型规模越大,CE-GPPO带来的收益越明显,表明该方法具备扩展到更大规模模型的潜力[21] - 训练动态显示,CE-GPPO能保持稳定且中等偏高的熵水平,全程无震荡,最终收敛性能更高[21] 算法机制分析 - 超参数实验验证了CE-GPPO的可控熵调节机制:β₁较大时模型更偏向利用熵下降更快,β₂较大时模型倾向于探索熵保持在较高水平[24] - 维持相对高且稳定的熵有利于训练过程中的持续性能提升,给予PA&LP tokens更大梯度权重β₂同时给予NA&LP tokens更小权重β₁有助于维持探索能力[33] - 与CISPO和GSPO等近期RL算法相比,CE-GPPO在不同基准上取得最好结果,因其对clip区间外梯度的管理更加细粒度且样本利用率更高[35][36] - 相比传统的熵正则化和DAPO的clip-higher策略,CE-GPPO能保持平稳的熵曲线,避免性能崩溃或过度探索的问题[37]