信任域偏离
搜索文档
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃
机器之心· 2025-12-16 10:22
研究团队与背景 - 本研究由快手科技语言大模型团队完成,该团队聚焦于基础语言大模型研发、Agent RL等前沿技术创新,并已开源Klear-46B-A2.5B和Klear-Reasoner-8B等模型,其中Klear-Reasoner-8B在数学和代码基准测试上达到同参数级别模型的SOTA效果 [2] - 在大语言模型后训练阶段,强化学习是提升模型能力和对齐质量的核心范式,但广泛采用的off-policy训练范式存在分布漂移问题,会将策略推至信任域之外,导致训练不稳定 [2][4] - 主流方法PPO通过重要性采样裁剪缓解部分问题,但仅能约束已采样动作的概率变化,忽略了未采样动作的全局分布漂移 [2][6] 创新方法:熵比裁剪 - 快手研究团队提出创新的熵比裁剪方法,该方法通过约束策略熵的相对变化来稳定全局分布,为强化学习训练提供更可靠的控制手段 [2] - ERC机制受PPO-clip启发,当新旧策略间的熵变化超出允许范围时,直接对样本梯度进行截断,它并非取代PPO-Clip,而是对其形成补充 [7][8] - ERC引入了熵比指标,定义为新旧策略在同一token上熵的相对变化,该指标可以测量整个动作分布的变化,提供了对策略全局漂移的度量 [9] - 如果某个token的更新导致熵比超出预设范围,ERC会直接截断其对应的梯度,以防止全局分布和策略熵的剧烈波动,这种方法既能防止策略分布的突然崩溃,又保留了足够的探索能力 [12] 实验设计与结果 - 为验证ERC方法的稳定性和有效性,研究在多个数学推理基准上进行了系统实验,包括AIME24、AIME25、HMMT25、MATH500、AMC23和Olympiad,所有实验均基于DeepSeek-R1-Distill-Qwen模型进行 [14] - 在1.5B参数模型上,基础模型平均得分为46.3,使用GRPO后提升至50.3,使用DAPO后提升至53.4,而集成ERC的DAPO将平均得分进一步提升至55.1 [15] - 在7B参数模型上,基础模型平均得分为61.8,使用DAPO后提升至65.3,而集成ERC的DAPO将平均得分进一步提升至66.2 [15] - 集成ERC后,模型几乎在所有基准测试上的性能都得到了一致提升,在AIME25和HMMT25等更具挑战性的基准上性能增益更为显著,该方法在1.5B和7B两种参数规模上均取得了一致的改进 [15] 机制分析与优势 - 与传统裁剪方法相比,ERC引入了全局熵比约束,使得训练过程中的熵值轨迹和梯度范数更加稳定 [17] - ERC的裁剪机制有效地强化了信任域约束,被熵比边界裁剪的token主要位于信任域的边界附近,这表明ERC能够识别并限制可能导致策略偏离的更新,与PPO-Clip以互补的方式协同工作 [18] - ERC优先抑制那些过于确定性、信息增益有限的token的更新,而不会过度约束模型的探索动态,大多数被ERC裁剪的token集中在低熵区域,高熵token在优化过程中通常被保留 [20] - ERC引入的全局分布约束显著提高了裁剪比例,PPO-Clip下的裁剪比例通常保持在0.02%左右,而ERC将此数值提高了近三个数量级,达到约20% [22] - 尽管ERC的裁剪比例显著更高,但其在最终性能和训练稳定性上均持续超越PPO-Clip基线,主要移除了那些会使训练不稳定的噪声更新 [22] 对比与泛化能力 - 与KL正则化对比:ERC在AIME24和AIME25基准上均优于PPO-penalty,KL散度施加的是逐点约束,可能限制有效的策略探索,而ERC实现了分布层面的软约束,在维持稳定性的同时鼓励更高效的探索 [25] - 与熵正则化对比:ERC的表现显著优于在强化学习训练中直接加入熵惩罚项的方法,熵正则化只能缓解单向的不稳定性,而ERC的双向裁剪机制能有效应对策略演化中熵值波动的两个方向 [25] - 与序列级裁剪对比:在DeepSeek-R1-Distill-Qwen-7B上的实验表明,结合了PPO-Clip和ERC的token级裁剪方法相较于序列级裁剪方法仍具有明显优势,且ERC与序列级裁剪是正交的,可以同时使用 [25] - 更广泛的适用性:除了DAPO,将ERC集成到GPPO中同样能带来一致的性能提升,为ERC在不同RL算法中的普遍有效性提供了有力证据 [25]