Workflow
熵崩塌
icon
搜索文档
NeurIPS25高分论文|以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题
机器之心· 2025-10-26 07:00
核心观点 - 提出一种名为判别式约束优化(DisCO)的新框架,用于强化大型推理模型,该框架基于判别式学习原则,旨在增加正确答案得分并减少错误答案得分[3] - DisCO框架成功解决了群体相对策略优化(GRPO)及其变体存在的难度偏差和熵不稳定性问题[6][27] - 实验结果表明,DisCO在增强大型模型数学推理能力方面显著优于GRPO及其改进版本,在1.5B模型的六个基准任务中平均增益比GRPO高7%,比DAPO高6%[4] GRPO问题分析 - 发现GRPO在二元奖励设置下存在难度偏差问题,其优化目标中的加权项导致模型只重点学习"中等难度"问题,而忽视正确率较高或较低的问题[12] - 实验证实不适当的加权有害影响,移除加权后的变体"GRPO_RW"能在更多问题上实现100%正确率和更少问题上实现0%正确率[12] - 揭示了GRPO优化目标与判别式监督学习AUC最大化思路之间的联系[11] DisCO方法设计 - 采用判别式目标函数,其优化目标类似于AUC优化,直接增加正确答案得分并减少错误答案得分[16] - 引入基于分布鲁棒性优化(DRO)的目标函数来解决稀疏奖励导致的训练数据不平衡问题,该设计借鉴了局部AUC优化技术[17][18] - 采用约束优化方法稳定训练,通过非凸不等式约束优化策略将KL散度约束替换为平滑的方形铰链惩罚项,避免了裁剪操作引起的熵崩塌现象[19][20] 实验结果 - 在1.5B模型实验中,DisCO在六个数学基准数据集上始终显著优于其他基线方法,训练和推理长度均为8k的DisCO比GRPO平均提高7%[22] - 在7B模型实验中,DisCO大幅优于所有基线方法,比GRPO平均提高3.5%[22] - 训练动态分析显示DisCO方法最为稳定,训练奖励不断增加且生成熵保持相对稳定,而GRPO及其变体都出现了熵崩塌或熵过度增长问题[27][28] 技术优势 - 完全消除了GRPO存在的难度偏差问题[6] - 通过使用非裁剪评分函数和约束优化方法,解决了GRPO及其变体的熵不稳定性,获得了长期稳定的训练动态[6][27] - 允许结合先进的判别式学习技术来解决数据不平衡问题,特别是在训练过程中错误答案远多于正确答案的情况[4][17]
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
量子位· 2025-10-13 08:47
RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]