高熵token

搜索文档
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 10:28
核心观点 - 强化学习训练大模型推理能力时,仅20%的高熵token能支撑整个训练效果,甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色,对模型性能提升至关重要,而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升,并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中,token熵分布呈现独特模式:50%以上token熵值低于0.01,仅20%token熵值大于0.672 [9][10] - 高熵token(分叉token)功能特殊,如"wait"、"thus"等逻辑连接词,决定推理路径方向;低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实:提高高熵token解码温度可改善推理性能,降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度,Qwen3-32B在AIME'24分数提升7.71分,响应长度增加2553.39 token [15][17] - 反向实验显示:仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显:32B模型提升最大(AIME'24 +7.71分),14B次之(+5.21分),8B最小(+1.25分) [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径,低熵token的确定性限制探索能力 [20] - RLVR训练后,模型与base model在高熵token位置重叠率仍保持86.67%,显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大,低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异,显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素,后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布,而大模型推理需整合先验知识,输出包含高低熵token混合 [27]
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 10:28
核心观点 - 在强化学习训练大模型推理能力时,仅20%的高熵token就能支撑整个训练效果,甚至优于使用全部token训练 [1] - 该方法在Qwen3-32B上创造了新的SOTA记录:AIME'24达到63.5分,AIME'25达到56.7分,是600B参数以下直接从base模型训练的最高分 [2] - 最大响应长度从20k延长到29k,AIME'24分数提升至68.1分 [4] - 该方法突破了经典的二八法则,80%低熵token不仅可以舍弃,还可能起副作用 [6] 链式思考的熵分布 - 大模型进行链式思考推理时,token熵分布呈现独特模式:大部分token熵值低,少数token表现出高熵特征 [9] - 超过50%的token熵值低于0.01,仅20%的token熵值大于0.672 [10] - 高熵token扮演"逻辑连接器"角色,如"wait"、"however"、"thus"等,在推理中起转折、递进或因果连接作用 [11] - 低熵token多为词缀、代码片段或数学表达式组成部分,具有高度确定性 [11] 分叉token的重要性 - 高熵token被称为分叉token,决定推理路径方向,低熵token则沿既定方向进行 [11] - 实验显示:提高高熵token温度能改善推理性能,降低其温度则导致性能下降 [13] - 仅保留top 20%高熵token的策略梯度,屏蔽剩余80%梯度,Qwen3-32B性能显著提升:AIME'24提升7.71分,AIME'25提升11.04分,平均响应长度增加1378个token [15] - Qwen3-14B和Qwen3-8B也有类似提升效果,但规模效应明显:模型越大,优势越显著 [16][22] 训练方法与效果 - 反向实验显示:仅用80%低熵token训练,模型性能急剧下降 [17] - 低熵token对推理能力提升贡献微乎其微,甚至可能起负面作用 [18] - 高熵token帮助模型探索不同推理路径,低熵token过于确定,限制探索能力 [20] - 该方法训练出的模型在域外任务表现优异,暗示高熵token与模型泛化能力密切相关 [22] RLVR训练特性 - RLVR训练并非推倒重来,而是在base model基础上做精细调整 [24] - 训练收敛后(第1360步),模型与base model在高熵token位置上的重叠率仍保持86.67%以上 [24] - RLVR调整策略"偏心":初始熵越高的token,训练后熵增幅越大;低熵token几乎不变 [25] 讨论与启示 - 高熵token可能是解释强化学习能泛化而监督微调倾向于记忆而过拟合的关键 [26] - 强化学习保持甚至增加分叉token熵,维持推理路径灵活性;监督微调则降低分叉token熵,失去灵活性 [27] - 大模型推理需整合先验知识且生成可读性输出,与传统强化学习假设动作熵均匀分布不同 [27] - 在RLVR中,熵奖励可能非最优选择,clip-higher方法能更有效提升高熵少数标记的熵值 [27]