Workflow
概率过度集中问题
icon
搜索文档
SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能
机器之心· 2025-11-08 04:02
文章核心观点 - 研究团队提出一种名为SimKO的新算法,旨在解决现有可验证强化学习方法在提升大型语言模型pass@1性能时导致pass@K性能下降的问题 [4] - 该算法通过非对称梯度调节策略,有效平衡模型对单一正确答案的“利用”能力与对多样化正确答案的“探索”能力,从而同时优化pass@1和pass@K性能 [17][21] 问题识别与分析 - 现有RLVR算法导致模型输出概率分布“过度集中”,即概率质量过度汇聚于单一的推理路径,牺牲了对多样化正确解的探索能力 [3][12][13] - 传统指标“熵”无法精确描述模型对不同推理路径的真实探索程度,因为相同熵值的分布可能具有截然不同的形态 [8][9] - 研究团队引入新分析指标,发现RLVR训练存在系统性偏差:持续强化排名第一候选词的概率,同时显著抑制其他排名较低的正确路径 [11][12] SimKO算法机制 - 算法核心是对探索token施加非对称更新策略,在正确路径上实现概率平滑,在错误路径上施加精准惩罚 [17] - 首先识别推理路径中具有高熵的关键节点token,更新策略仅应用于这些节点 [18] - 对于正确路径,实施top-K标签平滑策略,将奖励均匀分配给关键节点处概率最高的top-K个候选token [20][23] - 对于错误路径,进行非对称惩罚:对排名第一的错误候选施加显著更强惩罚,对其他排名错误候选降低惩罚强度 [20][23] 实验性能评估 - 在MATH500、AIME 2024/25等多个数学推理基准上,SimKO在Qwen2.5-Math-7B模型上相比GRPO方法,pass@1提升1.7个百分点至43.4%,pass@256提升4.4个百分点至80.5% [22] - 在Qwen2.5-7B模型上,SimKO相比GRPO在pass@1和pass@256分别提升0.5和2.0个百分点 [22] - 在Llama3.2-3B-Instruct模型上,SimKO相比GRPO在pass@1和pass@256分别提升0.7和1.3个百分点 [22] - 在逻辑推理任务中,SimKO在分布内任务上相比GRPO的pass@1提升31.6%,pass@128提升26.3%;在分布外任务上pass@1提升16%,pass@128性能达92% [24][27] 算法有效性验证 - 学习动态追踪显示,传统GRPO方法导致排名第一候选词概率迅速收敛至接近1,而其他排名候选概率降至极低水平(10⁻⁸至10⁻¹⁰) [26] - SimKO有效缓解概率集中问题,其排名第一候选词概率显著低于GRPO,同时为其他排名候选保留了更高概率质量 [26] - 概率过度集中问题与pass@K性能下降之间存在强相关性,SimKO通过缓解此问题提升了模型的探索能力 [13][26]