攻克AI过度思考难题！美团新研究让通过“可验证”过程奖励激活LRM的高效推理

核心观点 - 美团等机构的研究团队提出可验证的过程奖励机制VSRM 通过抑制无效推理步骤和鼓励有效步骤显著减少大型语言模型的过度思考问题在保持模型性能的同时实现高效推理 [6][12][20] 技术方案 - VSRM机制结合可验证奖励与步骤级奖励为推理过程中的每个中间步骤分配奖励信号天然契合推理任务分步作答特点 [13][20] - 使用特殊token如"However"、"Therefore"等定位推理步骤并设计三条规则保证划分后内容的可读性 [14] - 通过评估步骤完成前后的正确率增益来评估步骤有效性正确率可通过可验证方式获得 [15][18] - 引入前瞻窗口机制将未来正确率变化通过折扣因子传播给当前步确保奖励信号尽量密集避免稀疏奖励问题 [19][20] - VSRM机制与强化学习算法解耦能天然适配支持过程奖励的方法只需将逐步奖励添加到最终reward tensor [20] 性能表现 - 在AIME24基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从12605 token减少至7065 token 降幅达44% 同时保持29.2%的pass@1准确率 [6] - 在AIME25基准上 VSRM-R++使DS-Distill-7B模型输出长度从10909 token减少至6953 token 降幅达36% pass@1准确率从36.0%提升至36.4% [6] - 在MATH-500基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从4960 token减少至2400 token 降幅达52% pass@1准确率保持在82.2% [6] - 在AMC23基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从8577 token减少至4153 token 降幅达52% pass@1准确率从62.9%提升至64.9% [6] - 在DeepScaleR模型上 VSRM-R++使输出长度从8515 token减少至6668 token 降幅达22% 同时在AMC23基准上pass@1准确率从73.6%提升至74.7% [6] 问题背景 - 大型语言模型通过RLVR范式培养强大CoT推理能力但伴随冗长输出内容显著增加推理开销并影响服务吞吐量这种现象被称为"过度思考"问题 [4] - 过度思考问题本质是模型倾向于给出多种不同解答特别对简单问题大量无效中间步骤导致中间过程出错 [10][12] - 案例研究显示模型为解决简单子问题如"[-500,0]中有多少个小于0的整数"进行反复思考在正确和错误间横跳最终得出不正确结论 [10] 方法优势 - 与直接施加长度惩罚不同 VSRM直接从源头给予清晰奖励信号引导模型选择对提升最终正确率有帮助的步骤 [20] - 消融实验显示VSRM中前瞻窗口机制有效额外显式长度惩罚对VSRM机制无帮助 [22] - 在困难benchmark上 VSRM训练后模型保持与原本模型一致的Pass@k指标提升趋势说明未因输出长度压缩而失去探索能力 [22]