核心观点 - 美团等机构的研究团队提出可验证的过程奖励机制VSRM 通过抑制无效推理步骤和鼓励有效步骤 显著减少大型语言模型的过度思考问题 在保持模型性能的同时实现高效推理 [6][12][20] 技术方案 - VSRM机制结合可验证奖励与步骤级奖励 为推理过程中的每个中间步骤分配奖励信号 天然契合推理任务分步作答特点 [13][20] - 使用特殊token如"However"、"Therefore"等定位推理步骤 并设计三条规则保证划分后内容的可读性 [14] - 通过评估步骤完成前后的正确率增益来评估步骤有效性 正确率可通过可验证方式获得 [15][18] - 引入前瞻窗口机制将未来正确率变化通过折扣因子传播给当前步 确保奖励信号尽量密集 避免稀疏奖励问题 [19][20] - VSRM机制与强化学习算法解耦 能天然适配支持过程奖励的方法 只需将逐步奖励添加到最终reward tensor [20] 性能表现 - 在AIME24基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从12605 token减少至7065 token 降幅达44% 同时保持29.2%的pass@1准确率 [6] - 在AIME25基准上 VSRM-R++使DS-Distill-7B模型输出长度从10909 token减少至6953 token 降幅达36% pass@1准确率从36.0%提升至36.4% [6] - 在MATH-500基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从4960 token减少至2400 token 降幅达52% pass@1准确率保持在82.2% [6] - 在AMC23基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从8577 token减少至4153 token 降幅达52% pass@1准确率从62.9%提升至64.9% [6] - 在DeepScaleR模型上 VSRM-R++使输出长度从8515 token减少至6668 token 降幅达22% 同时在AMC23基准上pass@1准确率从73.6%提升至74.7% [6] 问题背景 - 大型语言模型通过RLVR范式培养强大CoT推理能力 但伴随冗长输出内容 显著增加推理开销并影响服务吞吐量 这种现象被称为"过度思考"问题 [4] - 过度思考问题本质是模型倾向于给出多种不同解答 特别对简单问题 大量无效中间步骤导致中间过程出错 [10][12] - 案例研究显示模型为解决简单子问题如"[-500,0]中有多少个小于0的整数"进行反复思考 在正确和错误间横跳 最终得出不正确结论 [10] 方法优势 - 与直接施加长度惩罚不同 VSRM直接从源头给予清晰奖励信号 引导模型选择对提升最终正确率有帮助的步骤 [20] - 消融实验显示VSRM中前瞻窗口机制有效 额外显式长度惩罚对VSRM机制无帮助 [22] - 在困难benchmark上 VSRM训练后模型保持与原本模型一致的Pass@k指标提升趋势 说明未因输出长度压缩而失去探索能力 [22]
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理