可验证的过程奖励机制（VSRM）

搜索文档

搜狐财经· 2025-09-11 22:23

核心观点 - 美团等机构的研究团队提出可验证的过程奖励机制VSRM 通过抑制无效推理步骤和鼓励有效步骤显著减少大型语言模型的过度思考问题在保持模型性能的同时实现高效推理 [6][12][20] 技术方案 - VSRM机制结合可验证奖励与步骤级奖励为推理过程中的每个中间步骤分配奖励信号天然契合推理任务分步作答特点 [13][20] - 使用特殊token如"However"、"Therefore"等定位推理步骤并设计三条规则保证划分后内容的可读性 [14] - 通过评估步骤完成前后的正确率增益来评估步骤有效性正确率可通过可验证方式获得 [15][18] - 引入前瞻窗口机制将未来正确率变化通过折扣因子传播给当前步确保奖励信号尽量密集避免稀疏奖励问题 [19][20] - VSRM机制与强化学习算法解耦能天然适配支持过程奖励的方法只需将逐步奖励添加到最终reward tensor [20] 性能表现 - 在AIME24基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从12605 token减少至7065 token 降幅达44% 同时保持29.2%的pass@1准确率 [6] - 在AIME25基准上 VSRM-R++使DS-Distill-7B模型输出长度从10909 token减少至6953 token 降幅达36% pass@1准确率从36.0%提升至36.4% [6] - 在MATH-500基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从4960 token减少至2400 token 降幅达52% pass@1准确率保持在82.2% [6] - 在AMC23基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从8577 token减少至4153 token 降幅达52% pass@1准确率从62.9%提升至64.9% [6] - 在DeepScaleR模型上 VSRM-R++使输出长度从8515 token减少至6668 token 降幅达22% 同时在AMC23基准上pass@1准确率从73.6%提升至74.7% [6] 问题背景 - 大型语言模型通过RLVR范式培养强大CoT推理能力但伴随冗长输出内容显著增加推理开销并影响服务吞吐量这种现象被称为"过度思考"问题 [4] - 过度思考问题本质是模型倾向于给出多种不同解答特别对简单问题大量无效中间步骤导致中间过程出错 [10][12] - 案例研究显示模型为解决简单子问题如"[-500,0]中有多少个小于0的整数"进行反复思考在正确和错误间横跳最终得出不正确结论 [10] 方法优势 - 与直接施加长度惩罚不同 VSRM直接从源头给予清晰奖励信号引导模型选择对提升最终正确率有帮助的步骤 [20] - 消融实验显示VSRM中前瞻窗口机制有效额外显式长度惩罚对VSRM机制无帮助 [22] - 在困难benchmark上 VSRM训练后模型保持与原本模型一致的Pass@k指标提升趋势说明未因输出长度压缩而失去探索能力 [22]

攻克AI过度思考难题！美团新研究让通过“可验证”过程奖励激活LRM的高效推理

量子位· 2025-09-11 10:19

文章核心观点 - 美团等机构研究团队提出可验证的过程奖励机制（VSRM）通过奖励有效步骤和惩戒无效步骤显著减少大型语言模型（LRM）在思维链（CoT）推理中的过度思考问题在保持模型性能的同时实现输出长度的大幅缩减 [1][7][9][13][18] 过度思考问题分析 - 过度思考问题表现为模型对简单问题生成冗长输出（例如8734个token）包含大量无效推理步骤导致中间结论错误并影响最终答案准确性 [4][5][6] - 案例显示模型在计算闭区间[-500,500]内整数数量时反复修正步骤最终错误输出500（正确答案应为501）无效步骤占比超过50% [5] - 根本原因是中间步骤无法推动解题进展甚至引入错误需通过后训练机制抑制无效步骤 [6][7] VSRM机制设计原理 - 通过特殊token（例如"However"、"Therefore"）划分推理步骤结合三条规则确保步骤可读性：跳过初始重述、避免过度分割、调整句子内部token位置 [11] - 使用子轨迹正确率差值计算步骤奖励：$$\mathcal{A}_{\mathcal{T}_{i}}=\frac{1}{N}\sum_{j=i}^{N}I(\mathrm{IsCorrect}(\mathrm{LRM}(\mathcal{T}_{i})_{j}))$$ 和 $$d_{i-1}=\mathcal{A}_{i}-\mathcal{A}_{i-1}$$ [12] - 引入前瞻窗口机制解决奖励稀疏问题通过折扣因子传播未来正确率变化使奖励信号更密集：$$R_{\mathcal{T}}=[\ldots,r_{1},\ldots,r_{t},\ldots,r_{k},\ldots,r_{\mathcal{T}}^{\mathrm{result}}+r_{\mathcal{T}}^{\mathrm{format}}]$$ [13] - 机制与强化学习算法解耦可适配支持过程奖励的方法结合结果奖励和格式奖励实现高效推理 [13] 实验结果 - 在AIME24、AIME25、MATH-500等数学基准测试中 VSRM使1.5B/7B/DeepScaleR模型输出长度缩减35%-60% 同时保持或提升准确率 [14][15] - 1.5B模型在MATH-500上输出长度从4960 token降至2400 token（降幅51.6%）准确率保持82.2% [15] - 7B模型在AMC23上输出长度从6884 token降至3704 token（降幅46.2%）准确率提升1.8个百分点至80.9% [15] - 消融实验验证前瞻窗口必要性：移除后输出长度增加39%（从7065升至8638 token）显式长度惩罚会降低准确率（例如AIME25从23.0%降至20.9%） [16] 机制优势 - 从源头区分步骤有效性避免直接长度惩罚对性能的损害保持模型探索多解能力（Pass@k指标趋势一致） [13][16][18] - 适用于不同规模模型和RL算法（PPO/R++）在OlympiadBench等复杂任务中均有效 [15][18]