Workflow
可验证的过程奖励机制(VSRM)
icon
搜索文档
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理
搜狐财经· 2025-09-11 22:23
核心观点 - 美团等机构的研究团队提出可验证的过程奖励机制VSRM 通过抑制无效推理步骤和鼓励有效步骤 显著减少大型语言模型的过度思考问题 在保持模型性能的同时实现高效推理 [6][12][20] 技术方案 - VSRM机制结合可验证奖励与步骤级奖励 为推理过程中的每个中间步骤分配奖励信号 天然契合推理任务分步作答特点 [13][20] - 使用特殊token如"However"、"Therefore"等定位推理步骤 并设计三条规则保证划分后内容的可读性 [14] - 通过评估步骤完成前后的正确率增益来评估步骤有效性 正确率可通过可验证方式获得 [15][18] - 引入前瞻窗口机制将未来正确率变化通过折扣因子传播给当前步 确保奖励信号尽量密集 避免稀疏奖励问题 [19][20] - VSRM机制与强化学习算法解耦 能天然适配支持过程奖励的方法 只需将逐步奖励添加到最终reward tensor [20] 性能表现 - 在AIME24基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从12605 token减少至7065 token 降幅达44% 同时保持29.2%的pass@1准确率 [6] - 在AIME25基准上 VSRM-R++使DS-Distill-7B模型输出长度从10909 token减少至6953 token 降幅达36% pass@1准确率从36.0%提升至36.4% [6] - 在MATH-500基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从4960 token减少至2400 token 降幅达52% pass@1准确率保持在82.2% [6] - 在AMC23基准上 VSRM-PPO使DS-Distill-1.5B模型输出长度从8577 token减少至4153 token 降幅达52% pass@1准确率从62.9%提升至64.9% [6] - 在DeepScaleR模型上 VSRM-R++使输出长度从8515 token减少至6668 token 降幅达22% 同时在AMC23基准上pass@1准确率从73.6%提升至74.7% [6] 问题背景 - 大型语言模型通过RLVR范式培养强大CoT推理能力 但伴随冗长输出内容 显著增加推理开销并影响服务吞吐量 这种现象被称为"过度思考"问题 [4] - 过度思考问题本质是模型倾向于给出多种不同解答 特别对简单问题 大量无效中间步骤导致中间过程出错 [10][12] - 案例研究显示模型为解决简单子问题如"[-500,0]中有多少个小于0的整数"进行反复思考 在正确和错误间横跳 最终得出不正确结论 [10] 方法优势 - 与直接施加长度惩罚不同 VSRM直接从源头给予清晰奖励信号 引导模型选择对提升最终正确率有帮助的步骤 [20] - 消融实验显示VSRM中前瞻窗口机制有效 额外显式长度惩罚对VSRM机制无帮助 [22] - 在困难benchmark上 VSRM训练后模型保持与原本模型一致的Pass@k指标提升趋势 说明未因输出长度压缩而失去探索能力 [22]
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理
量子位· 2025-09-11 10:19
文章核心观点 - 美团等机构研究团队提出可验证的过程奖励机制(VSRM) 通过奖励有效步骤和惩戒无效步骤 显著减少大型语言模型(LRM)在思维链(CoT)推理中的过度思考问题 在保持模型性能的同时实现输出长度的大幅缩减 [1][7][9][13][18] 过度思考问题分析 - 过度思考问题表现为模型对简单问题生成冗长输出(例如8734个token) 包含大量无效推理步骤 导致中间结论错误并影响最终答案准确性 [4][5][6] - 案例显示模型在计算闭区间[-500,500]内整数数量时反复修正步骤 最终错误输出500(正确答案应为501) 无效步骤占比超过50% [5] - 根本原因是中间步骤无法推动解题进展 甚至引入错误 需通过后训练机制抑制无效步骤 [6][7] VSRM机制设计原理 - 通过特殊token(例如"However"、"Therefore")划分推理步骤 结合三条规则确保步骤可读性:跳过初始重述、避免过度分割、调整句子内部token位置 [11] - 使用子轨迹正确率差值计算步骤奖励:$$\mathcal{A}_{\mathcal{T}_{i}}=\frac{1}{N}\sum_{j=i}^{N}I(\mathrm{IsCorrect}(\mathrm{LRM}(\mathcal{T}_{i})_{j}))$$ 和 $$d_{i-1}=\mathcal{A}_{i}-\mathcal{A}_{i-1}$$ [12] - 引入前瞻窗口机制解决奖励稀疏问题 通过折扣因子传播未来正确率变化 使奖励信号更密集:$$R_{\mathcal{T}}=[\ldots,r_{1},\ldots,r_{t},\ldots,r_{k},\ldots,r_{\mathcal{T}}^{\mathrm{result}}+r_{\mathcal{T}}^{\mathrm{format}}]$$ [13] - 机制与强化学习算法解耦 可适配支持过程奖励的方法 结合结果奖励和格式奖励实现高效推理 [13] 实验结果 - 在AIME24、AIME25、MATH-500等数学基准测试中 VSRM使1.5B/7B/DeepScaleR模型输出长度缩减35%-60% 同时保持或提升准确率 [14][15] - 1.5B模型在MATH-500上输出长度从4960 token降至2400 token(降幅51.6%) 准确率保持82.2% [15] - 7B模型在AMC23上输出长度从6884 token降至3704 token(降幅46.2%) 准确率提升1.8个百分点至80.9% [15] - 消融实验验证前瞻窗口必要性:移除后输出长度增加39%(从7065升至8638 token) 显式长度惩罚会降低准确率(例如AIME25从23.0%降至20.9%) [16] 机制优势 - 从源头区分步骤有效性 避免直接长度惩罚对性能的损害 保持模型探索多解能力(Pass@k指标趋势一致) [13][16][18] - 适用于不同规模模型和RL算法(PPO/R++) 在OlympiadBench等复杂任务中均有效 [15][18]