Workflow
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理
量子位·2025-09-11 10:19

文章核心观点 - 美团等机构研究团队提出可验证的过程奖励机制(VSRM) 通过奖励有效步骤和惩戒无效步骤 显著减少大型语言模型(LRM)在思维链(CoT)推理中的过度思考问题 在保持模型性能的同时实现输出长度的大幅缩减 [1][7][9][13][18] 过度思考问题分析 - 过度思考问题表现为模型对简单问题生成冗长输出(例如8734个token) 包含大量无效推理步骤 导致中间结论错误并影响最终答案准确性 [4][5][6] - 案例显示模型在计算闭区间[-500,500]内整数数量时反复修正步骤 最终错误输出500(正确答案应为501) 无效步骤占比超过50% [5] - 根本原因是中间步骤无法推动解题进展 甚至引入错误 需通过后训练机制抑制无效步骤 [6][7] VSRM机制设计原理 - 通过特殊token(例如"However"、"Therefore")划分推理步骤 结合三条规则确保步骤可读性:跳过初始重述、避免过度分割、调整句子内部token位置 [11] - 使用子轨迹正确率差值计算步骤奖励:ATi=1Nj=iNI(IsCorrect(LRM(Ti)j))\mathcal{A}_{\mathcal{T}_{i}}=\frac{1}{N}\sum_{j=i}^{N}I(\mathrm{IsCorrect}(\mathrm{LRM}(\mathcal{T}_{i})_{j}))di1=AiAi1d_{i-1}=\mathcal{A}_{i}-\mathcal{A}_{i-1} [12] - 引入前瞻窗口机制解决奖励稀疏问题 通过折扣因子传播未来正确率变化 使奖励信号更密集:RT=[,r1,,rt,,rk,,rTresult+rTformat]R_{\mathcal{T}}=[\ldots,r_{1},\ldots,r_{t},\ldots,r_{k},\ldots,r_{\mathcal{T}}^{\mathrm{result}}+r_{\mathcal{T}}^{\mathrm{format}}] [13] - 机制与强化学习算法解耦 可适配支持过程奖励的方法 结合结果奖励和格式奖励实现高效推理 [13] 实验结果 - 在AIME24、AIME25、MATH-500等数学基准测试中 VSRM使1.5B/7B/DeepScaleR模型输出长度缩减35%-60% 同时保持或提升准确率 [14][15] - 1.5B模型在MATH-500上输出长度从4960 token降至2400 token(降幅51.6%) 准确率保持82.2% [15] - 7B模型在AMC23上输出长度从6884 token降至3704 token(降幅46.2%) 准确率提升1.8个百分点至80.9% [15] - 消融实验验证前瞻窗口必要性:移除后输出长度增加39%(从7065升至8638 token) 显式长度惩罚会降低准确率(例如AIME25从23.0%降至20.9%) [16] 机制优势 - 从源头区分步骤有效性 避免直接长度惩罚对性能的损害 保持模型探索多解能力(Pass@k指标趋势一致) [13][16][18] - 适用于不同规模模型和RL算法(PPO/R++) 在OlympiadBench等复杂任务中均有效 [15][18]