让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好
量子位·2025-12-21 02:00

文章核心观点 - 上海人工智能实验室的研究团队提出了一种名为RePro(Rectifying Process-level Reward)的全新后训练范式,旨在解决大语言模型在长思维链推理中出现的“过度思考”问题,通过将推理过程视为内部状态的优化过程,并引入过程级奖励机制,引导模型生成更高效、更简洁的推理路径,从而在提升准确率的同时减少计算开销和推理延迟 [2][3][4][30] 长思维链推理的挑战与RePro的核心理念 - 长思维链已成为提升大模型复杂推理能力的标配,但模型常陷入“过度思考”陷阱,生成数千个冗余Token或在错误路径上反复横跳,浪费算力并增加延迟 [1] - RePro基于“推理即优化”的核心思想,将模型的推理轨迹视为在损失曲面上寻找最优解的路径,每一步推理都相当于一次梯度更新,目标是最大化生成正确答案的概率 [3][7] - 正确的推理路径上,衡量模型对答案信心的代理目标函数J̃会平稳上升,而低效的“胡思乱想”路径则表现为震荡或停滞 [9] RePro的三大矫正机制 - 代理目标函数J:设计了一个可计算的目标函数J̃,用于量化模型在当前推理步骤下生成正确答案的平均对数概率,该指标越高代表模型对答案越自信 [5][6] - 双重评分机制:将推理质量拆解为两个维度进行量化 [10] - 强度评分:衡量目标函数J̃的提升幅度,即一段思考让模型离答案近了多远,通过比较当前步骤后的J̃值与基线值(不思考直接回答的信心)来计算相对增益,并使用tanh函数归一化以防止梯度爆炸 [11][12] - 稳定性评分:衡量J̃是否平滑上升,利用Kendall‘s Tau相关系数计算J̃值序列与时间步序列的秩相关性,高稳定性(接近1)表示每一步都在进步,低稳定性表示逻辑混乱或倒退 [13][14] - 流程级奖励整合:将强度评分与稳定性评分加权构成最终过程评分S,用于判断思维路径的价值 [15] - 采用熵值筛选策略以降低计算开销:将推理链按逻辑段落分割,计算每个段落首Token的熵,只选择熵最高的前k个段落进行RePro奖励计算,从而在模型最迷茫的关键时刻给予指引 [18][19][20] - 通过计算过程评分的提升量ΔS作为“过程级奖励”,与最终结果奖励结合,输入到强化学习的优势函数中,高效精准地引导模型优化关键决策点的推理 [21][22] 实验效果与性能提升 - 准确率稳定提升:在数学、科学、编程等多个任务上,RePro结合不同强化学习算法均带来稳定提升 [23] - 在DeepSeek-R1-Distill-1.5B模型上,使用PPO+RePro后,在AIME24、AIME25、MATH500基准上的Pass@1准确率分别达到36.3%(提升1.5个百分点)、27.7%(提升3.3个百分点)、87.7%(提升0.8个百分点) [24] - 在Qwen3-1.7B模型上,使用GRPO+RePro后,在相同基准上的准确率分别达到49.8%(提升2.5个百分点)、37.9%(提升3.1个百分点)、94.1%(提升0.7个百分点) [24] - 推理效率显著提高: - 推理Token数量显著减少:随着训练进行,RePro模型生成的平均Token数量稳步下降,表明模型学会了“少说废话”,在更短的路径内给出更准的答案 [25][27] - 回溯行为减少:模型在推理过程中出现的“反复检查”或“思路绕圈子”的比例显著下降 [28] - 泛化能力良好:效率改进不仅出现在数学任务,在科学和代码任务上也有类似表现 [25] - 科学推理任务GPQA-Diamond上,准确率从34.5%提升至37.0%(提升2.5个百分点) [25] - 代码推理任务MBPP和LiveCodeBench上,准确率分别从62.5%提升至65.4%(提升2.9个百分点)、从15.2%提升至18.4%(提升3.2个百分点) [25] 研究意义与行业启示 - RePro的成功证明,更好的推理不一定需要更长的思维链,而是需要更“有效”的优化路径,简明扼要的推理才是好推理 [30] - 该方法通过将优化视角引入后训练阶段,为解决长思维链推理的效率瓶颈提供了一个优雅且通用的解法,引导大模型不仅要算对,还要算得高效 [30]