Workflow
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
36氪·2025-09-10 09:53

大语言模型推理能力挑战 - 当前大语言模型在复杂代码、多步逻辑和抽象任务中经常出现逻辑跳跃、步骤混乱和答非所问等问题 [1] - 现有方法难以兼顾推理能力、训练效率与通用性 面临奖励信号差异微弱、计算成本高、泛化能力差以及数据标注成本高等难题 [1][3][4] 清华大学ReST-RL新方法 - 提出统一的强化学习新范式ReST-RL 将改进的GRPO算法与价值模型辅助的测试时解码方法相结合 [1] - 方法包含ReST-GRPO和VM-MCTS两个核心组件 分别针对训练和推理阶段进行优化 [5] - ReST-GRPO通过策略自身筛选训练数据 剔除奖励标准差低于阈值σ₀的提示语 聚焦高奖励解答轨迹 [6] - VM-MCTS在解码阶段使用价值模型提供验证信号并引导推理路径探索 通过MCTS平衡探索与利用 [9] 实验性能表现 - 在APPS、BigCodeBench和HumanEval等编程基准上优于其他强化训练基线和解码验证基线 [2] - ReST-GRPO相比原始GRPO和DAPO在相同训练步数下拥有更高训练效率 [10] - VM-MCTS在相同验证预算条件下准确性优于基于公开数据训练的Math-Shepherd风格PRM或ORM [10] 方法局限性 - 尚未在数学推理和常识推理等代码以外任务中验证有效性 [13] - 价值模型在域外任务中的准确性缺乏充分研究 [14] - 部分实验设置对最终结果的影响尚未得到系统性分析 [13]