大推理模型(LRM)

搜索文档
清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
机器之心· 2025-09-13 08:54
文章核心观点 - 强化学习正成为推动大语言模型向大推理模型演进的核心方法 通过可验证奖励机制提升模型在数学、编程等复杂任务中的推理能力 [2][3][5] - OpenAI o1和DeepSeek-R1展示了RL训练带来的突破性进展:模型性能随训练算力和推理思考时间增加而持续提升 揭示了除预训练外的新扩展路径 [10] - RL通过奖励最大化目标和自监督数据生成克服数据限制 被视为实现通用人工超级智能的潜在技术路径 [12] 前沿模型发展 - DeepMind早期已证明RL智能体仅凭像素和得分反馈即可学会玩《打砖块》游戏 AlphaGo系列通过自我对弈超越人类棋手 [2] - 大模型时代RL最初应用于人类偏好对齐(RLHF) 近期转向提升模型推理能力 形成大推理模型新范式 [2][3] - OpenAI o1和DeepSeek-R1成为重要里程碑:前者通过RL训练和推理时间扩展提升性能 后者采用基于规则的准确率奖励和编译器测试驱动奖励 [10] 基础组件 - 奖励设计包含可验证奖励(如数学答案正确率)、生成式奖励、密集奖励、无监督奖励和奖励塑形等多类方法 [14] - 策略优化涵盖策略梯度目标、基于评论家算法、无评论家算法、离策略优化和正则化目标等方向 [14] - 采样策略包括动态结构化采样和采样超参数优化 旨在提升训练效率 [14] 关键问题 - RL在大推理模型中的角色存在"能力锐化"与"能力发现"之争 需明确其核心作用 [14] - RL与监督微调(SFT)存在泛化与记忆的差异 需平衡两者关系 [14] - 奖励类型区分过程奖励与结果奖励 影响模型学习路径 [14] 训练资源 - 静态语料库、动态环境和训练基础设施构成三大资源类别 需进一步标准化发展 [14] - 现有资源虽可复用 但仍需完善以支撑大规模RL训练需求 [5] 应用场景 - 编程任务通过代码测试通过率作为奖励 提升模型代码生成能力 [14] - 智能体任务关注语言智能体与环境的长期交互演化 [7] - 多模态任务、多智能体系统、机器人任务和医学应用构成RL重要落地方向 [14][15] 未来方向 - 持续RL、基于记忆的RL和基于模型的RL被视为LLM强化学习重点发展领域 [15] - 潜在研究方向包括高效推理教学、潜在空间推理、预训练RL、扩散模型RL及科学发现应用等 [15]