人类反馈强化学习(RLHF)

搜索文档
清华、上海AI Lab等顶级团队发布推理模型RL超全综述
具身智能之心· 2025-09-15 00:04
强化学习在大推理模型中的发展历程 - 强化学习自1998年Sutton提出概念以来 明确奖励信号可使智能体在复杂环境中超越人类 [4] - 2013年DeepMind展示RL训练智能体仅凭像素和得分反馈学会玩《打砖块》游戏 [4] - AlphaGo和AlphaZero通过自我对弈和奖励信号在围棋等棋类达到人类难以企及水平 [4] - 大模型时代RL应用于人类反馈强化学习(RLHF)使模型回答更符合人类偏好 [4] 大推理模型(LRM)的新趋势 - 研究者希望通过RL让模型不仅"更听话"且真正学会"推理" 通过可验证奖励提升数学题答对率或代码测试通过率 [5] - OpenAI的o1和DeepSeek-R1展示RL训练后模型具备更好规划、反思和自我纠正能力 [5][13] - 推理能力可通过扩展不断增强 与参数规模、训练数据并列成为新扩展路径 [5][13] 技术实现与核心突破 - LRM采用可验证奖励训练(RLVR)掌握长链推理能力 包括规划、反思和自我纠错 [13] - OpenAI o1性能随额外RL训练算力增加和推理阶段"思考时间"算力增加持续提升 [13] - DeepSeek-R1在数学任务采用基于规则准确率奖励 编程任务采用编译器/测试驱动奖励 展示大规模GRPO算法引导复杂推理能力 [13] - RL方法从RLHF(2022)演进至DPO(2023)再到RLVR(2025) 任务解决能力和能力提升持续增加 [15] 系统特性与扩展路径 - LRM在推理过程分配大量计算资源生成、评估和修正中间推理链 性能随计算预算增加提升 [15] - 提供与预训练数据规模和参数规模扩展互补的能力增长路径 [15] - 利用奖励最大化目标在存在可靠验证器领域实现自动可检验奖励 [15] - RL通过生成自监督训练数据克服数据限制 被视为实现通用人工超级智能(ASI)的潜在技术路径 [15] 研究综述内容框架 - 引入LRM语境下RL建模基本定义 梳理自OpenAI o1发布以来前沿推理模型发展 [16] - 回顾RL for LRM核心组件:奖励设计、策略优化和采样策略 比较不同研究方向和技术方案 [16] - 讨论基础性与争议性问题:RL角色、RL vs SFT、模型先验、训练方法及奖励定义 [16] - 总结训练资源包括静态语料库、动态环境和训练基础设施 [16] - 综述RL在编程任务、智能体任务、多模态任务、多智能体系统、机器人任务及医学应用 [16][18] - 探讨未来研究方向包括新算法、新机制、新功能及其他潜在路径 [16][18] 领域挑战与机遇 - RL在大推理模型应用面临奖励设计合理性、算法效率、数据与算力支撑等挑战 [6] - 扩展挑战不仅限于计算资源 还涉及算法设计、训练数据和基础设施 [8][15] - 如何扩展RL实现更高水平智能并产生现实价值仍是未解决问题 [15] - 需重新审视领域发展 探索增强RL可扩展性策略以迈向通用人工超级智能 [8][15]