通用人工超级智能（ASI） - 财报，业绩电话会，研报，新闻

通用人工超级智能（ASI）

搜索文档

具身智能之心· 2025-09-15 00:04

强化学习在大推理模型中的发展历程 - 强化学习自1998年Sutton提出概念以来明确奖励信号可使智能体在复杂环境中超越人类 [4] - 2013年DeepMind展示RL训练智能体仅凭像素和得分反馈学会玩《打砖块》游戏 [4] - AlphaGo和AlphaZero通过自我对弈和奖励信号在围棋等棋类达到人类难以企及水平 [4] - 大模型时代RL应用于人类反馈强化学习（RLHF）使模型回答更符合人类偏好 [4] 大推理模型（LRM）的新趋势 - 研究者希望通过RL让模型不仅"更听话"且真正学会"推理" 通过可验证奖励提升数学题答对率或代码测试通过率 [5] - OpenAI的o1和DeepSeek-R1展示RL训练后模型具备更好规划、反思和自我纠正能力 [5][13] - 推理能力可通过扩展不断增强与参数规模、训练数据并列成为新扩展路径 [5][13] 技术实现与核心突破 - LRM采用可验证奖励训练（RLVR）掌握长链推理能力包括规划、反思和自我纠错 [13] - OpenAI o1性能随额外RL训练算力增加和推理阶段"思考时间"算力增加持续提升 [13] - DeepSeek-R1在数学任务采用基于规则准确率奖励编程任务采用编译器/测试驱动奖励展示大规模GRPO算法引导复杂推理能力 [13] - RL方法从RLHF（2022）演进至DPO（2023）再到RLVR（2025）任务解决能力和能力提升持续增加 [15] 系统特性与扩展路径 - LRM在推理过程分配大量计算资源生成、评估和修正中间推理链性能随计算预算增加提升 [15] - 提供与预训练数据规模和参数规模扩展互补的能力增长路径 [15] - 利用奖励最大化目标在存在可靠验证器领域实现自动可检验奖励 [15] - RL通过生成自监督训练数据克服数据限制被视为实现通用人工超级智能（ASI）的潜在技术路径 [15] 研究综述内容框架 - 引入LRM语境下RL建模基本定义梳理自OpenAI o1发布以来前沿推理模型发展 [16] - 回顾RL for LRM核心组件：奖励设计、策略优化和采样策略比较不同研究方向和技术方案 [16] - 讨论基础性与争议性问题：RL角色、RL vs SFT、模型先验、训练方法及奖励定义 [16] - 总结训练资源包括静态语料库、动态环境和训练基础设施 [16] - 综述RL在编程任务、智能体任务、多模态任务、多智能体系统、机器人任务及医学应用 [16][18] - 探讨未来研究方向包括新算法、新机制、新功能及其他潜在路径 [16][18] 领域挑战与机遇 - RL在大推理模型应用面临奖励设计合理性、算法效率、数据与算力支撑等挑战 [6] - 扩展挑战不仅限于计算资源还涉及算法设计、训练数据和基础设施 [8][15] - 如何扩展RL实现更高水平智能并产生现实价值仍是未解决问题 [15] - 需重新审视领域发展探索增强RL可扩展性策略以迈向通用人工超级智能 [8][15]

强化学习（RL）

通用人工超级智能（ASI）

Artificial Intelligence

Artificial Intelligence

大推理模型（LRM）

人类反馈强化学习（RLHF）

OpenAI o1

清华、上海AI Lab等顶级团队发布推理模型RL超全综述，探索通往超级智能之路

机器之心· 2025-09-13 08:54

文章核心观点 - 强化学习正成为推动大语言模型向大推理模型演进的核心方法通过可验证奖励机制提升模型在数学、编程等复杂任务中的推理能力 [2][3][5] - OpenAI o1和DeepSeek-R1展示了RL训练带来的突破性进展：模型性能随训练算力和推理思考时间增加而持续提升揭示了除预训练外的新扩展路径 [10] - RL通过奖励最大化目标和自监督数据生成克服数据限制被视为实现通用人工超级智能的潜在技术路径 [12] 前沿模型发展 - DeepMind早期已证明RL智能体仅凭像素和得分反馈即可学会玩《打砖块》游戏 AlphaGo系列通过自我对弈超越人类棋手 [2] - 大模型时代RL最初应用于人类偏好对齐（RLHF）近期转向提升模型推理能力形成大推理模型新范式 [2][3] - OpenAI o1和DeepSeek-R1成为重要里程碑：前者通过RL训练和推理时间扩展提升性能后者采用基于规则的准确率奖励和编译器测试驱动奖励 [10] 基础组件 - 奖励设计包含可验证奖励（如数学答案正确率）、生成式奖励、密集奖励、无监督奖励和奖励塑形等多类方法 [14] - 策略优化涵盖策略梯度目标、基于评论家算法、无评论家算法、离策略优化和正则化目标等方向 [14] - 采样策略包括动态结构化采样和采样超参数优化旨在提升训练效率 [14] 关键问题 - RL在大推理模型中的角色存在"能力锐化"与"能力发现"之争需明确其核心作用 [14] - RL与监督微调（SFT）存在泛化与记忆的差异需平衡两者关系 [14] - 奖励类型区分过程奖励与结果奖励影响模型学习路径 [14] 训练资源 - 静态语料库、动态环境和训练基础设施构成三大资源类别需进一步标准化发展 [14] - 现有资源虽可复用但仍需完善以支撑大规模RL训练需求 [5] 应用场景 - 编程任务通过代码测试通过率作为奖励提升模型代码生成能力 [14] - 智能体任务关注语言智能体与环境的长期交互演化 [7] - 多模态任务、多智能体系统、机器人任务和医学应用构成RL重要落地方向 [14][15] 未来方向 - 持续RL、基于记忆的RL和基于模型的RL被视为LLM强化学习重点发展领域 [15] - 潜在研究方向包括高效推理教学、潜在空间推理、预训练RL、扩散模型RL及科学发现应用等 [15]

强化学习（RL）

大推理模型（LRM）

通用人工超级智能（ASI）

Artificial Intelligence

Artificial Intelligence

OpenAI o1

DeepSeek - R1