强化学习(RL)

搜索文档
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑
AI前线· 2025-09-18 02:28
核心突破与行业地位 - DeepSeek-R1成为首个通过完整同行评审并发表于《自然》封面的大语言模型 标志着国产AI研究迈入世界舞台并填补行业空白 [2][3][8] - 模型通过纯强化学习机制自主形成推理能力 无需依赖人工标注的思维链数据或提示工程 显著降低对人工数据的依赖 [3][12] - 在Hugging Face平台下载量突破1090万次 成为全球开源社区最受欢迎的推理模型之一 [3] 技术创新与训练方法 - 基于DeepSeek-V3 Base构建R1-Zero 通过多阶段训练结合监督微调和拒绝采样 实现强推理性能与人类偏好对齐 [3] - 采用组相对策略优化技术 模型通过自我评分和试错机制学习独立推理策略 而非模仿人类示例 [13] - 训练成本仅29.4万美元 基础模型开发成本约600万美元 总成本远低于竞争对手数千万美元投入 [6] 数据安全与透明度改进 - 预训练数据完全来自互联网 团队强调未有意进行蒸馏过程 但承认可能包含GPT-4生成文本 [6][13] - 为避免基准测试污染 清除数学数据中约600万条潜在污染样本 并引入外部风险控制机制 [6] - 安全性表现优于Claude-3.7-Sonnet和GPT-4o等主流模型 通过DeepSeek-V3实时审查 [6] 学术影响与行业评价 - 论文经过8位专家评审 收到上百条意见 最终审稿文件达64页 为论文本身三倍长度 [9] - 该方法引发行业革命 2025年几乎所有大语言模型的强化学习研究均受R1启发 [13] - 在ScienceAgentBench科学任务中 以23.53%准确率和1.87美元成本达到帕累托最优 成为性能成本平衡最佳模型之一 [15] 争议回应与验证 - 团队回应OpenAI数据使用质疑 称未直接使用其输出训练 但基础模型可能吸收互联网现有AI生成内容 [13][14] - 外部专家认为反驳具有说服力 其他实验室重复实验表明纯强化学习可实现高性能 无需依赖OpenAI样本 [14] - 论文补充训练细节和技术说明 减少拟人化描述 增加数据类型和安全性披露 [9][13]
华人 AI 招聘 2 年 ARR 超 1000 万美金,Mercor 年化收入已 5 亿美金
投资实习所· 2025-09-16 05:38
行业趋势转变 - AI行业需求从通用型AI导师转向专业型AI导师 涵盖STEM 金融 医学 安全等领域 [2] - 经济正转变为强化学习环境模拟器 强化学习效率提升使智能体能攻克基准测试 但需人类定义奖励函数实现自动化 [2] - 技术革命历史表明 每次变革虽引发失业恐惧 但最终催生新工作类别 如训练AI Agent成为新兴职业 [6] Mercor公司增长 - Mercor年化收入从100万美金增至5亿美金仅用17个月 增长速度持续加速 7月周环比增11% 8月增18% 9月增19% [2] - 平台每日向用户支付超过100万美金 快速招聘软件工程师 医生 律师 顾问 银行家等各领域专家 [3] - 公司定位为AI招聘平台 专注于为AI企业提供强化学习人才 区别于其他聚焦匹配或面试工具的AI招聘产品 [14][15] 人类与AI协作模式 - 人类工作价值从变动成本转向固定成本 例如教会AI模型报税可无限次应用知识 而非重复支付单个任务 [6] - 模型评估需构建更丰富环境 如模拟Google Drive工作空间 复刻多应用脚手架 评估现实世界行动可能性 [9] - 长周期任务和协作环境测试显示 当智能体面对复杂挑战时 人类贡献度再次提升 证明人类数据持续价值 [11] 新兴职业与市场机会 - AI革命将创造新产业阶层 负责塑造AI判断 设计训练环境 确保输出符合人类标准 [12][13] - 人类训练模型的市场规模取决于人类能完成而智能体无法胜任的任务量 当前经济中此类任务仍大量存在 [11] - 行业进入"经验时代" 模型需通过真实世界优化奖励 类似人类学习需反馈机制 如考试评分和绩效评估 [13]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 03:56
以下文章来源于具身智能之心 ,作者Haozhan Li等 具身智能之心 . 与世界交互,更进一步 作者丨 Haozhan Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 想让机器人灵活干活,视觉-语言-动作(VLA)模型是关键,但现在的训练方法太 "娇气" 了!靠监督微调(SFT)训练,不仅要海量人类操控轨迹数据(采集贵 到离谱还难扩规模),遇到没见过的任务或环境,性能直接 "翻车"。 好在大推理模型领域给了新灵感——强化学习(RL)光靠任务结果就能提升推理能力,那能不能用在 VLA 模型上?可难题也不少:传统机器人 RL 要手工调奖 励,没法大规模用;VLA 还得和环境反复交互,比 LLM 生成文本麻烦多了。 别慌,SimpleVLA-RL 框架来救场了!它基于 veRL 优化,专门适配 VLA 的轨迹采样、并行训练,效果直接拉满:在 LIBERO、RoboTwin 等基准测试里拿了 ...
正式开课!具身大脑和小脑算法与实战教程来啦
具身智能之心· 2025-09-15 00:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度的运动执行)[1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设具身智能大脑、小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 代表工作包括OpenVLA、RT-2、PI0等 融合视觉感知、语言理解与动作生成模块[7] - VLA模型支持零样本或小样本快速泛化 实现从"感知+控制"向"感知+推理+行动"的范式跃迁[7] - 2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限[9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力[11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 助力高效规划与决策[11] - VLA+触觉信息拓展从"看"到"看+触多模态融合"的感知边界 实现更精细安全的操作[12] 应用与人才发展 - 技术演进推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[14] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 导致许多学生转入具身智能领域研究[14] - 产业界重视推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[17] - 需掌握Mujoco/IsaacGym/Pybullet等平台的策略训练与仿真测试能力[17] - 需具备训练部署Diffusion Policy/VLA/力触融合VLA模型的实践能力[17] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[17] - 需掌握从世界建模预测→策略学习→物理执行的一体化具身智能架构[17]
清华、上海AI Lab等顶级团队发布推理模型RL超全综述
具身智能之心· 2025-09-15 00:04
强化学习在大推理模型中的发展历程 - 强化学习自1998年Sutton提出概念以来 明确奖励信号可使智能体在复杂环境中超越人类 [4] - 2013年DeepMind展示RL训练智能体仅凭像素和得分反馈学会玩《打砖块》游戏 [4] - AlphaGo和AlphaZero通过自我对弈和奖励信号在围棋等棋类达到人类难以企及水平 [4] - 大模型时代RL应用于人类反馈强化学习(RLHF)使模型回答更符合人类偏好 [4] 大推理模型(LRM)的新趋势 - 研究者希望通过RL让模型不仅"更听话"且真正学会"推理" 通过可验证奖励提升数学题答对率或代码测试通过率 [5] - OpenAI的o1和DeepSeek-R1展示RL训练后模型具备更好规划、反思和自我纠正能力 [5][13] - 推理能力可通过扩展不断增强 与参数规模、训练数据并列成为新扩展路径 [5][13] 技术实现与核心突破 - LRM采用可验证奖励训练(RLVR)掌握长链推理能力 包括规划、反思和自我纠错 [13] - OpenAI o1性能随额外RL训练算力增加和推理阶段"思考时间"算力增加持续提升 [13] - DeepSeek-R1在数学任务采用基于规则准确率奖励 编程任务采用编译器/测试驱动奖励 展示大规模GRPO算法引导复杂推理能力 [13] - RL方法从RLHF(2022)演进至DPO(2023)再到RLVR(2025) 任务解决能力和能力提升持续增加 [15] 系统特性与扩展路径 - LRM在推理过程分配大量计算资源生成、评估和修正中间推理链 性能随计算预算增加提升 [15] - 提供与预训练数据规模和参数规模扩展互补的能力增长路径 [15] - 利用奖励最大化目标在存在可靠验证器领域实现自动可检验奖励 [15] - RL通过生成自监督训练数据克服数据限制 被视为实现通用人工超级智能(ASI)的潜在技术路径 [15] 研究综述内容框架 - 引入LRM语境下RL建模基本定义 梳理自OpenAI o1发布以来前沿推理模型发展 [16] - 回顾RL for LRM核心组件:奖励设计、策略优化和采样策略 比较不同研究方向和技术方案 [16] - 讨论基础性与争议性问题:RL角色、RL vs SFT、模型先验、训练方法及奖励定义 [16] - 总结训练资源包括静态语料库、动态环境和训练基础设施 [16] - 综述RL在编程任务、智能体任务、多模态任务、多智能体系统、机器人任务及医学应用 [16][18] - 探讨未来研究方向包括新算法、新机制、新功能及其他潜在路径 [16][18] 领域挑战与机遇 - RL在大推理模型应用面临奖励设计合理性、算法效率、数据与算力支撑等挑战 [6] - 扩展挑战不仅限于计算资源 还涉及算法设计、训练数据和基础设施 [8][15] - 如何扩展RL实现更高水平智能并产生现实价值仍是未解决问题 [15] - 需重新审视领域发展 探索增强RL可扩展性策略以迈向通用人工超级智能 [8][15]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
具身智能之心· 2025-09-15 00:04
研究背景与核心问题 - 视觉-语言-动作(VLA)模型是机器人操控领域的关键范式 能整合视觉感知 语言理解与动作生成 实现复杂物理环境中的任务执行 [2] - 当前主流训练流程为大规模预训练加监督微调(SFT) 但存在数据稀缺性和泛化能力弱两大核心瓶颈 [2][5] - 数据稀缺性体现在SFT需大规模人类操作机器人轨迹数据 采集成本极高且规模受限 严重制约模型扩展性 [5] - 泛化能力弱体现在面对分布偏移如未见过的任务 环境或对象时性能大幅下降 尤其在长时序 组合型任务中表现突出 [5] - 大推理模型领域的突破证明强化学习(RL)仅通过结果奖励就能显著提升逐步推理能力 但VLA应用RL面临独特挑战 [2] SimpleVLA-RL框架设计 - 基于veRL扩展 加入VLA交互式轨迹采样 多环境并行渲染及训练推理渲染一体化设计 解决VLA与环境交互慢 成本高的问题 [6][9] - 采用结果奖励建模 摒弃传统RL复杂的过程奖励 使用二元结果奖励 任务成功则整个轨迹奖励为1 失败则为0 [9] - 通过探索增强策略解决VLA模型探索不足问题 包括动态采样 调整GRPO裁剪范围和提高采样温度 [9][10] - 采用修改后的Group Relative Policy Optimization目标函数 移除KL散度正则项 减少内存消耗并避免限制新行为探索 [9][10] - 动作token化策略选择与PPO类RL算法兼容性最好的动作token分布生成方案 通过随机采样生成多样化轨迹 [9][10] 基准测试性能 - 在LIBERO基准测试中 平均成功率从91.0%提升至99.1% 其中长时序任务LIBERO-Long提升12.0个百分点(86.5%→98.5%) [12][13] - 在RoboTwin1.0基准测试中 四个任务平均成功率从39.8%提升至70.4% 其中Blocks Stack任务提升33.1个百分点(7.1%→40.2%) [13] - 在RoboTwin2.0基准测试中 覆盖短中长超长时序12个任务 平均成功率从38.3%提升至68.8% 超越π₀(49.2%)和RDT(33.3%) [14][15] - 即使是需多轮交互的超长时序任务如Put Bottles Dustbin 也提升18.7个百分点 [14][15] 数据效率 - 在单轨迹SFT场景下 LIBERO平均成功率从48.9%提升至96.9% 长时序任务LIBERO-Long从17.3%提升至91.7% [16][17] - 与全轨迹SFT加RL(99.1%)的差距仅2.2个百分点 证明RL可大幅降低对大规模演示数据的依赖 [16][17] 泛化能力 - 在LIBERO的9个已见任务训练加1个未见任务测试实验中 SimpleVLA-RL所有未见任务成功率均提升 [18][22] - LIBERO-Object的Unseen Task 2提升36.5个百分点 LIBERO-Spatial的Unseen Task 1从43.3%提升至71.8% [22] - 证明RL能学习通用技能而非过拟合特定数据 避免SFT的灾难性遗忘问题 [18][22] 真实世界部署 - 仅用仿真数据训练 真实世界机械臂任务平均成功率从17.5%提升至38.5% [7][23] - Stack Bowls任务提升32个百分点(38.0%→70.0%) Pick Bottle任务实现14%成功率 [23] - 验证了高效的Sim-to-Real迁移能力和真实部署能力 [7][23] Pushcut现象与失败模式 - 在RoboTwin2.0任务中 RL训练使模型自主探索出推等超越人类演示的新策略 被定义为Pushcut现象 [8][24] - 结果奖励允许模型探索所有能完成任务的路径 而非局限于人类演示的单一方式 [24] - SimpleVLA-RL的有效性依赖初始模型能力 初始成功率需在阈值以上 RL才能通过探索进一步优化性能 [27][28][29] - 初始成功率为0时即使施加RL性能仍维持0 初始成功率较低时提升有限 初始成功率较高时提升显著 [28][29] 研究结论 - 降低对大规模演示数据的依赖 提升数据效率 [30][32] - 增强模型在分布偏移场景下的泛化能力 [30][32] - 实现高效的Sim-to-Real迁移 提升真实世界任务性能 [30][32] - Pushcut现象证明RL能让VLA模型超越人类演示的局限 探索更优策略 [8][24][32]
清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
机器之心· 2025-09-13 08:54
文章核心观点 - 强化学习正成为推动大语言模型向大推理模型演进的核心方法 通过可验证奖励机制提升模型在数学、编程等复杂任务中的推理能力 [2][3][5] - OpenAI o1和DeepSeek-R1展示了RL训练带来的突破性进展:模型性能随训练算力和推理思考时间增加而持续提升 揭示了除预训练外的新扩展路径 [10] - RL通过奖励最大化目标和自监督数据生成克服数据限制 被视为实现通用人工超级智能的潜在技术路径 [12] 前沿模型发展 - DeepMind早期已证明RL智能体仅凭像素和得分反馈即可学会玩《打砖块》游戏 AlphaGo系列通过自我对弈超越人类棋手 [2] - 大模型时代RL最初应用于人类偏好对齐(RLHF) 近期转向提升模型推理能力 形成大推理模型新范式 [2][3] - OpenAI o1和DeepSeek-R1成为重要里程碑:前者通过RL训练和推理时间扩展提升性能 后者采用基于规则的准确率奖励和编译器测试驱动奖励 [10] 基础组件 - 奖励设计包含可验证奖励(如数学答案正确率)、生成式奖励、密集奖励、无监督奖励和奖励塑形等多类方法 [14] - 策略优化涵盖策略梯度目标、基于评论家算法、无评论家算法、离策略优化和正则化目标等方向 [14] - 采样策略包括动态结构化采样和采样超参数优化 旨在提升训练效率 [14] 关键问题 - RL在大推理模型中的角色存在"能力锐化"与"能力发现"之争 需明确其核心作用 [14] - RL与监督微调(SFT)存在泛化与记忆的差异 需平衡两者关系 [14] - 奖励类型区分过程奖励与结果奖励 影响模型学习路径 [14] 训练资源 - 静态语料库、动态环境和训练基础设施构成三大资源类别 需进一步标准化发展 [14] - 现有资源虽可复用 但仍需完善以支撑大规模RL训练需求 [5] 应用场景 - 编程任务通过代码测试通过率作为奖励 提升模型代码生成能力 [14] - 智能体任务关注语言智能体与环境的长期交互演化 [7] - 多模态任务、多智能体系统、机器人任务和医学应用构成RL重要落地方向 [14][15] 未来方向 - 持续RL、基于记忆的RL和基于模型的RL被视为LLM强化学习重点发展领域 [15] - 潜在研究方向包括高效推理教学、潜在空间推理、预训练RL、扩散模型RL及科学发现应用等 [15]
万字长文!首篇智能体自进化综述:迈向超级人工智能之路
自动驾驶之心· 2025-09-11 23:33
自进化智能体综述核心观点 - 大语言模型本质上是静态的 无法在面对新任务 不断进化的知识领域或动态交互环境时调整其内部参数 这已成为开放交互式环境部署的关键瓶颈[2][3] - 自进化智能体代表人工智能领域的范式转变 从扩展静态模型转向开发能够从数据 交互和经验中持续学习与适应的系统 这是通往人工超级智能(ASI)的关键路径[3][4] - 综述首次系统性地围绕三个基础维度组织该领域:进化对象(what) 进化时机(when)和进化机制(how) 为理解与设计自进化智能体提供结构化框架[3][6] 进化对象(What to Evolve) - 智能体系统可分解为四个基本进化支柱:模型(推理和行为参数) 上下文(指令和长期记忆) 工具集(外部技能创建和管理) 以及架构(系统协作结构)[19] - 进化机制涵盖策略 经验 提示 记忆 工具创建与掌握 架构选择等多个维度 不同方法在各维度有不同侧重 例如Mem0在7个维度均有进化 MAS-Zero侧重模型和经验进化[20] 进化时机(When to Evolve) - 按时间阶段分为测试时内自进化(任务执行期间实时适应)和测试时外自进化(任务完成间利用积累经验提升未来表现)[22] - 测试时内进化具有在线性 学习数据动态产生且直接针对当前问题 测试时外进化具有回顾性 作用于历史数据旨在提高任务分布预期性能[23] - 进化依赖三种基本学习范式:上下文学习(ICL) 监督微调(SFT)和强化学习(RL) 在不同时间背景下数据可用性和学习目标存在差异[23] 进化机制(How to Evolve) - 主要方法家族包括基于奖励的进化(标量奖励 自然语言反馈 外部信号) 模仿与示范学习(高质量范例学习) 以及基于群体和进化的方法(选择 变异 交叉等机制)[27] - 不同方法在反馈类型 数据源 奖励粒度 样本效率 稳定性和可扩展性等方面存在显著差异 例如基于奖励的方法对奖励设计敏感 模仿学习受示范质量影响大 群体方法资源密集但可扩展性好[29] 应用场景(Where to Evolve) - 应用系统分为通用领域进化(数字领域各种任务能力扩展)和专用领域进化(特定领域专业知识深化) 前者侧重经验迁移 后者侧重领域深化[31] - 关键应用领域包括自主软件工程 个性化教育 医疗保健和智能虚拟助手等 持续适应和进化在这些领域至关重要[10][38] 评估体系(Evaluation) - 评估需超越传统静态系统 涵盖随时间推移的适应能力 知识积累与保留 长期泛化能力以及技能迁移 同时减轻灾难性遗忘[34] - 现有基准如ScienceAgentBench(102任务) SWE-bench(2,294任务) WebShop(12,087任务)等 在任务领域 核心指标和时空范围上各有侧重[36] - 个性化评估需开发更轻量级 适应性指标和动态基准 传统ROUGE和BLEU等指标无法充分捕捉动态进化特性[39] 技术挑战与研究方向 - 泛化能力面临专业化与广泛适应性矛盾 需可扩展架构设计 跨领域适应技术(测试时扩展 推理时适应)以及持续学习与灾难性遗忘解决方案[40][42] - 安全与可控性需应对用户相关风险和环境风险 通过智能体宪法 安全训练算法和隐私保护措施实现平衡部署[43][44] - 多智能体生态系统需平衡个体与集体推理 开发高效算法和自适应框架 并建立动态评估基准反映持续适应和演变交互[45]
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
36氪· 2025-09-10 09:53
针对这些难题,清华大学计算机科学与技术系知识工程研究室(KEG)团队提出了一种统一的 LLM 强化学习(RL)新范式——ReST-RL。该方法通过 将改进的 GRPO 算法与精心设计的由价值模型(VM)辅助的测试时解码方法相结合,在提升 LLM 推理能力的同时,也兼顾了效率、稳定性与可拓展 性。 论文链接:https://arxiv.org/abs/2508.19576 实验结果显示,在 APPS、BigCodeBench 和 HumanEval 等不同级别的知名编程基准上,ReST-RL 的性能优于其他强化训练基线(如原始 GRPO 和 ReST- DPO),以及解码和验证基线(如 PRM-BoN 和 ORM-MCTS)。 大语言模型(LLM)真的会推理吗?业内对此争论不休。 这是因为,当前的 LLM 在面对复杂代码、多步逻辑和抽象任务时依然经常"翻车",表现出逻辑跳跃、步骤混乱、答非所问等诸多问题。 靠人教?太慢。靠奖励?信号太弱。靠验证?数据太贵。如何兼顾推理能力、训练效率与通用性,已成为业内难题。 总体来看,现有方法难以在数据采集成本、泛化能力、强化效果与训练效率之间实现全面平衡。 ReST-RL:训 ...
字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告
搜狐财经· 2025-08-22 09:20
模型性能表现 - 在AIME 2024数学竞赛基准测试中获得86.7分,与OpenAI o3-mini-high持平,显著超越DeepSeek R1的79.8分 [1][5][47] - Codeforces编程测试中pass@8指标达55.0分,接近Gemini 2.5 Pro的56.3分,但落后于OpenAI o3-mini-high的67.5分 [1][5][47] - GPQA科学推理测试获得77.3分,接近o3-mini-high的79.7分 [1][5][47] - 在非推理任务的人类评估中,整体胜率较DeepSeek R1高出8.0% [1][5][51] 模型架构特性 - 采用混合专家模型(MoE)架构,激活参数200亿,总参数2000亿,属于相对紧凑的推理模型 [1][5] - 基于链式思维(CoT)数据进行监督微调,过多非CoT数据会降低模型探索能力 [1][10] - 强化学习训练数据包含STEM问题、代码任务、逻辑推理和非推理数据四类,其中数学数据展现强泛化能力 [1][10][15] 技术创新突破 - 开发VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决RL训练不稳定性问题 [1][11][38] - 设计Streaming Rollout System(SRS)缓解长响应生成滞后问题,结合混合精度调度和三层次并行架构提升训练效率 [2][42][43] - 推出Seed-Thinking-Verifier验证器,在人工标注测试集上准确率达99.3%,显著优于Seed-Verifier的82.7% [28][30][31] 基准测试体系 - 构建BeyondAIME高级数学基准,包含100道难度不低于AIME最高水平的原创题目,模型在该基准表现48.0%,落后于o3-mini-high的63.6% [11][25][47] - Codeforces评估采用最近12场竞赛题目,报告pass@1和pass@8指标,更贴合实际用户提交模式 [11][47] - 内部代码沙箱环境实现离线评估与官方平台判决结果强相关性 [20][21] 训练方法论 - 监督微调使用40万训练实例(30万可验证问题+10万非可验证问题),采用32,000令牌长度截断和余弦学习率衰减策略 [34][36] - 强化学习融合可验证数据(验证器评分)、通用数据(奖励模型评分)和混合数据三类来源,通过在线数据分布适配技术减少域间干扰 [37][39] - 采用动态采样、长度自适应GAE和Token级损失等技术创新保障训练稳定性 [40] 资源优化方案 - 混合分布式训练框架整合张量并行(TP)、专家并行(EP)和上下文并行(CP),结合FSDP实现内存优化 [43][46] - 通过层间重计算、激活卸载和优化器卸载技术支持更大微批次训练 [46] - 自动调优系统(AutoTuner)基于性能画像动态选择最优并行配置 [46]