强化学习
搜索文档
南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot
机器之心· 2025-12-10 08:13
来自南京大学 PRLab 的魏佳哲、李垦,在准聘助理教授司晨阳的指导下,提出专业级海报设计与编辑大模型 PosterCopilot 。本研究联合了 LibLib.ai 、 中国科学院自动化研究所等多家顶尖机构,共同完成了首个解耦布局推理与多轮可控编辑的图形设计框架研发。PosterCopilot 能够实现专业设计级的版式 生成、语义一致的多轮编辑,并具备高度可控的创作能力。 此外,受华为-南京大学鲲鹏昇腾科教创新孵化中心支持,该模型已完成对国产昇腾算力平台的适配与部署,进一步推动了国产 AI 设计技术的发展与落地。 行业痛点: 从生成式失控到多模态「盲推」 平面设计是视觉传达的基石,但要实现真正的自动化专业设计,目前仍面临巨大挑战。尽管以 Stable Diffusion 为代表的文生图(T2I)模型在图像合成上 表现强劲,但在实际的工业设计流中,它们因无法处理分层结构,往往导致用户素材失真且无法进行精细化控制。 论文标题: Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Des ...
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
机器之心· 2025-12-10 05:10
费森俞,上海创智学院 & 同济大学博士一年级学生,导师赵宪忠教授,研究方向为 VLA 强化学习后训 练。王思尹,上海创智学院 & 复旦大学博士二年级学生,导师邱锡鹏教授,研究方向为多模态具身智能。 为本文共同第一作者。 龚经经,上海创智学院全时导师。邱锡鹏,复旦大学教授,上海创智学院全时导师。为本文共同通讯作 者。 你是否想过,机器人也能像人一样, 从失败中学习,不断自我提升 ? 当前,视觉语言动作(VLA)模型在机器人操作任务中表现出色,但其性能严重依赖专家示范数据,不仅 成本高昂,还存在「示范偏差」,性能难以突破人类上限。而强化学习虽好,却常因「奖励稀疏」问题, 让机器人无法从失败中真正受益。 针对这一瓶颈,来自复旦大学、同济大学与上海创智学院的 OpenMoss 与 SiiRL 团队联合提出了 自参考策 略优化框架(SRPO) ,通过构建内生的自参照评估机制,实现了无需外部专家数据注入、免除任务特定奖 励工程的自适应策略优化。SRPO 在 LIBERO 榜单上以 99.2% 的成功率刷新 SOTA,在 LIBERO-Plus 的泛化 任务上性能暴涨 167%,并能大幅提升 等开源模型的真机表现。 动机与 ...
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-09 19:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]
端到端落地小班课:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-09 19:00
讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和CCF-B论文若干。现任国内TOP tier1算法专家,目前从事大模型、世界模型等前沿算法的预研和量产,所研发算法已成功 落地并量产,拥有丰富的端到端算法研发和实战经验。 课程大纲 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天和业内一位招聘朋友聊了聊,现在自驾的招聘需求在悄悄的发生一些变化。两年前热门的感知岗位进一步收缩, 目前需求较高的在端到端、VLA、世界模型 等方向上。 头部玩家已经验证了端到端这条路走的通,其他车企也开始铺 从模型优化、场景优化、数据优化,再到下游的规划兜底 人力和资源跟进。但候选人往 往只懂一部分,这些岗位其实涉及的技术栈很广。具体的量产经验如导航信息的引入、强化学习调优、轨迹的建模及优化都有很多门道,都是实际的落地痛点。 为 此我们花了三个月的时间设计了端到端量产进阶课程,从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实 ...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」
新浪财经· 2025-12-09 10:23
大会概况与核心理念 - 极客公园创新大会2026于12月6日-7日在北京798艺术区举办 大会主题为“进程由我 On The Loop” 强调在AI时代人的判断和行动的稀缺性 着眼于如何主动选择未来[2] - 大会已连续举办16年 见证了大量全球及中国顶尖创新者的亮相 现已成为由内容社区与早期投资构成的创业者生态平台 其目标是激发创新中的“变量” 推动“非共识”成为新“共识”[2] - 大会汇聚四十余位全球创新者 通过主舞台演讲、4场“小场深谈”及“AI产品快闪”等形式探讨技术趋势与产品创新 并现场发布“2025年度极客最爱好物”、“InnoForce 50”年度榜单[3] AI技术发展趋势与前沿观点 - AI被视为人类能力的放大器 能帮助创作者抵达未曾去过的地方并创作未曾想象过的东西 成熟团队正以“二次创业”姿态投身AI浪潮[5] - 物理AI是重要发展方向 AI将从数字空间向物理世界延伸 未来语言模型将与直接从物理世界感知、规划、推理的模型以及执行运动控制的模型相结合[6] - 机器人领域尚未达到“GPT时刻” 仍处于“技术路径选择阶段” 未来发展周期较长 有观点认为以视频模型为骨干的world model路线在解决跨实体问题上难度可能更低[15] - 在AI手机领域 GUI Agent被视为长尾场景的兜底技术手段 公司更倾向于通过Agent to Agent实现生态互联[15] AI在各行业的产品化应用与探索 - 在影像创作领域 公司70%以上的营收来自自主开创的细分品类 其核心价值观是开辟新市场、解决未攻克难题、创造独有新价值 而非击败竞争对手[8] - 在人机关系领域 未来目标是打造具备情感能力的机器人 使其成为传递温暖的“爱的使者” 实现从智能工具到情感共生的跨越[10] - 在医疗健康领域 AI医生蓝图旨在实现对用户的全程健康陪伴 实时监测身体状况、习惯及治疗数据 海量健康数据将推动临床医学形成全新发展范式[13] - 在播客领域 公司秉持善意与中性的采访原则 目标是在半年到一年内成为中国各行业精英人士面向公众表达时的首选[11] 细分领域深度讨论与产品展示 - 大会设置4场“小场深谈” 聚焦个体、关系、硬件与空间四大维度 深度探讨AI时代的个体进化、人机关系新形态、具身智能落地及AI硬件机遇与挑战[17][19][21] - “AI产品快闪”环节展示了多款近期发布或重大更新的创新产品 涵盖笔记工具、AI营销Agent、AI相机、AI模特拍摄、智能健康项链、AI专家团队及个人办公助手等领域[25]
AI需要能自我改进!AI圈越来越多人认为“当前AI训练方法无法突破”
华尔街见闻· 2025-12-09 01:49
来自OpenAI、谷歌等公司的小部分但日益增长的AI开发者群体认为,当前的技术路径无法实现生物 学、医学等领域的重大突破,也难以避免简单错误。这一观点正在引发行业对数十亿美元投资方向的质 疑。 据The Information周二报道,上周在圣地亚哥举行的神经信息处理系统大会(NeurIPS)上,众多研究 人员讨论了这一话题。他们认为,开发者必须创造出能在部署后持续获取新能力的AI,这种"持续学 习"能力类似人类的学习方式,但目前尚未在AI领域实现。 然而,技术局限已拖慢企业客户对AI代理等新产品的采购。模型在简单问题上持续犯错,AI代理在缺 乏AI提供商大量工作确保其正确运行的情况下往往表现不佳。 这些质疑声与部分AI领袖的乐观预测形成对比。Anthropic首席执行官Dario Amodei上周表示,扩展现有 训练技术就能实现通用人工智能(AGI),OpenAI首席执行官Sam Altman则认为两年多后AI将能自我 改进。但如果质疑者是对的,这可能令OpenAI和Anthropic明年在强化学习等技术上投入的数十亿美元 面临风险。 尽管存在技术局限,当前AI在写作、设计、购物和数据分析等任务上的表现仍推 ...
达晨、华控领投,极佳视界A2轮再融2亿,押注“世界模型+行动模型”原生架构
钛媒体APP· 2025-12-08 07:17
公司融资与团队背景 - 具身智能公司极佳视界在3个月内连续完成Pre-A、Pre-A+、A1及A2四轮融资,累计融资额达5亿元,其中A2轮融资2亿元 [2] - 本轮融资由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投,老股东合鼎共资本超额追加投资 [2] - 公司创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士背景,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人兼算法副总裁,并曾在三星中国研究院、微软亚洲研究院等顶尖科研机构工作 [2] - 创始人团队在过去十年深度参与并推动了物理AI从技术萌芽到产业落地的关键演进,带领团队在FRVT、COCO、VOT等全球最具影响力的视觉AI竞赛中多次斩获冠军,并实现多项技术的大规模产业化应用 [2] 核心技术优势与历史成就 - 在自动驾驶领域,公司团队提出的BEVDet系列方法已成为全球最具影响力的BEV感知范式之一,长期稳居nuScenes榜单首位,并已实现规模化量产 [3] - 团队主导了地平线AIDI平台(业内最大规模的数据闭环系统)以及百度Apollo仿真框架的研发与商业化落地,奠定了其在智能系统工程化方面的领先优势 [3] 行业趋势与公司战略判断 - 行业正加速向通用行动模型(如VLA与世界行动模型)演进,数据来源日益依赖真机实采与高保真世界模型合成,学习范式逐步统一为“模仿学习 + 强化学习 + 世界模型”的融合架构 [3] - 公司判断物理AI正迈入决定性突破的关键窗口期,未来2至3年将是物理AGI从实验室走向规模化落地的分水岭 [3] - 随着世界模型与行动模型的持续跃迁,属于物理世界的“ChatGPT时刻”正在加速到来 [3] - 公司面向具身智能新时代,率先提出“世界模型 + 行动模型 + 强化学习”的原生AGI范式,强调以世界模型为核心驱动力,贯通数据生成、模型训练与决策执行全链路 [3] 核心产品发布:模型与机器人平台 - 公司已正式发布两大物理AGI核心模型:原生行动模型GigaBrain-0与原生世界模型GigaWorld-0,并同步推出高自由度具身智能机器人平台Maker H01,共同构建端到端的具身智能系统 [4] - GigaBrain-0是一款基于视觉-语言-动作(VLA)架构的端到端决策控制模型,可融合图像、深度、文本及本体状态等多模态输入,输出结构化的任务规划与运动指令 [5] - GigaBrain-0重点强化了3D空间感知与结构化推理能力,以提升在复杂环境中的导航精度与长序列任务执行能力,具备更强的泛化性能 [5] - GigaWorld-0是公司自研的高质量世界模型,依托“GigaWorld”平台,通过几何一致、物理准确的建模机制生成高保真、可控且多样化的具身交互数据,实现高效“数据放大” [6] - GigaWorld-0构建了目前最完整的具身训练数据体系,在三大关键泛化维度(新纹理、新视角、新物体位置)上实现近300%的性能提升 [6] - 在PBench(Robot Set)基准测试中,GigaWorld-0以最小参数量实现最高整体性能,成为当前最具性价比的世界模型方案 [6] - Maker H01是专为家庭、商业服务与轻工业等开放场景设计的高自由度具身机器人,采用双臂 + 全向全驱移动底盘架构,全身拥有20+自由度,单臂支持公斤级负载,配备多指灵巧手爪 [6] - Maker H01标准版高度约1.6米,适配多种空间环境,适用于物品取放、巡检、接待、实验协助、仓储搬运等真实业务场景 [6] 产品性能与应用场景 - GigaBrain-0已成功应用于一系列高难度、长程的具身任务,在真实场景中展现出卓越的综合能力,能稳定高效地完成制作咖啡、叠衣服、整理卷纸、桌面清理、倒饮料、搬运箱子、拾取衣物等复杂任务 [5] - 在多项权威基准测试中,GigaBrain-0的任务成功率显著超越当前最先进的方法(SOTA) [5] - Maker H01不仅是可靠的作业平台,也是高效的算法验证载体,支持多种遥操作方案,并与自研“具身大脑”GigaBrain深度集成,实现抓取、搬运、协作等复杂动作的全身协同控制 [7] - 通过GigaBrain-0、GigaWorld-0与Maker H01的三位一体架构,公司正加速推动具身智能从实验室走向规模化落地,迈向真正“可用、可靠、可泛化”的物理AGI时代 [7]
端到端岗位求职:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-08 00:02
行业招聘与技能需求变化 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩 [2] - 当前行业需求较高的方向集中在端到端、VLA(视觉语言动作模型)、世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入模型、场景、数据优化及规划兜底等方面的人力和资源 [2] - 市场面临人才技能与岗位需求不匹配的挑战,相关岗位技术栈广泛,但候选人往往只精通部分领域 [2] - 具体的量产经验,如导航信息引入、强化学习调优、轨迹建模与优化等,是实际落地中的关键痛点 [2] 课程核心内容与结构 - 课程名称为《面向量产的端到端实战小班课》,核心重点是聚焦量产应用 [2] - 课程设计历时三个月,内容从实战到落地层层展开 [2] - 课程涵盖核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终会分享实际的量产经验 [2] - 课程采用小班教学模式,仅剩20个招生名额 [2][4] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论基础,以及Python、PyTorch、mmdet3d框架等技能基础 [16] - 课程为离线视频教学,辅以VIP群答疑和三次线上答疑,开课时间为11月30日,预计三个月结课 [15][17] 技术发展趋势与课程章节详解 - **端到端任务概述**:在端到端时代,感知任务合并与规控算法学习化已成为绝对主流,如何高效合并感知任务及设计学习化规控模块是行业核心技能 [7] - **两段式端到端算法**:章节介绍两段式框架的建模方式、感知与规划控制的信息传递,分析其优缺点,并通过PLUTO算法进行实战讲解 [8] - **一段式端到端算法**:一段式框架可实现信息无损传递,性能上优于两段式方案,章节将学习基于VLA、扩散模型等多种方案,并以VAD系列进行深入教学 [9] - **导航信息的量产应用**:导航信息在自动驾驶中起引导、选路、选道作用,章节介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式 [10] - **自动驾驶中的强化学习算法**:纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,章节重点介绍强化学习算法及其训练策略 [11] - **端到端轨迹输出优化**:章节进行NN Planner项目实战,涵盖基于模仿学习的扩散模型与自回归算法,以及在监督微调后结合强化学习的实战 [12] - **兜底方案-时空联合规划**:为应对模型输出非100%准确,量产需轨迹平滑优化等后处理兜底逻辑,章节介绍多模态轨迹打分搜索及轨迹平滑算法 [13] - **端到端量产经验分享**:最终章节从数据、模型、场景、规则等多视角分享量产经验,剖析如何选用合适工具与策略以提升系统能力边界 [14] 讲师背景 - 讲师王路拥有C9本科和QS50高校博士学位,已发表若干CCF-A和CCF-B论文 [4] - 现任国内顶级Tier1供应商算法专家,从事大模型、世界模型等前沿算法的预研与量产工作 [4] - 所研发算法已成功落地并量产,拥有丰富的端到端算法研发和实战经验 [4]
Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来
量子位· 2025-12-07 04:35
核心观点 - 提出一种新的AI任务解决范式:使用一个经过强化学习微调的8B参数小模型作为“指挥家”,智能编排和调用包括代码解释器、网络搜索、数学模型及更强的大模型在内的多种工具,在保证任务正确性的同时,显著优化成本和效率,并能够对齐用户偏好 [1][13] - 在多项基准测试中,该Orchestrator-8B模型在性能上超越了GPT-5等顶级大模型,同时计算成本大幅降低,展示了“小模型指挥大工具/模型”系统的优越性 [1][9] 技术架构与训练方法 - 系统核心名为ToolOrchestra,其将各类工具(网页/本地检索、代码执行、数学与通用LLM等)统一封装为JSON接口,使指挥家模型能够在多轮交互中执行“思考-调用-反馈”的循环直至问题解决 [4] - 采用GRPO强化学习方法进行训练,通过最大化三重奖励来优化指挥家:1) 任务解决的正确性;2) 效率(货币/时延惩罚);3) 用户偏好(如更爱本地检索还是云搜索,更看重速度还是成本) [4][5] - 为支持强化学习训练,研究团队构建了一个名为ToolScale的合成数据集,该数据集覆盖金融、医疗、出行、教育等10个领域,通过LLM生成领域数据库、API及“任务-黄金动作序列”,并经过可验证标准筛选,为训练提供了真实丰富的环境 [7] 性能与成本优势 - 在Humanity's Last Exam (HLE)基准测试中,Orchestrator-8B取得了37.1%的成绩,超过GPT-5的35.1% [1][9] - 在FRAMES(事实推理)基准上,Orchestrator-8B得分为76.3,高于GPT-5的74.0 [9] - 在τ²-Bench(复杂工具调用)基准上,Orchestrator-8B得分为80.2,高于GPT-5的77.7 [9] - 在取得上述性能领先的同时,Orchestrator-8B平均成本仅为9.2美分,时延8.2分钟,显著低于GPT-5的30.2美分成本和19.8分钟时延,计算成本约为对手的三成 [9][10] - 成本-效果曲线显示,在同等预算下,Orchestrator-8B的准确率曲线始终在GPT-5、Claude等之上;在达到相当准确率时花费更少 [11] 解决的问题与系统特性 - 解决了仅靠提示词构建多智能体系统时存在的两大偏见:1) 自增强偏见,即模型倾向于调用同家族模型(如GPT-5调用GPT-5-mini)导致性能下降;2) 他增强偏见,即无脑调用最强模型导致成本爆表(如Qwen3-8B大量调用GPT-5) [3][4] - 系统具备良好的泛化能力,即使面对训练时未见过的新工具或模型组合,指挥家也能从模型描述中推断其能力与擅长领域,维持最优性价比 [15] - 系统能够有效对齐用户偏好,对于“更私密的本地检索”、“更快速度”或“更低成本”等要求,指挥家比强大的基座模型更能遵从指令执行 [15] 应用场景与行业意义 - 为企业客户提供了稳定、可控、可落地的解决方案,将昂贵的大模型资源仅用于真正的难点,其余工作交由便宜高效的工具链完成 [13] - 具体应用场景包括:1) 企业内部问答/报表分析,默认用本地索引和代码沙盒完成80%工作,仅在遇到歧义或复杂推理时短暂调用强模型;2) 研发检索/调研,可设定时间/成本上限及来源偏好,由指挥家动态权衡;3) Agent工作流,将各种函数/工具纳入统一接口,由指挥家进行端到端智能编排,替代写死的if-else逻辑 [16] - 该范式标志着从依赖“单一强大模型”到构建“小模型+工具+专家模型的复合系统”的转变,在智能体从单体走向复合系统的趋势下,此类“协调者”角色至关重要 [13] 资源开放情况 - 论文、全部代码、模型与数据均已公开,方便学术界与产业界跟进研究与应用 [14][17]
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心· 2025-12-07 04:33
强化学习在大语言模型中的新公式化方法与稳定训练实践 - 阿里千问团队提出了一种针对大语言模型(LLM)的全新强化学习(RL)公式化方法,核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token级目标作为其一阶近似 [2] - 该方法从原理上解释了多种RL稳定训练技巧的有效性,包括重要性采样权重、剪切(Clipping)机制以及针对混合专家(MoE)模型的路由重放(Routing Replay)方法 [2] - 团队使用一个30B参数的MoE模型进行大量实验,总计耗费数十万GPU小时以验证理论并探索稳定训练实践 [4] 研究背景与核心问题 - 强化学习已成为提升大语言模型复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展RL至关重要 [2] - 主流RL算法普遍存在“奖励在序列级、优化在token级”的不匹配问题,引发了对其理论健全性与训练稳定性的担忧 [2] - 在MoE模型的RL训练中,动态专家路由机制可能破坏token级重要性采样比的有效性,带来了新的挑战 [2] 核心理论框架 - 团队专注于序列级优化,即对整个模型生成的响应赋予一个标量奖励,而不采用基于价值函数的方法,因为构建通用、可扩展且可靠的价值模型极为困难 [6][7] - 直接优化期望序列级奖励非常困难,主要挑战在于训练与推理之间的数值差异,以及用于采样响应的rollout策略与需要优化的目标策略之间的偏差 [8][9] - 团队从序列级奖励期望出发,通过重要性采样进行等价变换,并引入一个替代的token级优化目标,其梯度形式即为带token级重要性采样权重的基本策略梯度算法(REINFORCE) [11][12] - 该token级目标被视为序列级目标的一阶近似,其成立的关键条件是目标策略与rollout策略必须足够接近 [13] 针对MoE模型的挑战与解决方案 - 对于MoE模型,专家路由与训练-推理差异、策略陈旧的紧密耦合,更容易导致基于一阶近似的token级替代优化目标失效 [15][16] - 团队提出Routing Replay方法以稳定MoE模型的RL训练,核心思想是在策略优化过程中固定路由到的专家,使其在优化行为上更接近稠密模型 [17] - Routing Replay有两种具体实现方式:Vanilla Routing Replay(R2)旨在减轻专家路由对策略陈旧的影响;Rollout Routing Replay(R3)旨在减轻专家路由对训练-推理差异的影响 [18][19] 实验结果与主要结论 - 团队在数学推理任务上进行了实验,构建了包含4096道题目的RL训练提示集,并在HMMT25、AIME25和AIME24基准上评测 [21] - 在on-policy训练中,带重要性采样校正的基本策略梯度算法(MiniRL)取得了最佳性能和最高训练稳定性 [10][22] - 在on-policy训练中,引入长度归一化会导致性能下降,因为其破坏了对真实序列级奖励的一阶近似;移除重要性采样校正则会导致训练迅速崩溃 [22] - 在引入off-policy更新以加速收敛时,必须同时使用Routing Replay与Clipping才能实现稳定训练,缺失任一项都会导致训练提前崩溃和峰值性能下降 [10][23] - 不同冷启动初始化方式的模型最终性能趋于一致,表明研究重点应更多放在RL方法本身,而非冷启动细节 [10][27] - 无论是on-policy还是off-policy,只要训练过程稳定,其峰值性能都高度一致,说明稳定的训练过程在成功扩展RL中起决定性作用 [27]