Workflow
可验证奖励强化学习(RLVR)
icon
搜索文档
这些大神在Meta的论文看一篇少一篇了
量子位· 2025-11-17 04:52
文章核心观点 - 研究揭示了大模型强化学习训练中参数更新稀疏性的内在机制,即模型条件优化偏差,而非表面上的稀疏现象[4][5] - 提出了三门理论,系统阐述了强化学习可验证奖励训练如何通过KL锚定、模型几何和精度过滤三个机制,将参数更新定位至特定区域[6][11] - 研究结果表明强化学习可验证奖励训练与监督微调在参数空间中的优化区域完全不同,这对参数高效微调方法的设计具有重要启示[18][25] 研究背景与现象观察 - 观察到推理模型通过大规模强化学习可验证奖励训练获得能力大幅提升,但参数更新却异常稀疏,形成高收益、低变化的悖论[8][9] - 具体数据显示监督微调的稀疏度仅为0.6%到18.8%,而强化学习的稀疏度高达36%到92%,相差一个数量级[9] - 分析涵盖多个开源模型,包括Qwen系列和DeepSeek-R1等,这些模型经过超过3000步的长时间强化学习训练[9] 三门理论机制分析 - **第一门KL锚定**:通过策略KL界限确保每次更新不会让模型输出风格大幅偏离,限制了参数的移动范围[12][13] - **第二门模型几何**:预训练模型具有高度结构化的几何特性,强化学习更新倾向于保持原始权重结构,偏向优化景观中的低曲率方向[14][15] - **第三门精度过滤**:bfloat16的有限精度隐藏了微小更新,只有持续更新路由到特定参数子集时,存储的值才会改变,表现为稀疏性[17] 实验验证与发现 - 通过奇异值分解分析发现强化学习更新与主成分权重的重叠度始终低于随机水平,强烈倾向避开这些权重[18] - 因果性验证实验显示,故意扰乱模型特定层的几何结构后,更新重叠度降至随机水平,证明预训练模型的几何结构是优化偏差来源[20] - 光谱分析表明强化学习可验证奖励检查点在顶部主成分内表现出明显稳定的谱,而监督微调引起了显著更大的旋转和漂移[23] 对参数高效微调方法的启示 - 许多监督微调时代的参数高效微调方法在强化学习可验证奖励训练中迁移效果很差[25] - 实验发现仅更新主成分权重会产生最差的优化轨迹,而更新非主成分、低幅度权重能够紧密跟踪密集强化学习可验证奖励轨迹[26][27] - 对于LoRA变体,主成分定向的PiSSA在较高学习率下经常变得不稳定并提前崩溃,因为强制沿主方向更新会触及强化学习可验证奖励倾向于避免的高曲率区域[28][29]
颠覆大模型后训练,陈丹琦团队提出「基于模型奖励思维的强化学习」RLMT
36氪· 2025-09-29 10:54
研究突破与核心观点 - 普林斯顿大学陈丹琦团队提出新型训练框架RLMT,将可验证领域的推理能力成功迁移至通用聊天场景,实现大语言模型在开放式任务上的突破 [2][3] - RLMT框架的核心创新在于融合了RLVR的显式推理引导和RLHF的人类偏好对齐,要求模型在生成最终响应前先生成详细推理轨迹,并通过基于偏好的奖励模型进行在线强化学习优化 [6][7] - 经RLMT训练的8B参数模型在聊天和创意写作方面超越GPT-4o,并与Claude-3.7-Sonnet (Thinking)相当,展现出以小博大的强大性能 [3][16] 技术框架与实现方法 - RLMT框架采用先生成推理轨迹再输出结果的模式,通过GRPO等在线强化学习算法,使用偏好奖励模型对整个"推理+响应"过程进行评分优化 [7][10] - 框架支持两种训练模式:基于Gemini 2.5 Flash或GPT-4.1-mini生成带推理轨迹数据进行监督微调的热启动模式,以及直接应用于基础模型的零训练模式 [11] - 研究团队在关键环节进行精心设计,包括选用GRPO算法、采用高性能奖励模型Skywork-v1-Llama-3.1-8B-v0.2,以及构建覆盖真实用户对话的7.5k提示库 [10] 性能表现与实验结果 - 实验覆盖Llama-3.1-8B和Qwen-2.5-7B两个模型家族,在7类基准测试中RLMT模型均大幅领先,聊天基准测试优势最为显著,平均分差达3-8分 [14] - Llama-3.1-8B-Instruct-RLMT在WildBench上获得50.4分,超越近10倍参数的Llama-3.1-70B-Instruct和Qwen2.5-72B-Instruct,甚至超过GPT-4o [16][17] - 零训练模式效果显著,Llama-3.1-8B-RLMT-Zero聊天平均分达15.6,比使用2500万+样本多阶段训练的Llama-3.1-8B-Instruct高5.5分 [18] 训练效率与行业影响 - RLMT仅使用7K个提示训练的Llama-3.1-8B基础模型即超越经过复杂多阶段流程、使用25M+示例训练的Llama-3.1-8B-Instruct,极大提升训练效率 [3][25] - 该研究打破了依赖"海量数据+多阶段微调"的传统后训练范式,证明通过激发模型"思考能力"可显著提升通用能力,无需大量数据堆积 [25] - 消融实验表明提示质量、奖励模型强度和推理过程三者缺一不可,使用真实对话提示训练的模型比简单提示或数学题提示高5-7分 [19][20] 推理行为与思维模式 - RLMT模型展现出接近人类的复杂推理模式,能够仔细枚举任务约束、将零散想法按主题分组并迭代优化细节,而非简单的线性分步规划 [23] - 训练过程中模型推理轨迹和响应长度持续增加,Llama-3.1-8B-RLMT-Zero推理token从不足200增长至600以上,表明模型学会用更长时间梳理思路 [24] - 特征分析显示RLMT模型在"权衡不同观点""将想法归类为主题"等特征上胜率远超SFT模型,推理方式从"机械分步"转向"灵活优化" [24]