三门理论(Three - Gate Theory)
搜索文档
这些大神在Meta的论文看一篇少一篇了
量子位· 2025-11-17 04:52
文章核心观点 - 研究揭示了大模型强化学习训练中参数更新稀疏性的内在机制,即模型条件优化偏差,而非表面上的稀疏现象[4][5] - 提出了三门理论,系统阐述了强化学习可验证奖励训练如何通过KL锚定、模型几何和精度过滤三个机制,将参数更新定位至特定区域[6][11] - 研究结果表明强化学习可验证奖励训练与监督微调在参数空间中的优化区域完全不同,这对参数高效微调方法的设计具有重要启示[18][25] 研究背景与现象观察 - 观察到推理模型通过大规模强化学习可验证奖励训练获得能力大幅提升,但参数更新却异常稀疏,形成高收益、低变化的悖论[8][9] - 具体数据显示监督微调的稀疏度仅为0.6%到18.8%,而强化学习的稀疏度高达36%到92%,相差一个数量级[9] - 分析涵盖多个开源模型,包括Qwen系列和DeepSeek-R1等,这些模型经过超过3000步的长时间强化学习训练[9] 三门理论机制分析 - **第一门KL锚定**:通过策略KL界限确保每次更新不会让模型输出风格大幅偏离,限制了参数的移动范围[12][13] - **第二门模型几何**:预训练模型具有高度结构化的几何特性,强化学习更新倾向于保持原始权重结构,偏向优化景观中的低曲率方向[14][15] - **第三门精度过滤**:bfloat16的有限精度隐藏了微小更新,只有持续更新路由到特定参数子集时,存储的值才会改变,表现为稀疏性[17] 实验验证与发现 - 通过奇异值分解分析发现强化学习更新与主成分权重的重叠度始终低于随机水平,强烈倾向避开这些权重[18] - 因果性验证实验显示,故意扰乱模型特定层的几何结构后,更新重叠度降至随机水平,证明预训练模型的几何结构是优化偏差来源[20] - 光谱分析表明强化学习可验证奖励检查点在顶部主成分内表现出明显稳定的谱,而监督微调引起了显著更大的旋转和漂移[23] 对参数高效微调方法的启示 - 许多监督微调时代的参数高效微调方法在强化学习可验证奖励训练中迁移效果很差[25] - 实验发现仅更新主成分权重会产生最差的优化轨迹,而更新非主成分、低幅度权重能够紧密跟踪密集强化学习可验证奖励轨迹[26][27] - 对于LoRA变体,主成分定向的PiSSA在较高学习率下经常变得不稳定并提前崩溃,因为强制沿主方向更新会触及强化学习可验证奖励倾向于避免的高曲率区域[28][29]