Workflow
Lite PPO算法
icon
搜索文档
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
机器之心· 2025-08-22 04:58
研究背景与目标 - 强化学习在大语言模型推理优化中存在技术多样性但缺乏统一标准的问题 [8][9][14] - 研究旨在系统评估主流RL技术组件的有效性并探索简化算法方案 [3][9][14] 实验设计 - 基于自研ROLL框架实现统一实验平台确保公平对比 [3][12][15] - 覆盖不同模型规模(4B/8B)、模型类型(Base/Instruct)及任务难度(Easy/Medium/Hard)[15][17] - 在六个数学推理数据集上进行多维度评估 [18] 优势归一化技术分析 - 组内归一化在稀疏/偏斜奖励分布下更稳定 [21][24][25] - 批次归一化对分布偏斜高度敏感易受极端样本影响 [20][24][25] - 混合归一化(组内均值+批次标准差)兼顾语义合理性与统计稳健性 [29][31] 裁剪机制研究 - Clip-Higher技术对已对齐Instruct模型有效但基础模型效果有限 [32][38] - 裁剪阈值需根据模型规模差异化设置(4B持续提升,8B存在拐点)[36][38][46] - 低裁剪阈值会抑制语篇连接词压缩推理路径 [39][41] 损失聚合方式 - 基础模型更适合token-level损失聚合 [44][47][49] - 对齐模型更适合sequence-level损失聚合 [44][47][49] 样本过滤策略 - 过滤超长样本在8k token限制下有效提升训练质量 [50][52][54] - 20k token限制下过滤收益减弱因无效样本占比降低 [52][54] - 过滤操作能增强模型终止建模能力降低重复生成比例 [55][57] Lite PPO创新方案 - 仅包含混合优势归一化和token-level损失聚合两项核心技术 [58][59][60] - 在多个数学推理任务上超越多技巧复杂方案 [59][60] - 具有训练稳定、超参敏感度低、工程简单的优势 [59][60] 研究价值与启示 - 建立首个RL4LLM关键技术系统性对比框架 [63] - 证明精简技术组合比复杂堆叠更具鲁棒性和实用性 [64][67] - 通过开源框架推动领域可复现性与标准化研究 [65][66]