GPPO算法

搜索文档
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
AI前线· 2025-08-22 06:07
核心观点 - 大语言模型在数学与代码推理能力上的竞争日趋激烈 数学与代码推理能力已成为大语言模型竞争中最硬核的"分水岭" [1] - 快手Klear语言大模型团队推出Klear-Reasoner模型 基于Qwen3-8B-Base打造 在多个权威基准测试中达到同规模模型的SOTA水平 [1] - 核心技术创新是GPPO算法 一种在保留训练稳定性的同时大幅提升探索能力的强化学习优化方法 [5] 技术突破 - GPPO算法通过stop gradient操作将clip操作与梯度反向传播解耦 让被截断的token依然参与反向传播 [8] - 解决传统clip机制的两个隐藏问题:高熵token被裁剪限制探索能力 负样本延迟收敛拖慢修正速度 [7][9] - 在数学和代码任务上表现出优势 继承PPO悲观更新策略 保持更清晰的优化信号和更稳定的训练 [10] 性能表现 - 在AIME2024上取得90.5%的成绩 AIME2025上取得83.2%的成绩 登顶8B模型榜首 [2] - 全面超越同规模开源模型包括DeepSeek蒸馏版DeepSeek-R1-0528-8B [2] - 在LiveCodeBench V5和V6等基准测试中表现优异 [2] 训练方法优化 - SFT阶段强调数据质量优先 高质量数据源比数量更重要 [12] - 数学数据Top1源取得AIME2024 40.83%和AIME2025 36.04%的最佳成绩 [14] - 代码数据Top2源取得LiveCodeBench V6 29.20%的最佳成绩 [15] 数据策略创新 - 高难度任务保留部分带瑕疵的推理路径反而能提升模型表现 [16] - 困难样本混合数据在AIME2024达到47.29% 优于纯正确数据的45.63% [17] - 简单任务错误样本会损害性能 困难任务错误样本具有价值 [16][17] 强化学习改进 - 代码任务使用软奖励(测试用例通过率)比硬奖励更有效 [19] - 软奖励缓解奖励稀疏问题 增加训练信号密度 降低梯度估计方差 [19] - 代码数据测试用例过滤 pass@16大于0.5的数据保留显著提升性能 [21][26] 开源贡献 - 完整公开训练细节与全流程pipeline [1] - 提供论文链接、Hugging Face地址和GitHub地址 [3] - 为社区贡献可复现、可推广的推理模型监督学习和强化学习路线 [24]