Workflow
GDPO
icon
搜索文档
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
机器之心· 2026-01-11 04:00
文章核心观点 - 英伟达的研究团队提出了一种名为GDPO(组奖励解耦归一化策略优化)的新强化学习算法,旨在解决当前广泛采用的GRPO(组相对策略优化)算法在多奖励优化场景中的固有缺陷 [1][2] - 核心论点是,在多奖励优化中,GRPO会将不同奖励组合归一化为相同的优势值,从而削弱训练信号并可能导致训练不稳定,而GDPO通过对各个奖励信号分别进行归一化,保留了奖励间的相对差异,实现了更精确的优势估计和更稳定的训练 [2][9][11] 技术背景与问题 - GRPO及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法,是促使DeepSeek-R1成功的基础技术之一 [3] - 随着语言模型能力提升,行业趋势是同时优化多个奖励(如准确率、响应长度、格式质量),以更好地与人类偏好保持一致 [1][9] - GRPO在多奖励优化中的根本性局限在于其群组级奖励归一化会过度压缩丰富的奖励信号,导致信息损失 [9][10][11] - 例如,在一个简单的双奖励二值场景中,尽管存在六种不同的奖励组合,GRPO归一化后只产生两个唯一的优势组,使得(0,1)和(0,2)产生相同的优势值,而直觉上(0,2)应产生更强的学习信号 [10][11] - 这种局限性可能引入训练不稳定的风险,在数学推理任务中,使用GRPO训练时,正确率奖励分数在约400个训练步后开始下降,表明出现了部分训练坍塌 [11] GDPO解决方案 - GDPO的核心改进在于,与GRPO直接对聚合奖励和进行群组级归一化不同,它通过在聚合之前对每个奖励分别进行群组级归一化来解耦这一过程 [16] - 具体而言,GDPO为每个奖励单独计算归一化优势,然后将所有目标的归一化优势相加,最后对多奖励优势之和应用批次级优势归一化,以确保数值范围稳定 [16] - 这种方法避免了不同奖励被混合“抹平”,更真实地保留了它们的相对差异 [2][17] - 理论验证显示,在两个奖励、rollout数量变化的场景中,GDPO始终产生显著更多的不同优势组,且随着rollout数量增加,差距不断扩大 [17] - 当固定rollout数量为4并增加奖励数量时,GDPO也随着目标数量增长表现出逐步增大的优势粒度 [17] 实验结果:工具调用任务 - 在工具调用任务上,GDPO在所有运行中都能在格式奖励和正确率奖励上收敛到更高的值 [22] - 对于正确率奖励,GDPO在早期阶段表现出更快的改善,并在后期达到比GRPO基线更高的奖励分数 [22] - 在BFCL-v3评估中,对于Qwen2.5-Instruct-1.5B模型,GDPO在Live任务上整体准确率从GRPO的50.63%提升至55.36%,在Non-Live任务上从37.87%提升至40.58%,整体平均准确率从30.18%提升至32.81%,正确格式比例从76.33%提升至80.66% [24][25] - 对于Qwen2.5-Instruct-3B模型,GDPO在Live任务上整体准确率从GRPO的69.23%提升至71.22%,整体平均准确率从39.20%提升至40.87% [25] - 移除标准差归一化项的“无标准差GRPO”变体在格式奖励上完全失败,在BFCL-v3上的正确格式比例为0%,表明简单地增加优势多样性可能会给训练引入不稳定性 [25][26] 实验结果:数学推理任务 - 在数学推理任务中,GDPO比GRPO更有效地恢复了正确率奖励,并消除了GRPO在约400步后观察到的训练坍塌问题 [11][28] - 对于DeepSeek-R1-1.5B模型,GDPO在所有基准测试上都优于GRPO:在MATH准确率从83.6%提升至86.2%,在AIME准确率从23.1%提升至29.4%,在Olympiad准确率从44.3%提升至46.6% [29][33] - 同时,GDPO显著降低了响应超长比例:在AIME任务上,DeepSeek-R1-1.5B的超长比例从GRPO的10.8%降至6.5%;DeepSeek-R1-7B从2.1%降至0.2%;Qwen3-4B-Instruct从2.5%降至0.1% [29][33] - 对于DeepSeek-R1-7B模型,GDPO在更具挑战性的AIME基准测试上将准确率从50.2%提高了近3%至53.1% [29] 实验结果:代码推理任务 - 在代码推理任务的双奖励设置下,GDPO在所有任务上都提升了通过率,同时保持相似的超长比例 [34] - 例如,在Codecontests上,通过率从GRPO的63.2%提升至65.8%,超长比例仅从14.2%微增至14.3%;在Taco上,通过率从45.1%提升至48.4%,同时超长比例从11.8%降低至10.8% [34][35] - 在三奖励设置下,GDPO在所有目标上都实现了更有利的平衡,在保持与GRPO相似通过率的同时,显著降低了超长比例和bug比例 [35] - 例如,对于DeepSeek-R1-7B模型,在Codeforces任务的三奖励设置下,GDPO将超长比例从GRPO的16.9%降至13.6%,bug比例从2.5%降至1.8% [35] - 总体结果表明GDPO在奖励信号数量增加时仍然有效,在双奖励和三奖励配置中都始终比GRPO实现更优的跨目标权衡 [36] 行业影响与意义 - 该研究指出了当前主流强化学习算法GRPO在应对多目标对齐这一行业重要趋势时的局限性 [1][9] - GDPO的提出为训练更符合多样化人类偏好、在多场景下表现更稳定的大型语言模型提供了新的技术路径 [2][18] - 实验证明GDPO在工具调用、数学推理和代码推理等多类任务上,在正确性指标和约束条件遵守方面都稳定地优于GRPO,展示了其有效性和良好泛化能力 [6] - 该技术有望被行业采纳,用于提升下一代语言模型的综合性能与对齐能力 [3][18]