强化学习与模仿学习融合

搜索文档
首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
机器之心· 2025-07-27 15:54
然而,目前以 Group Relative Policy Optimization (GRPO) 为代表的 RLVR 方法通常面临两个局限点:1. 训练数据难度与模型能力之间存在差距,导致 奖励稀疏从而阻碍了学习过程的稳定性。2. 单纯基于 On-policy 强化学习算法的样本效率低下,这对于端侧小模型而言尤为突出。 为此,华为香港研究所小艺团队、诺亚方舟实验室与香港城市大学合作推出了 GHPO 算法框架,实现了在线强化学习与模仿学习的融合,并且能够自适应 地进行切换。 GHPO 不仅能大幅提升端侧模型的样本利用效率,同时针对性缓解了目前 RLVR 方法中的奖励稀疏现象。通过难度感知与动态引导模块设计,GHPO 不仅 提升了模型训练过程中的稳定性,并且在 6 个不同的开源数学推理 Benchmark 上实现提升,尤其在 GPQA-Diamond 和 AMC23 上分别提升 9% 和 10%。该方法进一步被证明可以适用于不同难度分布的训练数据集与多个模型类别。 论文标题: GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Le ...