X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
机器之心·2025-10-22 08:46

文章核心观点 - 腾讯优图提出了一种名为Training-Free GRPO的新方法,将强化学习中的GRPO算法完整迁移到上下文学习空间,实现了无需更新模型参数的强化学习效果 [4][6][28] - 该方法在保留GRPO多路径探索、组内优势等核心优点的同时,显著降低了超大模型进行强化学习的成本和工程难度,使中小团队也能应用 [3][4][21][24] - 在数学推理和网页搜索等场景的实验中,该方法仅用100个训练样本和8-18美元成本,就在671B模型上实现了性能提升,并展现出更好的泛化能力 [13][14][17][25] 技术方法创新 - 核心创新在于不更新模型参数,而是将GRPO的“学习过程”搬进上下文空间,通过生成多条解答路径、比较组内优劣、根据优势信号更新文本型LoRA来实现学习 [4][10][11] - 方法完全对齐参数空间RL训练流程:多轮迭代学习、并行生成多条解答、提取文本型组内优势、优化文本型LoRA [10][20][26] - 与Self-Refine等就地改写方法不同,该方法在独立数据集上进行多轮迭代训练,对测试集的Out-of-Domain数据也有显著提升 [25] 实验效果与成本优势 - 在数学推理任务中,仅使用100个训练样本和约8-18美元成本,就在671B的DeepSeek-V3.1-Terminus模型上提升性能:AIME24指标从68.6提升至72.6,AIME25从52.9提升至54.0 [13][15] - 结合代码解释器时,AIME25指标从67.9提升至73.3,提升5.4个百分点;同时工具调用次数减少,表明模型学会了更高效使用工具 [14][15] - 在网页搜索场景中,Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [17][18] - 成本相比传统RL训练大幅降低,32B量级模型训练一次RL可能花费上万美元,而该方法仅需8-18美元 [4][24] 行业应用价值 - 该方法使超大模型的RL优化变得廉价、灵活、可持续,为中小团队和个人开发者提供了用得起的强化学习方案 [3][4][28] - 只需一个统一模型和API即可泛化到不同场景,避免了维护多个专用模型的系统复杂度和成本 [25] - 技术已开源并将集成到Youtu-Agent框架中,帮助开发者提升各种自定义场景的效果 [6][26]