Workflow
ExGRPO框架
icon
搜索文档
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
量子位· 2025-10-23 05:18
核心观点 - 研究团队提出名为ExGRPO的经验管理和学习框架,旨在通过科学识别、存储、筛选和学习有价值的经验,以更稳定、快速、高效的方式优化大模型的推理能力[1] - 与传统的在线策略RLVR方法相比,ExGRPO在不同基准测试上均带来性能提升,尤其在AIME数学竞赛题等复杂任务上效果更为明显[3][4] - 该框架解决了传统强化学习中的“经验浪费”问题,通过让模型“温故而知新”,将成功经验内化为自身能力,从而提升训练效率和稳定性[7][9][37] 经验驱动训练方法的必要性 - 传统基于可验证奖励的强化学习方法存在“经验浪费”的天然缺陷,模型生成的推理轨迹仅被使用一次后即被丢弃,导致计算资源浪费和训练过程不稳定[7][8] - 学会“温故而知新”,让模型根据“错题本”内化宝贵成功经验,对训练效率和能力提升至关重要[9] - 强化学习学者指出,人类数据正在用尽,经验将是下一个能为AI带来能力提升的超级数据源和突破口[10] 高质量经验的定义与筛选 - 高质量经验的价值体现在两个关键维度:问题难度和解题路径质量[14] - 实验发现,只刷“中等难度”问题的模型最终性能提升最大,此类问题处于模型的“最近发展区”,是学习效率最高的“甜蜜点”[15][16][17][18][19] - 解题路径的质量可通过推理轨迹的Token平均熵来量化,逻辑正确的解法其熵值显著更低,低熵轨迹代表更清晰、确定的解题思路[21][22][23] - 高熵轨迹往往是幸运的猜测,反复学习可能污染模型的逻辑能力,因此筛选低熵轨迹至关重要[24] ExGRPO框架的构成与机制 - 框架包含两个核心部件:经验管理和混合经验优化[27] - 经验管理分为三步:经验收集(建立经验回放池)、经验划分与存储(按难度动态分类并设置退休机制)、经验筛选(优先选择中等难度问题和低熵轨迹)[30][31][32][33][40] - 混合策略优化目标平衡了探索新知和复习旧识,在每次训练迭代中,部分资源用于探索新问题,部分用于学习筛选出的高价值经验[34][35][36] - 该框架还引入了策略塑形机制,防止模型在复习时变得僵化,丧失创新能力[38] 实验结果与性能表现 - 在6个不同规模和架构的模型上测试,ExGRPO相对于纯在线策略方法,带来了分布内性能提升3.5个百分点和分布外性能提升7.6个百分点[39] - 对于已很强的模型,ExGRPO能带来稳定的性能增益,而标准在线方法可能导致性能下降[43] - 对于初始能力较弱的模型,ExGRPO能捕捉早期偶然的成功信号并反复利用,成功“救活”模型并稳定提升其性能,避免训练崩溃[44][51] - 框架能有效切断错误学习的路径,防止高熵经验中的逻辑瑕疵通过“滚雪球效应”根深蒂固[45][46] 行业意义与未来展望 - 有原则的经验管理将成为未来构建更强大、高效AI模型训练生态中的关键一环[48] - 该研究为模型推理能力提升提供了一套系统性的、基于经验的学习框架,标志着“经验即媒介”的AI新时代的来临[47][48] - 通过智能识别、管理和重放高价值经验,该框架显著提升了训练的效率和稳定性,为通往更强大、通用的人工智能打开了新窗口[49][50]