Workflow
FR3E
icon
搜索文档
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
量子位· 2025-08-07 10:13
强化学习探索难题 - 传统RL框架下大语言模型存在探索与利用严重失衡问题,模型熵值迅速下降导致推理路径固化[1] - 过早收敛现象削弱了模型多样性生成能力并限制性能上限突破[2] FR3E框架设计原理 - 核心思想受OpenAI论文启发,采用"先返回,再探索"两阶段结构[2][4] - 通过识别高不确定性关键token作为锚点引导多样化展开,系统性重建探索机制[4] - 采用双难度混合数据策略:低难度数据稳定初期训练,高难度数据激发深层推理[23] 算法实现细节 第一阶段:First Return - 对每条prompt进行多次rollout收集轨迹及奖励信号,采用拒绝采样过滤全正确样本[12] - 构建基准路径并计算token生成熵,筛选top-n高熵token划分partial rollout[13] 第二阶段:Entropy-Eliciting Explore - 在GRPO++基础上引入动态优势调制机制,公式化定义优势调制因子αj[16][17] - 调控后的Advantage A'根据价值边际改善动态缩放学习信号[18] - 正向影响时降低advantage保留探索空间,负向影响时放大信号突破瓶颈[20][22] 实验结果验证 - 在GSM8K等7个数学推理基准测试中,FR3E平均表现较GRPO++提升1.8%-3.1%[25] - Qwen2.5-32B模型在AIME24基准取得6.1%显著提升[25] - 训练动态显示FR3E熵值衰减更慢,响应长度更长,突破微调模型僵化困境[26] - 全正确轨迹数量显著增加,全错误轨迹比例大幅降低[27] 方法论价值 - 结构化探索范式有效解决LLM强化学习中探索不足的核心瓶颈[28] - "结构化反馈+自适应调节"思想具备良好可扩展性,为未来训练提供新范式参考[29]