白盒化强化学习

搜索文档
大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销
量子位· 2025-08-13 04:17
文章核心观点 - 字节团队提出Post-Completion Learning (PCL)训练方法 首次实现语言模型"训练-推理不对称"范式 通过训练时增加自我反思和评估环节提升模型能力 推理时零额外开销 [1][2][3][4] 突破性不对称训练范式 - 传统语言模型训练存在对称性约束 训练和推理必须完全对称 模型仅学习预测到结束符(EOS)为止的内容 [6] - PCL方法打破对称性约束 训练时将原始EOS替换为临时结束符 使模型继续输出自我评估和质量预测内容 [7][9] - 推理时模型在临时结束符处直接停止 不输出评估部分 实现零额外计算开销 [3][5][7] 白盒化强化学习设计 - PCL实现强化学习过程白盒化 直接教会模型计算奖励 让模型主动进行自我评估 训练过程完全透明可解释 [10] - 利用模型输出评估结果与外部奖励函数对齐 监督模型评估能力 从"老师打分"变为"学生自己会打分" [10] 统一混合训练框架 - PCL实现统一监督微调(SFT)和强化学习(GRPO)训练框架 进行多目标联合优化 [12][14] - 训练包含四个目标:推理能力SFT(使用推理数据集训练think+answer部分) 评估能力SFT(使用教师输出蒸馏训练evaluation+reward部分) 推理能力GRPO(使用accuracy+format奖励函数) 评估能力GRPO(使用一致性奖励函数指导预测奖励得分) [16] 实验结果验证 - 在数学推理和逻辑推理数据集上 Qwen-2.5 7B模型PCL方法达到78.02分 较SFT基础版72.73分提升5.29分 较SFT+RL方法74.81分提升3.21分 [18] - Qwen-2.5 1.5B模型PCL达到60.40分 较SFT基础版54.71分提升5.69分 [18] - Llama-3.1 8B模型PCL达到62.45分 较SFT基础版54.64分提升7.81分 [18] - 平均提升幅度达6.27分 消融实验验证方法有效性 [15][18] 方法论价值 - 发掘EOS后空间训练价值 自我评估能提升推理能力 [19] - 证明强化学习可白盒化 提升可解释性可优化学习效果 [19] - 实现复杂训练与简洁推理平衡 不对称范式有望成为大模型训练标准做法 [20]