Workflow
SFT与RL的结合
icon
搜索文档
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
机器之心· 2025-09-22 02:05
文章核心观点 - vivo AI Lab提出新的大模型后训练框架GTA 通过结合监督微调SFT和强化学习RL的优势 解决文本分类场景中RL收敛速度慢的问题 在多个数据集上取得优于SFT和GRPO的性能表现[2][3][4] 方法框架 - GTA框架将输出分为Guess-Think-Answer三阶段:Guess阶段用交叉熵损失计算初始猜测与标签的监督损失 Think阶段让模型分析输入与猜测的关联 Answer阶段结合前两阶段信息生成最终答案并由RL奖励优化[4][6][7][8] - 总损失函数为监督损失与RL损失的加权组合:$\mathcal{L}$Total = $\lambda_{1}\mathcal{L}$sqrt + $\lambda_{2}\mathcal{L}$RL[8] - 使用特定位置loss mask防止梯度冲突:计算Guess损失时屏蔽其他内容 计算RL损失时屏蔽Guess内容[10][11] - 通过梯度余弦相似度检测监督信号与RL信号的冲突[11] 实验结果 - 在Qwen2.5-3B模型上 GTA在SST-5数据集准确率达61.58% F1值61.52% 高于SFT的60.72%和GRPO的58.60%[13] - 在Amazon数据集上 GTA准确率达92.47% F1值92.46% 高于SFT的91.96%和GRPO的90.82%[13] - 在Emotion数据集上 GTA准确率达92.45% F1值92.47% 显著高于GRPO的82.50%和81.54%[13] - 训练500-1000步即超过GRPO 且延长训练至10000步后GRPO仍未追上GTA[14] - 带思考过程的推理比不带思考过程获得更高准确率 且无需额外人工标注推理过程[15] 案例分析与未来方向 - 模型不会盲目选择猜测答案 能在思考阶段纠正错误猜测并输出正确答案[18] - 方法原理适用于更多NLP场景 未来将探索更大模型和更多应用领域[20] - SFT与RL结合正成为后训练新范式 与通义CHORD和上海人工智能实验室LUFFY等研究方向一致[22]