Workflow
大模型Post - training范式
icon
搜索文档
大模型Post-training的范式已经发生改变......
自动驾驶之心· 2025-12-01 00:04
大模型后训练范式转变 - 行业认为大模型后训练范式可能已从SFT+RLHF两阶段转变为RL Scaling+RL Alignment两阶段[3][4] - 新范式中RL Scaling阶段专注于在数学、代码等可验证任务上提升模型自我反思和推理能力,无需考虑指令跟随和可读性[4] - RL Alignment阶段负责轻微调整模型,在最小化推理能力损失的基础上实现与人类对齐的目标,包括指令跟随和可读性[4] 新范式技术优势 - 新范式基于结果奖励在可验证任务上进行强化学习,较好解决了传统后训练中奖励上升但性能下降的奖励黑客问题[5] - 新范式下token搜索自由度更大,并能激发大模型的自我反思能力,从而获得超强推理能力[5] - 数学、代码任务上的性能表现能很好地泛化到其他各类任务,显示出强大的可迁移性[5] 新范式带来的机遇与挑战 - 新范式使得后训练阶段能通过增加算力来提升模型表现,而旧的SFT+RLHF范式主要依赖数据,堆算力效果有限[5] - 行业面临如何利用无明确答案数据做RL Scaling、RL Scaling数据难度选择、RL Alignment阶段能力与安全权衡等机遇[7] - 新范式引发对模型安全的担忧,RL Scaling获得的能力可能涌现有害且隐蔽的推理,而人类数据比重减少可能增加安全隐患[5][6] - 尽管推理能力增强,但模型在准确理解用户意图、指令跟随和可读性方面仍有不足,影响实际使用效率[7]