RPT(强化预训练)

搜索文档
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
量子位· 2025-06-11 08:07
核心观点 - 微软亚洲研究院联合清华大学和北京大学提出全新预训练范式RPT(强化预训练),将强化学习深度融入预训练阶段,颠覆传统LLM仅通过预测下一个token建立语言能力的机制,推动模型从学习表面token相关性转向理解深层含义[1][3][5] - RPT通过将预训练语料库重构为推理问题集,激励模型生成思维链推理序列后再预测下一个token,并根据前缀匹配奖励(正确预测奖励1,错误为0)更新模型,显著提升预测准确率和推理能力[5][9][12] - 实验表明RPT-14B在多种难度下均实现更高下一个token预测准确率(Easy:45.11 Medium:33.56 Hard:23.75),优于基准模型,并与更大模型R1-Distill-Qwen-32B性能相当,同时在SuperGPQA和MMLU-Pro基准测试零样本评估中表现卓越(SuperGPQA:39.0 MMLU-Pro:71.1)[13][19][20] 技术方法 - RPT采用同策略(on-policy)执行,生成多条包含中间推理步骤和最终预测的思维轨迹,通过前缀匹配奖励验证预测正确性,奖励信号用于鼓励生成准确延续上下文的轨迹[9] - 使用包含4428个竞赛数学问题及答案的OmniMATH数据集,通过计算下一token熵和设定阈值过滤数据,仅保留更难预测的token参与训练[11] - 采用Deepseek-R1-Distill-Qwen-14B作为基础模型,使用GRPO算法和8K训练长度,批大小为256个问题,每个问题采样8个响应[11] 性能表现 - RPT-14B在简单、中等和困难难度上下一个token预测准确率均超过基准模型(标准下一token预测基线R1-Distill-Qwen-14B Easy:41.60 Medium:29.46 Hard:20.43),最高提升幅度达Easy+3.51 Medium+4.10 Hard+3.32[13] - 在跨难度训练计算中表现出清晰幂律缩放(Power-law Scaling),预测准确性随计算增加持续提高且与理论曲线紧密拟合[16] - 在具有可验证答案问题(Skywork-OR1)上,RPT模型经RL微调后推理能力显著增强(RPT-14B Before RL:56.3 After RL:58.3),数据有限时可快速迁移强化推理模式至最终任务[18][19] 行业影响 - OpenAI科学家在GPT-4o中引入部分强化学习运算(o1阶段效果显著),并预计未来某一代模型将完全由RL计算主导,表明强化学习在LLM预训练过程中的应用趋势已获行业巨头认可[27][30] - RPT培养的推理习惯包含高级语义理解和低级文本特征(如假设生成、替代方案考虑及token级细节反思),为提升LLM语言建模能力和复杂推理信号捕捉提供新路径[20][21]