并行思维

搜索文档
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
机器之心· 2025-09-17 09:37
并行思维技术突破 - 腾讯AI Lab等机构首创Parallel-R1框架 通过强化学习实现大模型并行思维能力 解决监督微调方法的泛化难题[2][9] - 框架采用渐进式课程设计 从简单数学题(GSM8K)生成并行数据成功率83.7% 复杂难题(DAPO)成功率0.0%[10][12] - 交替式奖励策略平衡准确性与多样性 使并行思维使用率达63.0% 同时在AIME测试中取得最佳性能[13][14] 性能提升表现 - 在AIME25测试中实现42.9%性能飞跃 AIME24准确率提升至42.2% AMC23达91.5%[17][26] - 平均准确率提升8.4% MATH基准测试达84.5% 显著超越单一思维模型[2][17] - 两阶段训练策略使模型在减少并行格式依赖后 准确率仍持续攀升至25.6%[26][28] 技术实现机制 - 渐进式课程分两阶段:先通过SFT学习并行格式语法 再通过RL泛化到复杂任务[19] - 奖励系统设计:80%时间采用准确率奖励 20%时间采用分层奖励(并行正确+1.2分 非并行正确+1.0分)[19] - 模型思维策略动态演化:从早期探索阶段的多路径并行 转变为后期验证阶段的答案复核[18][20][22] 应用价值拓展 - 并行思维作为临时训练脚手架 可帮助模型探索更优能力区间 即使后续停止使用仍保持性能增益[24][26] - 框架突破人工合成数据依赖 避免复杂数据管道构建需求 提升方法可扩展性[7][10] - 技术适用于大模型、强化学习、AI系统架构等方向 具备规模化潜力与长期价值[39][47]