PromptCoT 2.0
搜索文档
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
量子位· 2025-10-01 03:03
核心观点 - 蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架,在大模型发展的下半场押注“任务合成”方向 [1][5] - 任务合成被视为与强化学习并列的基石技术,旨在解决现实世界长尾复杂问题导致的数据稀缺问题,并为大模型训练提供高质量合成数据 [6][9] - 实验表明,PromptCoT 2.0通过“强起点、强反馈”的自博弈训练,使30B-A3B模型在数学代码推理任务上达到新的SOTA结果,与DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro等模型表现相当 [2] 技术框架与原理 - PromptCoT 2.0是PromptCoT框架的全面升级,引入基于期望最大化(EM)的优化过程,用EM循环取代人工设计,迭代优化推理链以指导提示构造 [15][23] - 框架将问题合成拆解为概念抽取、逻辑生成及问题生成模型训练三个步骤,使生成的问题更难且更具多样性 [13][15] - 在后训练阶段,除了SFT,还采用强化学习方法,模型可从合成问题出发,通过自我探索推理路径进行学习,对奖励信号要求较低,兼容PPO、GRPO、DPO等多种方法 [25] 性能表现与数据优势 - 在不依赖人工问题的情况下,PromptCoT 2.0大幅提升了弱模型的数学与代码推理能力,其训练的模型在AIME 2024、AIME 2025、HMMT Feb 25等数据集上表现优于依赖人工问题构建的数据集(如OpenMathReasoning、OpenCodeReasoning) [17] - 开源的4.77M合成数据展现出“更难”和“更具差异化”的特征:在零微调评测下表现为更低的即刻正确率(18.5%)和更高的平均推理token消耗(37,373.3个),说明题目更能挖掘模型推理上限 [19][20] - 数据分布分析表明,PromptCoT 2.0的数据点与现有开源题集形成独立分簇,补充了“困难+新颖”区域,为模型训练提供了额外的分布层增益 [21][22] 行业趋势与未来方向 - 行业正从Reasoners向Agents急速推进,任务合成被视为提供燃料,与作为引擎的强化学习共同构成未来大模型后训练范式的判断 [6][10] - 未来发展方向包括Agentic环境合成(造环境让模型学会规划操作)、多模态任务合成(纳入图像视频等信息)、自奖励和对局式自进化(结合EM内循环与博弈式外循环) [27][28][29] - 合成数据具备更强的可扩展性,未来有望取代人工数据成为推动大模型推理能力提升的核心动力 [9][18]