Workflow
突破单链思考上限,清华团队提出原生「并行思考」scale范式
机器之心·2025-09-17 00:07

大语言模型推理瓶颈与突破 - 当前大语言模型依赖深度思考策略,通过增加测试时计算量生成长思维链来提升复杂推理能力 [2] - 但该路径面临明显瓶颈:计算资源持续投入后性能提升微乎其微甚至停滞 [3] 隧道视野现象 - 性能瓶颈源于顺序推理策略的根本缺陷,即"隧道视野"现象:模型在生成思维链初期一旦出现瑕疵,就会被锁定在次优推理路径难以纠正 [6][12] - 实验证明错误前缀越长,模型拨乱反正得到正确答案的概率越低 [12] 并行思考新范式 - 清华大学AIR团队提出原生并行思考方案ParaThinker,通过训练模型在一次推理中同时生成和综合多个推理路径规避隧道视野问题 [4][6] - 与串行扩展计算深度相比,并行扩展计算宽度被证明是更有效高效的推理策略 [7] ParaThinker技术框架 - 引入专用可控Token(如)显式引导开启独立思考路径确保多样性 [19] - 设计思维特定位置嵌入(Thought Embedding)解决多路径位置信息混淆问题 [19] - 采用两阶段注意力掩码:并行阶段限制路径内部注意力,汇总阶段开放全局注意力 [19] - 关键工程优势:汇总阶段重用并行推理生成的KV缓存,延迟开销极低(8倍路径数增加仅导致约10%延迟增长) [17][24] 性能提升数据 - 1.5B参数模型使用8条并行路径在AIME/AMC/MATH-500等基准上平均准确率提升12.3%(从基准值提升至63.2%) [23][24] - 7B模型使用8条并行路径平均准确率提升7.5%(从基准值提升至77.0%) [23][24] - 在AIME 2024任务中,1.5B模型准确率从26.1%提升至48.1%(提升22个百分点),7B模型从51.9%提升至68.8%(提升16.9个百分点) [24] 与传统方法对比 - 传统多数投票方法依赖可量化验证的答案格式,对开放式生成式任务束手无策 [20] - ParaThinker能智能整合提炼不同推理过程信息,处理不可分解的复杂任务 [20][21] - 与多数投票结合可达到更高正确率:1.5B模型在P=8时maj@16达到60.0%准确率 [27][28] 行业意义 - 预示LLM规模化发展将从单纯"深度"扩展转向更有效的"广度"扩展 [29] - 为处理代码生成、数学证明、复杂智能体工作流等开放式任务提供新范式 [20]