Workflow
DTS(Decoding Tree Sketching)
icon
搜索文档
无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
机器之心· 2025-11-21 02:04
文章核心观点 - 提出一种名为DTS(Decoding Tree Sketching)的新型即插即用模型推理框架,旨在解决大型推理模型存在的“越长越错”和“无尽重复”问题 [2] - 该方法通过高不确定度分支推理和最先完成路径早停两大策略,以近似找到最短且正确的推理路径,无需额外训练即可提升模型性能 [2][8] - 在AIME2024/2025基准测试中,DTS显著提升了模型准确率,同时降低了平均推理长度和无尽重复率 [4][9] 技术背景与问题 - 背景是推理大模型存在的“过度思考”问题:CoT/多步推理虽提升能力,但易导致推理链越长越偏离正确答案或陷入自我重复,正确率反而下降 [7][8] - 现有解决方案多依赖成本高昂的额外训练或激进的剪枝策略,落地成本高或稳定性不佳 [8] DTS方法原理 - 核心洞见基于实证:推理链长度与正确率呈显著负相关,多次解码中最短的推理链往往最正确 [9][11] - 将推理过程视为解码树,目标是在稀疏化的树上搜索从根节点到最浅层叶子节点的路径,避免指数级复杂度 [12][13] - 关键技术一:高熵处产生分支,仅在模型不确定时(下一个token分布的熵H(v) ≥ τ)取Top-K候选并行解码,确定时则单分支前进 [16][18] - 关键技术二:最先完成即早停,任何分支一旦生成终止符(<e>)立即返回,将“短即优”的统计规律写入停止准则 [17][18] 实验结果 - 在AIME2024/2025上,DTS使DeepSeek-R1-Distill-Qwen-7B/1.5B模型的准确率平均提升6%,平均推理长度下降约23%,无尽重复率平均减少10% [4] - 具体到AIME24,选择最短推理链的准确率达76.67%,而选择最长链的准确率仅为10.00%,总体平均准确率为51.03% [13] - 有效抑制模型“无尽复读”,将陷入循环的比例平均降低5%至20% [9][21] 核心贡献与影响 - 提出全新推理优化范式,将推理质量问题转化为解码搜索问题,无需训练,即插即用 [26][30] - 揭示了推理链长度与准确率的可量化统计规律,为未来推理模型优化指明方向 [27][30] - 展示了一种轻量化的推理优化路线,未来有望与多步推理、不确定性估计等方向结合,为高效可靠推理开辟新路径 [27]