测试时间扩展 (test-time scaling)
搜索文档
推理时扰动高熵词,增强LLM性能
机器之心· 2025-10-29 01:07
核心观点 - 研究发现大型语言模型在推理时的不确定性高度局部化,仅由一小部分高熵词显著影响输出的正确性 [2] - 研究团队提出了一种名为Minimal Test-Time Intervention的无需训练、即插即用的方法,通过在推理阶段对高熵词进行微干预来提升模型性能 [3][20] - 该方法结合了选择性CFG干预和轻量级负向提示引导两种技术,在维持高效率的同时显著提升模型在多项任务上的表现 [3][12][20] 技术方法:选择性CFG干预 - 该方法旨在减弱高熵词的不确定性,通过在多步推理中识别并干预导致错误放大的高熵词来稳定推理过程 [7][8] - 研究发现错误回答的熵更高,主要由回答中的高熵词导致,因此在高熵词上使用Classifier-free Guidance以降低不确定性 [8] 技术方法:轻量级负向提示引导 - 该方法通过复用条件分支的KV缓存并附加短指令来节省显存分配,同时维护更优的无条件空间 [9][10] - 与传统CFG需要分配新KV缓存不同,该方法将无条件分支视为负向提示通道,重用了条件分支的KV缓存 [10] - 注入的短语非常灵活,研究发现"OUTPUT ERROR"已能产生优良效果 [10] 实验结果 - 在通用任务、代码任务、数学与科学任务上的测试显示,MTI方法能稳定带来性能提升 [12] - 在Qwen3-14B-Reasoning模型上,仅对3.5%的词执行MTI即可为所有任务平均提升1.58个点 [12] - 在AIME2024实验中,Qwen3-8B-Reasoning模型仅需对1.9%的词执行CFG,即可为准确性带来4.9%的增长 [13] - 在Qwen3-14B模型上,使用MTI方法后准确率达到82.92%,CFG使用率仅为9.0% [14] 方法分析 - 研究发现低熵词很难被CFG改变,因为模型对其输出非常确信,而CFG的有效操作主要集中在高熵词部分 [17] - 应用该方法可使基础模型的低信息量占位符被语义上更有意义的词语取代,创造更丰富的推理分支 [19] - 对于推理模型,该方法促使从单一连接词向更多样化连接词转变,有助于模型摒弃错误的先验推理链并开启新思路 [19]