Workflow
大语言模型推理性能提升
icon
搜索文档
不改模型也能提升推理性能?ICLR投稿提出测试时扩展新范式OTV
量子位· 2025-10-23 00:08
文章核心观点 - 提出一种名为单token验证(OTV)的新机制,旨在不改变原始模型参数的前提下,实现对大语言模型推理过程的实时自主监控[2] - OTV通过利用模型内部的键值缓存(KV Cache)和轻量级的LoRA角色向量,使模型能够边推理边判断自身推理的正确性[8][9] - 该方法在多个模型规模和高难度数学推理数据集上的实验显示,其准确率全面领先于现有主流基线方法,并能显著降低计算开销[14][15][17] 现有主流范式的局限性 - LoRA微调虽参数高效且便于部署,但依赖详细监督数据并可能引发遗忘效应[3] - 后置验证器通过对生成结果进行质量筛选来增强可信度,但纠偏滞后且无法窥探内部推理过程[4] - RLVR(可验证奖励强化学习)节省标注成本,但流程复杂、计算代价高昂,难以普及[6] OTV机制的技术原理 - 核心是利用Transformer架构的键值缓存(KV Cache)作为完整的推理轨迹记录,捕捉模型内部动态最丰富的信息源[9] - 通过插入特殊"ToT"(Token of Truth)token,使其与整个序列的KV缓存进行注意力交互,从而回顾整条推理路径[9][11] - 内部验证器由一个LoRA实现的轻量角色向量和一个轻量回归头构成,输出0~1之间的正确性评分[9][10] OTV的训练与效率 - 训练目标以最终答案正确性为信号,为每个生成token分配启发式伪标签(正确路径得分从0.5线性增至1,错误路径递减至0)[10] - 训练流程高度并行,计算成本与传统LoRA微调相当[10] - 验证一次仅相当于模型多生成一个token的计算量,过程极其高效[9] 实验验证结果 - 在Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B等模型上,使用AIME数据集测试,OTV在加权多数投票设置下稳定超越所有基线[14][15] - 具体表现为:在Qwen3-4B-Instruct-2507模型上,AIME24准确率达83.33%,AIME25达69.32%;在DAPO-Qwen-32B模型上,AIME24达70.83%,AIME25达49.58%[16] - 在高效推理设置下,OTV的"HALF 300"策略在计算量减少近90%的前提下,仍能保持最优或接近最优的准确率[17][19] OTV的优势与潜力 - 评分信号更稳定、真实且具有区分度,能清晰区分正确(红色轨迹稳定上升)与错误(绿色轨迹被压制)的推理路径[20][22][24] - 赋予模型动态控制计算开销的能力,可实时淘汰低质量路径,节省不必要的计算[17] - 未来潜力包括扩展为引入"不确定"状态的三元系统、具备安全控制潜力以终止高风险路径生成,以及推广至不同架构模型[25][26]