早期答案收敛

搜索文档
其实,扩散语言模型在最终解码之前很久,就已确定最终答案
机器之心· 2025-09-03 04:33
扩散语言模型加速技术 - 扩散语言模型(DLM)成为自回归模型的有力替代方案,具备高效并行解码和灵活生成顺序等优势 [1] - DLM在实际应用中推理速度仍慢于自回归模型,主要由于缺乏KV-cache机制以及快速并行解码导致的性能下降 [2] - 研究发现早期答案收敛现象:在GSMK和MMLU数据集中,仅需半数优化步骤即可分别实现97%和99%样本正确解码 [3] Prophet解码方法 - Prophet是一种无需训练的快速解码策略,通过监控top-2答案候选间的置信度差距自适应判断是否提前解码剩余token [3][6] - 采用早期提交解码机制,在模型预测稳定时一次性提交所有剩余token,与固定步数解码形成鲜明对比 [6][9] - 该方法将终止解码决策建模为最优停止问题,权衡计算成本与错误风险 [9] 性能表现 - 在LLaDA-8B模型上,Prophet在MMLU达到54.0%(加速2.34倍),ARC-C达到83.5%(加速1.88倍) [10][13] - 在Dream-7B模型上,MMLU准确率66.1%(较完整模型67.6%仅下降1.5%),速度提升2.47倍 [10][13] - 数学推理任务中,GSM8K准确率76.8%(与完整基线77.1%基本相当),速度提升1.69倍 [10][13] - 规划任务中Sudoku性能从35.0%提升至38.0%,同时实现3.40倍加速 [13] 技术优势 - 早期提交解码可避免后续噪声精炼步骤破坏已正确预测,在HellaSwag任务中表现70.9%超越完整基线的68.7% [10][11] - 提供稳健且模型无关的解决方案,显著提升DLM在实际应用中的可行性 [12] - 与静态截断方法相比,能有效避免过早终止解码导致的准确率下降风险 [11]