研究背景与现有挑战 - 基于扩散的大语言模型因其全局解码和双向注意力机制,具备并行解码和受控生成潜力,但双向注意力引入的缓存刷新机制导致推理过程为预填充与解码交错的模式,将传统自回归模型的访存瓶颈转化为计算与访存瓶颈交替限制,占据了不可忽视的推理开销[2] - 现有推理框架如Fast-dLLM通过分块半自回归解码支持KV缓存,但每个新块触发全局预填充以刷新KV缓存,此计算密集型阶段占总推理延迟的30-40%[7] - 现有方法存在三个主要挑战:1) 交错的计算和访存瓶颈模式限制了效率;2) 预设固定输出长度过长导致预填充阶段引入大量冗余计算;3) 解码阶段使用硬置信度阈值延迟了对潜在正确token的接受,导致解码步数增加和额外延迟[7] ODB-dLLM框架核心设计 - 该框架旨在协调交错的计算和访存瓶颈,通过自适应长度预测策略减少预填充冗余计算,并引入为dLLM定制的跳跃共享推测解码方法以减少访存受限阶段的解码步骤[10] - 自适应长度预测策略在每轮预填充后检测响应序列中的[EOS] token及其置信度,若超过阈值则截断响应,从而渐进式减少预填充阶段的算术强度和冗余计算[11] - 跳跃共享推测解码包含两项关键设计:1) 跳跃接收推测策略,使草稿块同时作为中间验证块,实现草稿token跨块跳跃验证和接收,单次解码迭代可解掩码更多token;2) 解码共享推测策略,利用各推测块间高度相似性,在块内计算更新KV状态并在多个推测块间共享,降低推测块计算成本[13][15] 实验效果与性能提升 - 研究团队在LLaDA-Instruct和LLaDA-1.5两种开源扩散语言模型上评估ODB-dLLM,证实其在预填充阶段能减少长度和延迟,在计算密集阶段节省算术强度[16] - 自适应长度预测的渐进式策略将模型限制在更准确的答案空间,相比生成到[EOS]后简单截断,能产生更高的精度[18] - 跳跃共享推测解码增加了每步接受的token数量,并通过一次解码中的多段接收减少并行解掩码token间的潜在冲突,同时减少了解码轮次,在推理速度和精度上均取得显著增益[19]
扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈
机器之心·2025-12-11 00:43