Workflow
DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
机器之心·2025-09-09 08:56

论文作者团队 :来自杜克大学 CEI Center,由实习生陈欣骅、黄思韬及郭聪博士共同完成,指导教师为李 海教授、陈怡然教授。 扩散大语言模型(dLLMs)凭借并行解码与独特的全局规划能力,有望解决自回归(AR)大模型的效率瓶 瓶颈和规划能力缺陷。但其「全局规划」能力依赖于其双向注意力对所有后文的关注,这带来了严重的计 算冗余,从而导致现有开源模型的潜力远远未被释放。 当前的 dLLM 存在「路线之争」:一是保留全局规划能力但推理效率极低的「全局双向注意」(如 LLaDA),二是追求速度却牺牲规划能力的「块内双向注意」(如 Block Diffusion)。如何在这两条路线之 间调和折中,让模型既能「着眼全局」,又能加速推理,已成为学界日益关注的问题。 针对以上问题,杜克大学陈怡然团队另辟蹊径,揭示了 dLLM 中实现全局规划的「草稿纸机制」,并发现 其存在高度冗余。据此,他们提出免训练方法 DPad(Diffusion Scratchpad),通过先验地丢弃大量无效后 缀 token,既极大地降低了计算量,又保留了核心规划能力,尝试在两条路线中走出一条「中间路线」。该 方法与现有优化技术结合后,在几乎无损 ...