扩散语言模型(Diffusion Language Models)
搜索文档
告别「盲目自信」,CCD:扩散语言模型推理新SOTA
机器之心· 2025-12-13 01:13
研究背景与问题 - 扩散语言模型已成为LLM领域新范式,具备全局规划与并行解码优势,但在Any-order解码模式下存在推理速度慢、生成逻辑不连贯等问题[2] - 以Dream和LLaDA为代表的开源扩散语言模型已展现出与同尺寸自回归模型相当的通用能力,并在全局规划和双向上下文理解任务上有优势[5] - 当前主流DLM推理算法存在“过度自信”的致命缺陷,传统采样策略只关注当前扩散步预测,导致可能陷入局部最优并引发后续生成错误[7] - 另一个核心问题是采样预算固化,每一步解码的Token数量固定,限制了模型灵活性,且在遭遇大量EOS Token的平原期时会大幅延缓有效输出[7] 核心创新:上下文一致性解码算法 - 研究团队提出全新的上下文一致性解码算法,该算法从关注“单步状态”转向追求“轨迹连贯”,是视角上的根本转换[7] - 创新点一:引入“历史缓冲”机制,利用过去N个扩散步的预测信息来校正当前步的解码选择,以纠正单步预测中包含的训练噪声[9] - 创新点二:引入自适应采样方案,通过滑动历史缓冲区实现动态调度,打破了生成速度与质量的权衡,充分利用解码过程中的“平台期”提升效率[10] 实验结果与性能提升 - 实验选取Dream-7B和LLaDA-8B两个主流开源模型,在数学推理、代码生成和规划任务上进行全面测试[13] - 在自适应策略解码下,模型实现了速度与质量的双重提升,在多个基准测试中均优于传统解码算法[14] - 在Trip Plan任务上,相较于Baseline,Dream模型的推理速度提升了3.48倍,且性能表现提升3.9%[16] - 具体数据:在GSM8K任务上,Dream Instruct模型使用CCD-DS后,扩散步数从256步减少至141.2步,加速1.82倍,性能从81.01分提升至82.51分[11] - 具体数据:在HumanEval代码生成任务上,Dream Instruct模型使用CCD-DS后,扩散步数从768步减少至253.2步,加速3.04倍,性能从52.66分提升至56.71分[11] - 具体数据:在MBPP代码生成任务上,Dream Instruct模型使用CCD-DS后,扩散步数从1024步减少至270.2步,加速3.78倍,性能保持58.00分[11] 技术原理与案例分析 - CCD算法的直观原理:如果一个Token在过去多次扩散步中都有高置信度,则表明它是经得起上下文考验的优质预测;反之,若置信度波动大,则可能是噪声[15] - CCD算法的理论原理:利用历史信息逼近真实分布的方法,等价于利用Token与上下文之间的条件互信息来建模反向扩散降噪过程的一致性,并能直接降低采样误差上界[15] - 自适应机制:在简单区域,当候选Token一致性高时,算法会一次性解码多个Token加速;在困难区域,当遇到语义模糊Token时,算法会自动控制解码预算以保障输出质量[15] - 案例分析:在一个数学推理问题中,传统方案因单步预测优先解码连词“so”导致逻辑错误,得出答案360;CCD方法利用多步上下文一致性,优先解码“Karen”,构建正确推理轨迹,得出正确答案120[17] - 该案例证明CCD能够区分语法流畅性与语义重要性,在关键决策点上避免了单步推理带来的级联错误[17] 总结与影响 - 该工作为扩散语言模型推理提供了一套理论完备且行之有效的解决方案,通过一致性建模和自适应预算,打破了传统DLMs速度与准确率的权衡[19] - 该方案不仅适配Any-order生成,在半自回归Block-wise解码设定下也获得了提升,为扩散模型在更复杂推理任务中的应用铺平了道路[2][19] - 研究由华为小艺香港团队、香港城市大学及香港大学的研究人员共同完成,标志着扩散语言模型高效推理时代的到来[2][20]