Workflow
最新综述!扩散语言模型全面盘点~
自动驾驶之心·2025-08-19 23:32

扩散语言模型(DLMs)与自回归模型(AR)的范式对比 - 扩散模型在图像生成领域表现突出,代表模型包括Stable Diffusion和DALL·E,通过"从噪声中迭代重建"的生成逻辑刷新视觉创作边界 [2] - 自回归模型主导文本生成领域,代表模型包括GPT、LLaMA、Qwen、DeepSeek系列,采用"逐词预测序列"框架但存在效率瓶颈 [2] - 扩散语言模型(DLMs)通过"并行生成+迭代优化"机制实现数倍推理加速,性能已比肩同等规模AR模型 [2] DLM的核心技术优势 - 并行生成能力:工业界模型如Mercury系列、Gemini Diffusion实现每秒数千token的推理速度,较AR模型提升10倍以上 [11] - 双向上下文理解:支持双向注意力机制,在文本补全、风格迁移等任务中表现更优,且能实现细粒度控制如情感倾向调整 [12] - 迭代优化机制:类似人类写作修改过程,可动态修正低置信度token,LLaDA-8B在GSM8K数学基准测试中准确率超过LLaMA3-8B 5% [13] - 多模态适配性:统一框架支持文本与视觉联合生成,MMaDA模型在图像生成质量上超越SDXL,同时保持语言理解能力 [14] DLM的三大技术范式 - 连续空间DLMs:将文本token映射到连续嵌入空间完成扩散过程,可直接使用DDPM等成熟框架但存在语义偏差问题 [19] - 离散空间DLMs:直接在token词汇表上定义扩散过程,主流路线代表包括8B规模的LLaDA、Dream-7B,支持8192 tokens长序列处理 [20][21] - 混合AR-DLMs:结合AR长程依赖建模与DLM并行生成能力,Diffusion-LM等模型在指令跟随任务上达到GPT-3.5水平 [22][23] 训练与推理优化技术 - 训练策略:采用迁移学习降低门槛,Dream-7B基于Qwen2.5-7B初始化,训练数据量减少50%但推理速度提升7倍 [30] - 推理加速技术:包括置信度感知解码(速度提升27.6倍)、辅助模型引导解码、缓存机制(速度提升9倍)等 [38][40] - 质量保障技术:ReMDM模型的动态修正机制、LaViDa的互补掩码策略使多模态训练效率提升40% [39] 多模态与产业落地应用 - 多模态模型:LLaDA-V在MME基准超越LLaVA-1.5-7B 12%,D-DiT在文本生成图像任务人类偏好率达85% [44] - 代码生成领域:DiffuCoder在HumanEval基准pass@1达68%且推理速度快8倍,Mercury Coder语法错误率仅2.3% [46] - 计算生物学:MeMDLM设计的膜蛋白表达成功率达68%,DPLM2在蛋白质折叠任务RMSD达1.8Å [47] 未来发展方向与挑战 - 核心挑战:包括并行性-性能权衡(去噪步数减少导致GSM8K准确率从78%降至45%)、工具链不完善、长序列处理复杂度高等 [51][52][53] - 研究方向:语义关联建模、专用工具链建设、稀疏扩散架构创新、跨模态协同推理等 [54][56]