里程碑时刻,首个100B扩散语言模型来了,技术报告揭秘背后细节
36氪·2025-12-12 07:57

行业技术范式演进 - 扩散语言模型已成功扩展至千亿参数规模,由蚂蚁集团与多所大学组成的联合团队发布的LLaDA2.0-flash模型参数量高达100B,这是该领域前所未有的规模[1] - 长期以来,自回归生成范式占据主导,但其存在长文本生成计算成本高、推理速度慢、难以修正前期错误导致误差累积等固有弊端[7] - dLLM的成功扩展证明了自回归范式之外的另一条技术路径的可行性,其演进呈现“多线并进”的特点,包括从头训练和从成熟AR模型迁移等不同路线[9] 模型性能表现 - 在涵盖知识、推理、编码、数学、智能体与对齐的47个基准测试中,100B参数的LLaDA2.0-flash平均得分73.18,与强自回归模型Qwen3-30B-A3B-Instruct-2507的73.60分基本持平[4] - LLaDA2.0-flash在编码和智能体等复杂任务上优势显著,例如在HumanEval测试中得分94.51,在MBPP测试中得分88.29,在BFCL v3智能体测试中得分75.43[4][35][37] - 16B参数的LLaDA2.0-mini综合得分64.34,接近同级别AR模型Ling-mini-2.0的65.77分,并在SQuAD 2.0阅读理解和HumanEval代码生成等任务上超过对标模型Qwen3-8B[34] 技术实现路径与创新 - 将dLLM“做大做强”是公认难题,此前方法包括从头训练、从预训练AR模型迁移以及后训练阶段努力,但规模多限制在30B以下或面临训练效率等挑战[15][16] - LLaDA2.0没有选择从头训练,而是提出一套系统性解决方案,将已有AR模型平滑地转化为扩散模型,其核心是构建分段式、可扩展的训练体系[18] - 该训练体系首先通过持续预训练将AR基座模型重建为掩码扩散语言模型,然后引入块扩散预训练以增强长程一致性和计算效率,最后通过后训练对齐人类意图[18][19] - 持续预训练采用Warmup–Stable–Decay策略,逐步调整块大小(从1到4096再衰减至适合推理的尺寸如32),并引入文档级注意力掩码和Top-k检查点融合以保障训练稳定性和模型稳健性[22][23] 后训练与工程优化 - 后训练包括三个核心环节:监督微调、置信度感知并行训练和直接偏好对齐,通过协同优化实现能力塑造、推理效率提升与人类偏好对齐[25][26] - 在工程基础设施上,预训练阶段结合多种并行策略,并为块扩散训练引入基于cuDNN的注意力实现,在训练LLaDA2.0-mini时实现了1.3倍以上的端到端加速和90%以上的注意力层显存节省[27] - 推理阶段对框架进行改造以支持块扩散,并优化KV-cache复用,LLaDA2.0-flash-CAP在多项基准测试中达到535 TPS,相较于基线AR模型实现最高2.1倍的推理加速[31] 行业影响与未来展望 - LLaDA2.0系列模型的出现为扩散语言模型领域注入了强心剂,其“将成熟AR大模型平滑过渡到扩散框架”的思路表明不同生成范式可以串联、融合与相互继承[39] - 该模型的成功表明扩散语言模型是一条可扩展且有竞争力的技术路线,在通用基准上快速缩小与AR模型的差距,并在代码生成、工具使用等复杂任务上展现出超越潜力[38] - 行业内有越来越多的玩家正在入场,包括科技巨头,尽管dLLM在更大规模、更高效强化学习与推理范式等方面仍有难题待攻克,但技术方向已经明确[40][42]