里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节
机器之心·2025-12-12 04:31

扩散语言模型(dLLM)的技术突破与规模化 - 蚂蚁集团与人大、浙大、西湖大学联合团队推出了千亿参数规模的扩散语言模型LLaDA2.0-flash,总参数量高达100B,这是该领域前所未有的规模[1] - 该系列模型采用MoE架构,包含16B参数的LLaDA2.0-mini和100B参数的LLaDA2.0-flash两个版本[1] 模型性能表现 - LLaDA2.0-flash在涵盖知识、推理、编码、数学、智能体与对齐的47个基准测试中平均得分73.18,与强自回归模型Qwen3-30B-A3B-Instruct-2507的73.60分基本持平[5] - 在编码和智能体等复杂任务上优势显著,例如在HumanEval、MBPP、BFCL等任务上表现突出[5] - LLaDA2.0-mini综合得分64.34,接近同级别自回归模型Ling-mini-2.0的65.77分,并在SQuAD 2.0阅读理解和HumanEval代码生成等任务上超越了Qwen3-8B[37] - LLaDA2.0-flash在编码任务上展现出更明显优势:HumanEval得分94.51,MBPP得分88.29,MultiPL-E得分74.87,均高于自回归对手,其Agent能力(BFCL v3)得分也达到75.43[39] 自回归模型的固有弊端与扩散模型的优势 - 自回归生成范式存在长文本生成计算成本高、推理速度慢、难以捕捉token间双向依赖关系等固有弊端[7] - 一旦前期生成内容出错无法直接修正,会导致误差累积[7] - 扩散语言模型支持在多个位置并行生成,且已生成内容可以修改[11] dLLM规模化发展的技术路径 - 行业探索了三种主要路径:从头开始训练、从训练好的AR模型迁移继承、后训练阶段的努力[16][17] - 从头训练的dLLM受限于数据量、基础设施和成本,规模通常较小(≤8B),性能仍落后于先进AR模型[16] - 从AR模型迁移的方法(如DiffusionLLaMA、Dream-7B等)此前也未突破30B规模,且训练效率不高[17] - LLaDA2.0选择了将已有AR模型“平滑地”转化成扩散模型的路径,并在此基础上进行大规模训练与对齐[20] LLaDA2.0的核心技术方案 - 构建了分段式、可扩展的训练体系:首先通过持续预训练将AR基座模型重建为掩码扩散语言模型;接着引入块扩散预训练,增强生成长程一致性和计算效率;最后通过后训练使模型具备更强的人类意图与指令遵从特性[21] - 采用了Warmup–Stable–Decay的持续预训练策略,逐步调整块大小(从1到4096再降至适合推理的尺寸如32),完成从因果生成向全局双向去噪的结构性迁移[25][26] - 引入了文档级注意力掩码,避免跨文档语义污染,确保双向建模稳定性[27] - 采用了Top-k检查点融合策略,选取最优检查点进行参数平均,得到更稳健的模型初始化[27] 后训练技术的创新 - 监督微调阶段引入了块对齐、Mask ratio bandwidth、Complementary Masking等关键改进,提升了训练效率和样本利用率[29] - 采用了置信度感知并行训练,通过添加置信度损失提升模型预测置信度,实现更快并行解码[29] - 构建了包含150万对偏好样本的数据集,并将重构损失的证据下界作为对数似然替代,构建出适配扩散模型的直接偏好对齐框架[30] 训练与推理基础设施优化 - 预训练阶段结合了数据并行、流水线并行、张量并行、上下文并行与专家并行的多并行策略,保持千亿级模型的高吞吐与强扩展性[31] - 通过基于cuDNN的注意力实现,为块扩散训练带来显著加速,训练LLaDA2.0-mini时实现了1.3倍以上的端到端加速以及90%以上的注意力层显存节省[31] - 推理阶段,LLaDA2.0-flash-CAP达到了535 TPS,相较于基线AR模型实现最高2.1倍推理加速[34] 行业意义与未来展望 - LLaDA2.0的成功表明扩散语言模型是一条可扩展且有竞争力的技术路线,在通用基准上快速缩小了与AR模型的差距,并在复杂任务上展现出超越潜力[41] - 其“将成熟AR大模型平滑过渡到扩散框架”的思路为扩散语言模型的规模化探索提供了切实可行的工程路径,打开了更广阔的设计空间[43] - 越来越多的玩家正在入场,包括科技巨头xAI[44] - 尽管在更大参数规模、更高效强化学习与推理范式等方面仍有难题待攻克,但技术方向已经明确[46]