LLaDA 1.0
搜索文档
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
量子位· 2025-12-12 03:00
文章核心观点 - 扩散语言模型作为一种非自回归的生成模型架构,在理论上有望实现比主流自回归模型更快的生成速度和更低的计算成本,并具备独特的可编辑生成能力,是当前大语言模型领域一个重要的非共识技术方向[2][8][20] - 浙江大学、蚂蚁集团等机构的研究团队已将扩散语言模型扩展至千亿参数规模,并开源了LLaDA 2.0模型及配套训练框架,标志着该技术路径取得了关键里程碑[4][44] - 扩散语言模型在训练和推理层面仍处于早期发展阶段,但其独特的Scaling Law、对数据的强吸收能力以及在代码生成等任务上的潜在优势,吸引了谷歌、字节等巨头及初创公司布局,未来发展值得关注[5][15][41][56] 扩散语言模型的技术原理与特点 - **核心机制差异**:自回归模型通过“接龙”方式逐个预测下一个词,而扩散语言模型采用“完形填空”机制,通过遮盖并恢复部分词来生成内容[12][13] - **训练特性**:扩散语言模型相比自回归模型更为“data-hungry”,在计算受限情况下对数据需求更大、吸收数据更快[15][21];与图像扩散模型类似,扩散语言模型在训练上具有持续性,可以在同一数据集上持续训练并提升效果,而自回归模型训练多个epoch后效果常趋于稳定[24][25][26] - **推理优势**:扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容,这为实现可编辑和可控生成提供了可能[2][28] LLaDA系列模型的研发进展与开源贡献 - **发展历程**:中国人民大学团队率先开源了80亿参数的扩散语言模型LLaDA 1.0,其效果可对标LLaMA-3-8B,并在Hugging Face上获得超过20万次下载[35][36][37];随后蚂蚁技术研究院联合多所高校接手,致力于推动该领域发展[38] - **架构演进**:团队发布了全球首个原生训练的MoE架构扩散语言模型LLaDA-MoE,总参数70亿,激活参数10亿[40];近期发布的LLaDA 2.0,率先将扩散语言模型扩展至千亿参数体量[4][44] - **开源框架**:团队开源了首个面向扩散语言模型的训练框架,支持监督微调和直接偏好优化,并配套了推理框架,方便社区使用[31][32] 扩散语言模型的性能表现与潜在应用 - **性能表现**:在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[15][23];在全局注意力机制支持下,扩散模型在效果上相比自回归模型具备一定优势[47] - **任务优势**:扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势,得益于并行解码能力,能同时生成多个token[49] - **生成特点**:扩散模型在文学创作等任务中展现出独特的“非共识”解码轨迹,例如先确定开头结尾框架,再反复修改润色中间内容,这种生成过程在主流自回归模型中难以见到[49][50] 行业生态与未来展望 - **行业布局**:扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[5][41] - **发展挑战**:扩散语言模型的训练与推理仍处于早期发展阶段[5];其Scaling Law与自回归模型存在差异,已验证可扩展到千亿规模,但继续向上扩展会面临新的挑战[15][56] - **未来方向**:团队发布了试验性推理引擎dInfer,旨在通过新架构与范式提升关键场景的吞吐量,目标实现五倍乃至更高的速度提升[53][54];团队计划在未来一两个月通过ZenMux平台放出部分API,以促进社区生态成长[51]