扩散语言模型架构的技术特点与优势 - 扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容[1] - 相比自回归模型,扩散模型理论上有望实现更快的生成速度和更低的计算成本[1] - 扩散语言模型的解码机制是“做完形填空”,即遮盖部分词后再恢复,而非自回归的“接龙”式预测[6] 扩散语言模型的性能与数据特性 - 在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[5] - 在计算受限情况下,扩散语言模型相比自回归模型更为“data-hungry”,对数据需求更大、吸收数据更快[5][8] - 与图像扩散模型类似,扩散语言模型在同样数据集和架构下可以持续训练,效果可能持续提升,而自回归模型训练多个epoch后效果常不再变动[9][10] LLaDA系列模型的发展与开源成果 - 团队近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量[1][20] - LLaDA 1.0的8B版本是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B,在Hugging Face上零推广即获得二十几万下载[19] - 团队于今年9月发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出来的MoE架构扩散语言模型[19] - 团队开源了一套支持5D并行集成的训练框架和推理框架,是第一个面向扩散语言模型的训练框架,已支持监督微调与直接偏好优化[16] 扩散语言模型的应用表现与潜力 - 扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势[23] - 得益于并行解码,模型一次能同时吐出几个token,在代码补全等场景中体验类似按Tab自动补全[23] - 在文学创作中,模型解码过程呈现“非共识”轨迹,例如先定下开头结尾框架,再反复修改润色中间内容,这在主流原生应用中尚未见到[23] - 通过新的模型架构与范式,若能将关键场景的每秒事务处理量推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的[25] 行业生态与发展阶段 - 扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[1] - 谷歌有Gemini Diffusion,美国有创业公司在做Mercury系列,字节也在进行相关研究[19] - 扩散语言模型的训练与推理生态仍处于早期发展阶段,自回归模型从ChatGPT出来已发展三年,而扩散语言模型的训推生态才刚起步[27] - 团队计划在未来一两个月联合ZenMux(一站式模型接入平台)放出部分API[23]
跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token