离散扩散技术

搜索文档
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
量子位· 2025-08-01 04:23
模型性能与技术优势 - 字节Seed最新发布的扩散语言模型Seed Diffusion Preview在代码生成领域表现出色,采用离散状态扩散技术,推理速度显著提升[1] - 在H20硬件上推理速度达2146 tokens/s,比同类Mercury和Gemini Diffusion更快,比同等规模自回归模型快5.4倍[3] - 专注于结构化代码生成,验证离散扩散技术作为下一代语言模型基础框架的可行性[5] 核心技术架构 - 采用两阶段训练策略:第一阶段基于掩码的扩散训练(占训练步骤80%)学习上下文补全,第二阶段基于编辑的扩散训练增强全局逻辑理解[9][10][11][13] - 引入约束顺序扩散技术,通过代码结构化先验解决逻辑混乱问题,确保变量声明等因果关系正确[17][18][19] - 采用同策略学习范式(on-policy)实现训练数据与模型能力动态匹配,减少策略偏差并加速采样优化[21] - 块级并行扩散采样方案将序列分块并行处理,平衡计算资源与生成延迟[23] 实验成果与行业对比 - 代码修复基准CanItEdit的pass@1达54.3%,较自回归模型提升4.8%(54.3 vs 50.5)[14] - 在BigCode Bench(53.2)、MBPP(79.4)、HumanEval(82.8)等多项基准测试中与DeepSeek-Coder-33B(46.2)、Qwen2.5-Coder-14B(52.9)等竞品性能相当[26] - 系统级优化实现推理速度突破,2146 tokens/s显著高于Mercury(1109 tokens/s)和Gemini Diffusion(1489 tokens/s)[26] 应用场景与项目进展 - 特别适合代码编辑任务,在保持生成质量的同时实现高速推理[25] - 项目组开放研究型实习生招募,提供技术报告和体验链接[27]