扩散语言模型
搜索文档
跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token
36氪· 2025-12-12 07:17
扩散语言模型架构的技术特点与优势 - 扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容[1] - 相比自回归模型,扩散模型理论上有望实现更快的生成速度和更低的计算成本[1] - 扩散语言模型的解码机制是“做完形填空”,即遮盖部分词后再恢复,而非自回归的“接龙”式预测[6] 扩散语言模型的性能与数据特性 - 在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[5] - 在计算受限情况下,扩散语言模型相比自回归模型更为“data-hungry”,对数据需求更大、吸收数据更快[5][8] - 与图像扩散模型类似,扩散语言模型在同样数据集和架构下可以持续训练,效果可能持续提升,而自回归模型训练多个epoch后效果常不再变动[9][10] LLaDA系列模型的发展与开源成果 - 团队近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量[1][20] - LLaDA 1.0的8B版本是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B,在Hugging Face上零推广即获得二十几万下载[19] - 团队于今年9月发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出来的MoE架构扩散语言模型[19] - 团队开源了一套支持5D并行集成的训练框架和推理框架,是第一个面向扩散语言模型的训练框架,已支持监督微调与直接偏好优化[16] 扩散语言模型的应用表现与潜力 - 扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势[23] - 得益于并行解码,模型一次能同时吐出几个token,在代码补全等场景中体验类似按Tab自动补全[23] - 在文学创作中,模型解码过程呈现“非共识”轨迹,例如先定下开头结尾框架,再反复修改润色中间内容,这在主流原生应用中尚未见到[23] - 通过新的模型架构与范式,若能将关键场景的每秒事务处理量推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的[25] 行业生态与发展阶段 - 扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[1] - 谷歌有Gemini Diffusion,美国有创业公司在做Mercury系列,字节也在进行相关研究[19] - 扩散语言模型的训练与推理生态仍处于早期发展阶段,自回归模型从ChatGPT出来已发展三年,而扩散语言模型的训推生态才刚起步[27] - 团队计划在未来一两个月联合ZenMux(一站式模型接入平台)放出部分API[23]
人民大学提出的扩散语言模型,可能要改写历史...
自动驾驶之心· 2025-12-12 03:02
扩散语言模型的发展历程与核心观点 - 文章核心观点认为,扩散模型,特别是掩码扩散模型,是自回归模型之外一条有潜力通往语言智能的重要路径,其发展经历了从基础研究到规模化探索的两个阶段,并在近期展现出与自回归模型相媲美的潜力 [3][14][16] 第一阶段:2022-2024年底的基础研究阶段 - 此阶段扩散语言模型相对小众,研究主要分为连续扩散模型和离散扩散模型两条技术路线 [4][5] - **连续扩散模型**:早期尝试将基于高斯噪声的连续扩散模型直接应用于语言数据,或在其概率参数空间进行约束建模,但可扩展性存疑 [6][7] - **离散扩散模型**:掩码扩散模型被证明比均匀转移核的模型效果更好,逐渐成为研究重心 [8] - 关键理论突破包括证明了MDM模型中时间变量t是冗余的,可以将其从模型输入中移除,这一发现简化了模型结构,并建立了与BERT、MaskGIT等模型的联系 [9][10][11] 第二阶段:2024年底-2025年初的规模化阶段 - 研究重心从基础理论转向模型规模化扩展与能力验证 [14] - **学术界工作**: - 2024年10月,首个MDM的缩放定律研究完成,实验表明在GPT-2规模下,从头训练的MDM表现不亚于自回归模型 [16] - 2025年2月,发布了首个支持多轮对话的MDM模型LLaDA 8B,其能力可与LLaMA 3 8B媲美,并进行了全面开源 [16] - 后续涌现出更多在语言对齐、推理、多模态及加速技术方面的研究工作 [17] - **工业界工作**: - 继LLaDA开源后,出现了如Inception Lab的Mercury coder和谷歌的Gemini Diffusion等产品,但技术细节披露较少 [19] MDM与BERT/MaskGIT的关系及命名争议 - 从技术发展脉络看,MDM沿袭了扩散模型的概率建模思路,其历史可追溯至2015年,早于BERT [11] - 尽管通过理论简化(如移除时间变量t、使用固定掩码)后,MDM在形式上与BERT有相似之处,但二者本质区别在于MDM是一个完整的生成模型,具备定义联合概率分布和采样生成的能力,而BERT不是 [11][12] - 作者认为“扩散”是更合适的名称,因其能准确反映其生成模型的特质和技术发展路径 [12] LLaDA模型的贡献与认知价值 - LLaDA被视为一项标志性工作,其核心贡献在于改变了业界对扩散模型能否在语言任务上取得成功的认知,证明了这条技术路径的可行性 [21] - 该工作表明,最好的研究未必需要全新的技术,而是能够深化或转变人们对某个领域的理解和看法 [21] - 尽管存在如变长生成等尚未解决的挑战,但这恰恰意味着扩散语言模型领域仍有巨大的探索空间和机会 [21]
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
量子位· 2025-12-12 03:00
文章核心观点 - 扩散语言模型作为一种非自回归的生成模型架构,在理论上有望实现比主流自回归模型更快的生成速度和更低的计算成本,并具备独特的可编辑生成能力,是当前大语言模型领域一个重要的非共识技术方向[2][8][20] - 浙江大学、蚂蚁集团等机构的研究团队已将扩散语言模型扩展至千亿参数规模,并开源了LLaDA 2.0模型及配套训练框架,标志着该技术路径取得了关键里程碑[4][44] - 扩散语言模型在训练和推理层面仍处于早期发展阶段,但其独特的Scaling Law、对数据的强吸收能力以及在代码生成等任务上的潜在优势,吸引了谷歌、字节等巨头及初创公司布局,未来发展值得关注[5][15][41][56] 扩散语言模型的技术原理与特点 - **核心机制差异**:自回归模型通过“接龙”方式逐个预测下一个词,而扩散语言模型采用“完形填空”机制,通过遮盖并恢复部分词来生成内容[12][13] - **训练特性**:扩散语言模型相比自回归模型更为“data-hungry”,在计算受限情况下对数据需求更大、吸收数据更快[15][21];与图像扩散模型类似,扩散语言模型在训练上具有持续性,可以在同一数据集上持续训练并提升效果,而自回归模型训练多个epoch后效果常趋于稳定[24][25][26] - **推理优势**:扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容,这为实现可编辑和可控生成提供了可能[2][28] LLaDA系列模型的研发进展与开源贡献 - **发展历程**:中国人民大学团队率先开源了80亿参数的扩散语言模型LLaDA 1.0,其效果可对标LLaMA-3-8B,并在Hugging Face上获得超过20万次下载[35][36][37];随后蚂蚁技术研究院联合多所高校接手,致力于推动该领域发展[38] - **架构演进**:团队发布了全球首个原生训练的MoE架构扩散语言模型LLaDA-MoE,总参数70亿,激活参数10亿[40];近期发布的LLaDA 2.0,率先将扩散语言模型扩展至千亿参数体量[4][44] - **开源框架**:团队开源了首个面向扩散语言模型的训练框架,支持监督微调和直接偏好优化,并配套了推理框架,方便社区使用[31][32] 扩散语言模型的性能表现与潜在应用 - **性能表现**:在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[15][23];在全局注意力机制支持下,扩散模型在效果上相比自回归模型具备一定优势[47] - **任务优势**:扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势,得益于并行解码能力,能同时生成多个token[49] - **生成特点**:扩散模型在文学创作等任务中展现出独特的“非共识”解码轨迹,例如先确定开头结尾框架,再反复修改润色中间内容,这种生成过程在主流自回归模型中难以见到[49][50] 行业生态与未来展望 - **行业布局**:扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[5][41] - **发展挑战**:扩散语言模型的训练与推理仍处于早期发展阶段[5];其Scaling Law与自回归模型存在差异,已验证可扩展到千亿规模,但继续向上扩展会面临新的挑战[15][56] - **未来方向**:团队发布了试验性推理引擎dInfer,旨在通过新架构与范式提升关键场景的吞吐量,目标实现五倍乃至更高的速度提升[53][54];团队计划在未来一两个月通过ZenMux平台放出部分API,以促进社区生态成长[51]
华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」
机器之心· 2025-12-02 06:47
技术突破与行业范式转变 - 文本生成领域迎来从自回归模型向扩散语言模型的重要范式转变,但长序列训练不稳定性是核心痛点,即使是100B参数的LLaDA 2.0上下文窗口也仅为4K [1] - 华为发布openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至32K [1] 模型性能表现 - 在通用能力基准测试中,MMLU得分81.66,MMLU-Pro得分71.26,CMMLU得分76.43,CEval得分70.81,IFEval Prompt Strict得分60.81 [2] - 在数学能力基准测试中,GSM8K得分91.89,MATH得分84.26,大幅领先同类模型 [2][3] - 在代码能力基准测试中,MBPP得分84.05,HumanEval得分87.80,展现出卓越的逻辑泛化能力 [2][3] - 多学科知识(MMLU-Pro)超越16B参数量的LLaDA 2.0-mini-preview达22% [3] - Base模型在多个基准测试中平均得分65.26,优于对比模型 [4] 核心架构创新 - 创新性地融合了自回归的前文因果注意力掩码,而非沿用传统扩散模型的全注意力或分块掩码 [7] - 该设计从根本上解决了架构适配难题,消除适配壁垒,仅需从预测Next Token转变为预测Next Block中的Mask Token,极大降低适配成本 [8] - 兼容性最大化,使模型能自然继承自回归模型的预训练知识,为长窗口训练打下坚实基础 [8] 训练与推理优化 - 训练策略延续BlockDiffusion思路但进行关键优化,Context利用率达100%,将无掩码Context部分数据用于标准自回归Next Token Prediction训练 [15] - 双模式解码赋予模型自回归+扩散的双重解码能力,用户可通过不同采样设置灵活权衡生成质量与速度 [15] - 在并行解码模式下,其速度最高可达自回归解码的2.5倍,模型完整保留变长推理与KV-Cache特性 [15] 技术特点与能力展示 - 模型展现出结合扩散并行生成与深度思维链的"慢思考"能力,在处理复杂数学推理和编程任务时表现优异 [12] - 可视化实测显示,模型在4个生成步数内并行将多个[MASK]噪声逐步去噪还原为清晰语义Token,而非传统自回归模型的逐词生成方式 [12] - 该模型成功证明扩散模型不仅可以快(并行解码),更可以深(32K长文与慢思考),开启扩散语言模型新篇章 [14]
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解
机器之心· 2025-11-16 04:01
核心观点 - 上海人工智能实验室推出的Lumina-DiMOO模型,通过创新的离散扩散架构,实现了多模态生成与理解任务的高效统一,在生成速度和质量上相比传统自回归模型有显著突破 [2][11][25] 技术架构创新 - 模型采用离散扩散建模框架,打破了文本生成图像、图像编辑、图像理解等多模态任务间的壁垒,实现了全栈能力闭环 [2][12] - 通过并行化的双向注意力机制和灵活的采样策略,实现了跨任务的高效融合,加速了生成过程并提升了生成质量 [9][12][17] - 采用全局优化策略,通过联合损失函数优化整体性能,确保模型在多个任务间无缝切换的高效统一和多任务能力 [18] 性能优势 - 相比传统逐token生成的自回归模型,Lumina-DiMOO通过并行生成方式大幅加快了推理过程,解决了图像生成需要几分钟的瓶颈 [7][15] - 模型在生成质量上表现优异,特别是在高分辨率生成时能保证图像的精细度和细节表现力,克服了自回归模型的缺陷 [7][11] - 引入Max-Logit缓存技术,通过缓存高置信度token避免重复计算,显著提升了生成效率和速度,并降低了计算成本 [20] 自我强化能力 - 模型整合了全新的自我强化框架Self-GRPO,将图像生成和多模态理解整合进强化学习轨迹,实现了生成-推理-校正的闭环 [22][23] - 该框架使模型具备自主反思能力,能在生成中学会理解,在理解中反哺生成,成为一个智能体雏形 [22][26] 行业地位与评测表现 - 在多项权威评测中夺魁,包括在腾讯混元维护的UniGen Bench上获得开源模型第一名 [29] - 在GenEval评测中综合得分0.88,超越GPT-4o、BAGEL、Janus-Pro等顶尖模型 [29] - 在语义一致性、布局理解、属性绑定、推理等维度全面领先 [29]
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升
机器之心· 2025-11-05 04:15
行业技术发展动态 - 扩散大语言模型在2025年得到快速发展,2月Inception Labs推出首个商业级模型Mercury,同期中国人民大学发布首个开源8B模型LLaDA,5月出现Gemini Diffusion,该技术被视为下一代大语言模型基础范式的有力竞争者[2] - 针对扩散大语言模型的解码策略和强化学习算法领域仍处于探索不足的状态[2] 核心技术问题识别 - 掩码扩散大语言模型具备并行解码、灵活生成顺序和潜在少步推理等优势,但其完全扩散式解码策略存在性能大幅逊色于分块解码的痛点[7] - 完全扩散式解码存在三个关键问题:解码早期token置信度变化由平缓到陡升;<EOS> token置信度始终显著高于其他token;导致模型在早期解码时易陷入<EOS>陷阱而提前终止生成[9] - 将自回归模型的强化学习算法直接迁移至MDLM会遇到rollout轨迹和优化轨迹不一致的问题,因MDLM采用双向注意力机制,与自回归模型的因果性掩码不同[11] 方法论创新 - 研究团队提出<EOS>早期拒绝机制,在解码早期主动抑制<EOS>置信度避免过早终止,后期恢复置信度确保句子正常结束,显著提升全扩散式解码性能[15] - 基于token置信度变化观察,设计幂次递增解码步长调度器,将推理步数从O(L)降至O(logL),大幅加速推理过程[15] - 提出一致性轨迹分组策略优化,通过存储每一步解码的中间状态来优化相邻状态间的转变,缓解轨迹不一致带来的优化误差[16] - 将<EOS>早期拒绝机制、递增步长调度器和CJ-GRPO算法结合,削减训练时中间状态存储开销,实现训练和解码的时间/空间复杂度从O(L)降至O(logL)[16] 实验性能表现 - 在数学推理任务GSM8K上,CJ-GRPO + Semi-AR方法在128生成长度、64步设置下达到77.48%性能,在256长度、128步时提升至84.29%[18] - 在规划任务Sudoku上,CJ-GRPO + EOSER方法在128生成长度、32步设置下达到85.25%性能,显著优于基线方法[18] - 在Countdown任务上,CJ-GRPO + EOSER + ASS方法在仅使用log(L)步数情况下,256生成长度时达到59.38%性能[19] - 实验显示规划任务适合并行推理,数学问题更适合顺序推理,装配并行解码的MDLM在规划类任务中表现更佳[23][25] 技术应用前景 - 该方法实现了用更少步数、更快地完成复杂推理任务,推动扩散语言模型的全扩散式解码、少步数解码和强化学习算法发展[21] - 在仅使用log(L)步数情况下,EOSER + ASS性能仍优于分块解码和全扩散式解码策略,真正实现“又快又好”的推理效果[24] - 未来可探索混合推理模式,结合扩散与自回归优势,适应多样化任务需求[26]
从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思
机器之心· 2025-10-16 02:20
文章核心观点 - 西湖大学MAPLE实验室开发了具备“再掩码”能力的扩散语言模型RemeDi 9B,该模型能在文本生成过程中识别并修正错误,从而提升生成质量 [2] - RemeDi模型通过双流协同结构为每个token输出置信度分数,实现对不确定内容的动态再掩码,超越了现有扩散语言模型的性能 [2][5][8] - 模型具备可变长生成能力,通过分块自回归生成打破了现有模型仅支持定长生成的限制 [2][9] 技术原理与创新 - 采用TPS(Token Prediction Stream)和UPS(Unmasking Policy Stream)双流结构,TPS负责预测token分布,UPS输出每个位置的置信度分数 [8][10] - 置信度分数用于决定token是否需要被再掩码,得分低的位置会被重新掩码以便后续依据更丰富上下文重写 [8][10] - 通过分块自回归生成实现可变长生成,每次生成L=32的序列块,采用分块因果注意力掩码机制 [9] 训练方法 - 采用两阶段训练策略:Remask SFT(监督微调)和Remask RL(强化学习) [12][13][17] - Remask SFT阶段同时训练模型从掩码token恢复文本和识别需要再掩码的不正确token的能力 [13] - Remask RL阶段基于Plackett-Luce模型构造解掩码策略,优化整个生成轨迹以提升生成正确答案的概率 [17][18][19] 性能表现 - 在GSM8K数学推理任务上,Remask SFT将性能从80.3提升至83.6,Remask RL进一步提升 [11][22] - 在MATH-500任务上,从基线34.7提升至Remask SFT的42.7 [11] - 在代码生成任务HumanEval上,从41.5提升至50.0 [11] - 在通用基准Hellaswag和ARC-C上,RemeDi(+Remask RL)分别达到72.2和87.7,超过其他扩散模型 [24] - 在IFEval和AlpacaEval基准上,RemeDi(+Remask RL)达到85.4和24.8,显著优于LLaDA 1.5的73.5和13.9 [24]
推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
机器之心· 2025-10-13 09:24
技术突破与性能表现 - 蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer,在基准测试中将dLLM推理速度相比Fast-dLLM提升10倍以上[2] - dInfer在关键的单批次推理场景下,作为首个开源框架实现大幅超越高度优化的自回归模型的性能里程碑,在HumanEval上达到1011 tokens/秒的吞吐量[2] - 在与Fast-dLLM对比中,dInfer平均推理速度实现10.7倍提升(681 TPS vs 63.6 TPS),与AR模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[29] 技术挑战与解决方案 - 传统自回归生成范式存在固有瓶颈,生成过程依赖前序结果,必须逐词串行生成,导致推理延时难以降低[6] - dLLM高效推理面临三大核心挑战:高昂的多步迭代计算成本、KV缓存技术因双向注意力机制失效、并行解码易引发语义错配[7][12] - dInfer通过四大核心模块(模型接入、KV缓存管理器、扩散迭代管理器、解码策略)集成针对性解决方案,采用模块化与可扩展性设计[9][11][13] 核心优化技术细节 - 采用邻近KV缓存刷新策略,基于语义局部性原理选择性重新计算区块及邻近区域KV,在计算开销和生成质量间取得平衡[15][16][17] - 进行系统优化,包括多卡并行(效率提升超100%)、编译优化(效率提升200%)、循环展开消除迭代间气泡(性能提升5-10%)、早停机制(减少5-40%不必要开销)[18][19] - 提出层级解码与信用解码算法,层级解码以近似对数级复杂度完成多点并行生成,信用解码通过累积信用机制避免冗余计算[18][19] - 引入迭代平滑算法,回收未解码位置信息,使单次迭代解码token数量平均提升30-40%[18][20] 行业影响与生态建设 - dInfer标志着扩散语言模型从理论可行迈向实践高效的关键一步,为开发者提供即刻可用的高效推理框架[3][26] - 该框架支持多种扩散语言模型,并率先支持基于轨迹蒸馏加速去噪过程的LLaDA-MoE-TD模型,推理性能更强[9][20] - 公司希望dInfer成为研究者的标准平台和开发者的加速引擎,邀请全球开发者共建下一代AI推理新生态[28][30]
推理性能提升10倍 蚂蚁集团开源高性能扩散语言模型推理框架dInfer
环球网· 2025-10-13 09:03
公司技术发布 - 蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer [1] - dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架,可支持LLaDA、LLaDA-MoE等多种模型 [2] - 该框架包含模型接入、KV缓存管理器、扩散迭代管理器和解码策略四大核心可插拔模块 [2] 技术性能表现 - 在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍,平均推理速度达到681 TPS,而Fast-dLLM为63.6 TPS [1][4] - 在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011 Tokens/秒的速度 [1][4] - 与在vLLM上运行的AR模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681 TPS vs 277 TPS) [5] 技术优势与意义 - 此次开源标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [5] - dInfer的工作表明扩散语言模型具备显著的效率潜力,为通往AGI的架构路径提供极具竞争力的选项 [1] - 扩散语言模型具有高度并行、全局视野、结构灵活三大优势,以LLaDA-MoE为代表的模型已在多个基准测试中展现出与顶尖自回归模型相媲美的准确性 [1]
首次超越自回归模型!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
新浪科技· 2025-10-13 09:00
技术性能突破 - 公司开源业界首个高性能扩散语言模型推理框架dInfer [1] - 在基准测试中,dInfer将扩散语言模型的推理速度相比Fast-dLLM提升10.7倍(平均推理速度达681 TPS vs 63.6 TPS)[1] - 在代码生成任务HumanEval上,dInfer在单批次推理中速度达1011 Tokens/秒,首次在开源社区实现扩散语言模型单批次推理速度超越自回归模型 [1] 行业比较优势 - 在配备8块NVIDIA H800 GPU的节点上,dInfer与参数量和性能相当的自回归模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[1] - 该工作表明扩散语言模型具备显著效率潜力,可通过系统性创新工程兑现,为AGI架构路径提供极具竞争力的选项 [1] 战略意义与行业影响 - dInfer连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [2] - 公司开源此框架旨在邀请全球开发者与研究者共同探索扩散语言模型潜能,构建更高效、开放的AI新生态 [2]