扩散语言模型

搜索文档
扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
机器之心· 2025-09-12 11:31
模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE,使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B,推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制,突破自回归模型单向建模限制,支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率,在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架,支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上,支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分,在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分,MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分,优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布,突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性,支持局部片段重新采样修正,适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力,非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖,探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码,推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索,以AGI为北极星指标[46][47]
蚂蚁联手人大,发布MoE扩散模型
华尔街见闻· 2025-09-12 06:02
核心观点 - 蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型LLaDA-MoE 在约20T数据上完成训练 性能接近或超越自回归模型Qwen2.5-3B-Instruct 并具备数倍推理速度优势 模型将完全开源 [1][2][3] 技术突破 - 采用非自回归掩码扩散机制 首次通过原生MoE架构实现与Qwen2.5相当的语言智能(上下文学习/指令遵循/代码数学推理) 挑战自回归生成范式的主流认知 [1][2] - 基于7B-A1B的MoE架构 仅激活1.4B参数即可实现等效3B稠密模型性能 在代码/数学/Agent等任务领先LLaDA1.0/1.5和Dream-7B [1][3] - 攻克负载均衡与噪声采样漂移难题 依托自研分布式框架ATorch的EP并行技术 实现工业级大规模训练的扩展性和稳定性 [2] 性能表现 - 在17项基准测试(HumanEval/MBPP/GSM8K/MATH等)平均提升8.4% 领先LLaDA-1.5达13.2% 与Qwen2.5-3B-Instruct持平 [3] - 验证"MoE放大器"定律在dLLM领域成立 为10B–100B稀疏模型提供可行路径 [3] 开源与生态 - 将完全开源模型权重及自研推理框架 深度优化dLLM并行特性 相比NVIDIA官方fast-dLLM实现显著加速 [2][3] - 相关代码与技术报告将于GitHub及Hugging Face社区同步发布 [3] 战略方向 - 公司将持续投入基于dLLM的AGI领域 联合学界与全球AI社区推动AGI新突破 [3] - 强调扩散模型可成为通向AGI的主干道 突破自回归范式的局限性 [2][3]
蚂蚁、中国人民大学发布行业首个原生MoE扩散语言模型
第一财经· 2025-09-12 03:08
技术研发突破 - 公司与中国人民大学联合研发原生MoE架构扩散语言模型LLaDA-MoE [1] - 模型在约20T数据上完成从零训练的MoE架构扩散语言模型开发 [1] - 验证工业级大规模训练的扩展性和稳定性 [1] 开源计划 - 该模型将在近期完全开源 [1]
阿里巴巴发布最强语言模型挑战者:扩散模型能否颠覆ChatGP
搜狐财经· 2025-08-20 02:41
技术原理 - 扩散语言模型采用非自回归生成方式,通过加噪和去噪两阶段处理文本,类似画家先勾勒轮廓再添加细节[2][3] - 该模型具备高度并行性,可同时处理多个位置词汇,相比传统逐词生成模型实现数倍速度提升[3] - 训练过程采用填空式策略,随机遮盖词汇让模型推断被遮盖内容,增强对双向关系的理解[4] 性能表现 - LLaDA-8B模型在多个标准测试中表现接近或超越同等规模LLaMA3-8B模型,显示性能已达传统模型水平[4] - Mercury系列模型实现每秒数千词汇生成速度,显著提升实时对话和大规模文本生成效率[7] - Gemini Diffusion模型在基准测试中展现与GPT-4相当的性能表现[7] 发展历程 - 技术演进从2021年D3PM模型起步,经历连续空间到离散空间的转化过程[3] - 早期Diffusion-LM将文字转换为连续数字表示进行处理,后期DiffusionBERT和LLaDA系列实现直接文字空间操作[4] - 训练策略创新性采用从自回归模型适应方法,可利用现有大型语言模型快速训练扩散模型[5] 应用领域 - 在代码生成任务中展现优势,能同时处理程序不同部分的复杂依赖关系[6] - 数学推理和文档摘要领域表现优秀,特别适合需要全局规划的结构化输出任务[6] - 多模态应用具有天然优势,MMaDA模型可同步处理文本理解、生成及图像生成任务[5] 技术挑战 - 面临并行生成诅咒问题,同时生成词汇时可能忽略依赖关系导致文本连贯性下降[6] - 基础设施支持不足,现有开发工具和部署平台主要针对自回归模型设计[6] - 长文本生成能力存在限制,处理超长文档时仍面临技术瓶颈[7] 发展方向 - 重点提升训练效率,解决当前扩散模型训练过程中的效率问题[7] - 开发更先进推理算法,进一步缩小与传统模型在生成质量上的差距[7] - 优化长文本处理能力,突破现有模型在长文档生成方面的限制[7]
Meta没做的,英伟达做了,全新架构吞吐量狂飙6倍,20万亿Token训练
36氪· 2025-08-19 02:33
产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构 在数学 代码 推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破 用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层 在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别 支持百万级token上下文[10][15] - 模型训练包含三个阶段 首先在20万亿token数据集上预训练120亿参数基础模型 再结合SFT DPO GRPO RLHF等多阶段对齐方法 最后通过Minitron策略进行结构化剪枝与知识蒸馏 将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率 在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型:对齐并剪枝的9B推理模型 经过剪枝的9B基础模型 以及未剪枝的12B基础模型 均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集 包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集(1330亿token) Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集 展示高质量问答数据 数学抽取内容 代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息 擅长长上下文建模但记忆复制能力不足 而Transformer存在O(n²)计算瓶颈 混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]
字节跳动Seed团队发布扩散语言模型,每秒推理速度2146 tokens
快讯· 2025-07-31 12:35
技术发布 - 公司于7月31日发布实验性扩散语言模型Seed Diffusion Preview [1] - 模型以结构化代码生成为实验领域 系统性验证离散扩散技术路线作为下一代语言模型基础框架的可行性 [1] 性能表现 - 代码推理速度达到2146 tokens/s [1] - 速度相比同等规模自回归模型提升5.4倍 [1]