Workflow
蚂蚁联手人大,发布MoE扩散模型
华尔街见闻·2025-09-12 06:02

核心观点 - 蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型LLaDA-MoE 在约20T数据上完成训练 性能接近或超越自回归模型Qwen2.5-3B-Instruct 并具备数倍推理速度优势 模型将完全开源 [1][2][3] 技术突破 - 采用非自回归掩码扩散机制 首次通过原生MoE架构实现与Qwen2.5相当的语言智能(上下文学习/指令遵循/代码数学推理) 挑战自回归生成范式的主流认知 [1][2] - 基于7B-A1B的MoE架构 仅激活1.4B参数即可实现等效3B稠密模型性能 在代码/数学/Agent等任务领先LLaDA1.0/1.5和Dream-7B [1][3] - 攻克负载均衡与噪声采样漂移难题 依托自研分布式框架ATorch的EP并行技术 实现工业级大规模训练的扩展性和稳定性 [2] 性能表现 - 在17项基准测试(HumanEval/MBPP/GSM8K/MATH等)平均提升8.4% 领先LLaDA-1.5达13.2% 与Qwen2.5-3B-Instruct持平 [3] - 验证"MoE放大器"定律在dLLM领域成立 为10B–100B稀疏模型提供可行路径 [3] 开源与生态 - 将完全开源模型权重及自研推理框架 深度优化dLLM并行特性 相比NVIDIA官方fast-dLLM实现显著加速 [2][3] - 相关代码与技术报告将于GitHub及Hugging Face社区同步发布 [3] 战略方向 - 公司将持续投入基于dLLM的AGI领域 联合学界与全球AI社区推动AGI新突破 [3] - 强调扩散模型可成为通向AGI的主干道 突破自回归范式的局限性 [2][3]