Workflow
分组混合专家模型(Mixture of Grouped Experts
icon
搜索文档
华为盘古大模型首次开源!昇腾单卡秒输出1148tokens,16B激活参数不输32B密集模型
量子位· 2025-07-02 09:33
华为盘古大模型开源 - 华为首次开源盘古大模型,模型名为盘古Pro MoE,参数量72B,激活参数量16B,中英文理解和推理能力不输32B密集模型 [1] - 模型提出全新MoE架构,针对昇腾芯片优化,在昇腾800I A2上实现单卡1148 tokens每秒推理吞吐性能 [2] - 中英文技术报告已发布,相关话题在微博引发热议,模型权重被第三方搬运至Hugging Face [4][6] 模型性能表现 - 盘古Pro MoE总参数量72B,包含64个路由专家和4个共享专家,激活参数量16B占比22.2% [8] - 在中文、英文、数学、代码等测试中表现与32B密集模型相当 [9] - 英文MMLU-PRO测试得分82.6,超越Qwen3-32B、Gemma3-27B等密集模型 [10] - 中文C-Eval测试得分91.1,超越Qwen3-32B的89.2分 [12] - 数学推理MATH-500测试得分96.8,超越Qwen3-32B的96.6分 [14] - W8A8量化配置下精度几乎无损失,W4A8量化精度损失在可接受范围内 [14][15] 模型架构创新 - 采用独创的分组混合专家模型(MoGE)架构,实现跨设备计算负载均衡 [22] - 通过专家分组和分组均衡路由策略强制每个token从各组选择相同数量专家 [24][31] - 引入均衡辅助损失确保路由模块合理调节专家负载 [27] - 架构与昇腾NPU分布式部署形成有效协同 [28] 训推设施优化 - 训练层面优化包括分层EP All-to-All通信、自适应流水掩盖机制和内存优化策略 [30] - 推理层面采用分层混合并行策略,稀疏专家模块占95%,注意力模块仅占5% [33] - 通过专家感知后训练量化和KV缓存量化实现高效推理 [37][38] - 提出融合注意力算子MulAttention实现4.5倍端到端注意力加速 [39] - 开发SwiftGMM加速技术,MTE2利用率最高达95% [41][42] 推理效率 - 双卡部署W8A8量化配置下,Prefill阶段单卡输入吞吐达4828 tokens/秒,比72B和32B密集模型提升203%和42% [17][18] - 4卡部署W8A8量化配置下,Decoder阶段单卡输出吞吐达1148 tokens/秒,比72B和32B密集模型高出97%和18% [19][20]
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
雷峰网· 2025-05-28 12:06
核心观点 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家负载不均衡问题,实现跨设备计算负载均衡 [2] - 基于MoGE架构的盘古Pro MoE大模型(72B总参数/16B激活参数)在昇腾硬件上实现高效训练,推理速度达321 tokens/s(300I Duo)和1528 tokens/s(800I A2) [2][21] - 模型在SuperCLUE榜单以59分位列千亿参数以下国内第一,16B激活参数性能媲美更大规模模型 [3][4] 技术架构创新 - **分组均衡路由**:将专家划分为M个不重叠组,每组独立Top-K路由,确保跨设备负载均匀分布(如64专家分8组,每组Top-2激活) [14][17] - **均衡辅助损失**:采用Batch级辅助损失函数控制专家权重分配,超参数α调节强度 [18] - **昇腾亲和设计**:通过分层仿真策略(粗粒度筛选→候选集缩减→算子级仿真)优化300I Duo/800I A2硬件适配 [19] 性能表现 - **推理效率**: - 300I Duo平台单卡吞吐201 tokens/s,经MTP解码优化后提升至321 tokens/s - 800I A2平台高并发下单卡吞吐1148 tokens/s,优化后达1528 tokens/s [21] - **负载均衡性**:专家token处理占比稳定在12.5%(理论值),显著优于DeepSeek-V2的30%集中现象 [28] - **基准测试**: - 英语任务MMLU-Pro得分63.5(5-shot),超GLM4-Z1-32B(55.8)和Gemma3-27B(50.3) - 中文任务C-Eval达90.6(5-shot),代码生成HumanEval Pass@1达63.7 [26][27] 行业价值 - 推动大模型从参数竞赛转向实效主义,通过动态负载均衡降低云端推理成本,支持高并发实时场景 [29] - 轻量化推理引擎适配昇腾芯片,赋能百亿级模型工业化部署,开辟AI产业应用新蓝海 [29][31] - 华为OmniPlacement技术实现MoE专家动态部署,提升昇腾推理系统吞吐10% [30][32]