分组混合专家模型（Mixture of Grouped Experts

搜索文档

华为盘古大模型首次开源！昇腾单卡秒输出1148tokens，16B激活参数不输32B密集模型

量子位· 2025-07-02 09:33

华为盘古大模型开源 - 华为首次开源盘古大模型，模型名为盘古Pro MoE，参数量72B，激活参数量16B，中英文理解和推理能力不输32B密集模型 [1] - 模型提出全新MoE架构，针对昇腾芯片优化，在昇腾800I A2上实现单卡1148 tokens每秒推理吞吐性能 [2] - 中英文技术报告已发布，相关话题在微博引发热议，模型权重被第三方搬运至Hugging Face [4][6] 模型性能表现 - 盘古Pro MoE总参数量72B，包含64个路由专家和4个共享专家，激活参数量16B占比22.2% [8] - 在中文、英文、数学、代码等测试中表现与32B密集模型相当 [9] - 英文MMLU-PRO测试得分82.6，超越Qwen3-32B、Gemma3-27B等密集模型 [10] - 中文C-Eval测试得分91.1，超越Qwen3-32B的89.2分 [12] - 数学推理MATH-500测试得分96.8，超越Qwen3-32B的96.6分 [14] - W8A8量化配置下精度几乎无损失，W4A8量化精度损失在可接受范围内 [14][15] 模型架构创新 - 采用独创的分组混合专家模型(MoGE)架构，实现跨设备计算负载均衡 [22] - 通过专家分组和分组均衡路由策略强制每个token从各组选择相同数量专家 [24][31] - 引入均衡辅助损失确保路由模块合理调节专家负载 [27] - 架构与昇腾NPU分布式部署形成有效协同 [28] 训推设施优化 - 训练层面优化包括分层EP All-to-All通信、自适应流水掩盖机制和内存优化策略 [30] - 推理层面采用分层混合并行策略，稀疏专家模块占95%，注意力模块仅占5% [33] - 通过专家感知后训练量化和KV缓存量化实现高效推理 [37][38] - 提出融合注意力算子MulAttention实现4.5倍端到端注意力加速 [39] - 开发SwiftGMM加速技术，MTE2利用率最高达95% [41][42] 推理效率 - 双卡部署W8A8量化配置下，Prefill阶段单卡输入吞吐达4828 tokens/秒，比72B和32B密集模型提升203%和42% [17][18] - 4卡部署W8A8量化配置下，Decoder阶段单卡输出吞吐达1148 tokens/秒，比72B和32B密集模型高出97%和18% [19][20]

MoGE）

Artificial Intelligence

盘古Pro MoE

分组混合专家模型（Mixture of Grouped Experts

MoGE）

Artificial Intelligence

盘古Pro MoE

华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

雷峰网· 2025-05-28 12:06

核心观点 - 华为盘古团队提出分组混合专家模型（MoGE），通过分组机制解决传统MoE专家负载不均衡问题，实现跨设备计算负载均衡 [2] - 基于MoGE架构的盘古Pro MoE大模型（72B总参数/16B激活参数）在昇腾硬件上实现高效训练，推理速度达321 tokens/s（300I Duo）和1528 tokens/s（800I A2） [2][21] - 模型在SuperCLUE榜单以59分位列千亿参数以下国内第一，16B激活参数性能媲美更大规模模型 [3][4] 技术架构创新 - **分组均衡路由**：将专家划分为M个不重叠组，每组独立Top-K路由，确保跨设备负载均匀分布（如64专家分8组，每组Top-2激活） [14][17] - **均衡辅助损失**：采用Batch级辅助损失函数控制专家权重分配，超参数α调节强度 [18] - **昇腾亲和设计**：通过分层仿真策略（粗粒度筛选→候选集缩减→算子级仿真）优化300I Duo/800I A2硬件适配 [19] 性能表现 - **推理效率**： - 300I Duo平台单卡吞吐201 tokens/s，经MTP解码优化后提升至321 tokens/s - 800I A2平台高并发下单卡吞吐1148 tokens/s，优化后达1528 tokens/s [21] - **负载均衡性**：专家token处理占比稳定在12.5%（理论值），显著优于DeepSeek-V2的30%集中现象 [28] - **基准测试**： - 英语任务MMLU-Pro得分63.5（5-shot），超GLM4-Z1-32B（55.8）和Gemma3-27B（50.3） - 中文任务C-Eval达90.6（5-shot），代码生成HumanEval Pass@1达63.7 [26][27] 行业价值 - 推动大模型从参数竞赛转向实效主义，通过动态负载均衡降低云端推理成本，支持高并发实时场景 [29] - 轻量化推理引擎适配昇腾芯片，赋能百亿级模型工业化部署，开辟AI产业应用新蓝海 [29][31] - 华为OmniPlacement技术实现MoE专家动态部署，提升昇腾推理系统吞吐10% [30][32]

混合专家模型（Mixture of Experts

MoE ）

分组混合专家模型（Mixture of Grouped Experts

MoGE ）

Artificial Intelligence

盘古Pro MoE

混合专家模型（Mixture of Experts

MoE ）

分组混合专家模型（Mixture of Grouped Experts

MoGE ）

Artificial Intelligence

盘古Pro MoE