MoE )

搜索文档
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
雷峰网· 2025-05-28 12:06
核心观点 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家负载不均衡问题,实现跨设备计算负载均衡 [2] - 基于MoGE架构的盘古Pro MoE大模型(72B总参数/16B激活参数)在昇腾硬件上实现高效训练,推理速度达321 tokens/s(300I Duo)和1528 tokens/s(800I A2) [2][21] - 模型在SuperCLUE榜单以59分位列千亿参数以下国内第一,16B激活参数性能媲美更大规模模型 [3][4] 技术架构创新 - **分组均衡路由**:将专家划分为M个不重叠组,每组独立Top-K路由,确保跨设备负载均匀分布(如64专家分8组,每组Top-2激活) [14][17] - **均衡辅助损失**:采用Batch级辅助损失函数控制专家权重分配,超参数α调节强度 [18] - **昇腾亲和设计**:通过分层仿真策略(粗粒度筛选→候选集缩减→算子级仿真)优化300I Duo/800I A2硬件适配 [19] 性能表现 - **推理效率**: - 300I Duo平台单卡吞吐201 tokens/s,经MTP解码优化后提升至321 tokens/s - 800I A2平台高并发下单卡吞吐1148 tokens/s,优化后达1528 tokens/s [21] - **负载均衡性**:专家token处理占比稳定在12.5%(理论值),显著优于DeepSeek-V2的30%集中现象 [28] - **基准测试**: - 英语任务MMLU-Pro得分63.5(5-shot),超GLM4-Z1-32B(55.8)和Gemma3-27B(50.3) - 中文任务C-Eval达90.6(5-shot),代码生成HumanEval Pass@1达63.7 [26][27] 行业价值 - 推动大模型从参数竞赛转向实效主义,通过动态负载均衡降低云端推理成本,支持高并发实时场景 [29] - 轻量化推理引擎适配昇腾芯片,赋能百亿级模型工业化部署,开辟AI产业应用新蓝海 [29][31] - 华为OmniPlacement技术实现MoE专家动态部署,提升昇腾推理系统吞吐10% [30][32]