Workflow
华为全面揭秘超大规模MoE模型昇腾推理部署技术,国产芯片推理性能再创新高
雷峰网·2025-05-19 12:14

行业趋势:大模型发展的重点转向推理部署 - 人工智能行业的发展重点正从模型训练开发转向推理支撑的应用落地[2] - 推理场景被视为大模型认知能力的试金石和商业化落地的核心能力[2] - 在推理为王的时代,提升推理部署计算效率是获得大模型商业成功的关键[2] 技术挑战:超大MoE模型部署面临多重难题 - DeepSeek V3作为拥有6710亿参数的混合专家架构模型,代表了软硬件协同优化的新趋势[6] - 部署完整版超大MoE模型需要硬件集群支持,不再是单机多卡或单机单卡可以运行[6] - 庞大的专家数量对硬件内存使用效率提出挑战,需要合理的分布式并行和通信策略设计[7] - 模型架构创新如多头隐式注意力机制带来了中间变量膨胀和向量计算占比增加的挑战[7] 技术优化:数学补物理提升计算效率 - 华为技术团队创造性应用数学补物理思想,通过等价数学变换提升计算效率[3][4] - 优化技术包括从点到面的推理框架侧优化、FlashComm通算优化技术、通算极致掩盖技术等[4] - 采用以加法代乘法的昇腾MLA最优实现和硬件感知亲和的大量创新算子[4] 部署方案:针对不同硬件配置的优化策略 - 针对CloudMatrix 384超节点采用大规模EP并行部署,Prefill使用16卡,Decode使用144卡[12] - 在保证50ms时延下,单卡decode吞吐达到1920 token/s[12] - 针对Atlas 800I A2服务器采用多机互联方式,使用2机16卡作为prefill示例,4机32卡作为decode示例[13] - 在100ms时延下实现单卡吞吐速度808 tokens/s[13] 核心技术创新 - 推理框架侧优化技术包括API Server扩展技术和高效的负载均衡策略[14][15] - FlashComm通信优化技术通过低比特和低维度数据通信降低通信数据量和时延[16] - 层内并行转换技术优化Prefill阶段网络MLA层的并行策略,显著降低通信时延[17] - 利用昇腾芯片的多流机制实现计算通信并发,最大化推理模型性能[17][18] 算子优化技术 - MLA算子优化针对昇腾处理器架构特性进行算法重构和硬件亲和性能优化[21] - MoE算子优化提出MoeDistributeDispatch和MoeDistributeCombine通算融合算子技术[23] - SMTurbo-CPP技术解决大通信域场景下小数据传输效率低的问题[24] - 通过细粒度分级流水算法提升集群中集合通信算子的执行效率[26] 性能表现与生态建设 - 基于CloudMatrix 384超节点的DeepSeek-R1服务在保证单用户20 TPS前提下,单卡Decode吞吐突破1920 Tokens/s[27] - 昇腾算力部署的DeepSeek-R1模型精度与官方保持一致[27] - 华为将通过技术报告和代码开源全面披露技术细节,构建开放共赢的开发者生态[5][28] - 相关核心技术代码将在不到一个月后陆续开源,体现公司坚定建设开放生态的决心[5]