AMLA
搜索文档
华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源
机器之心· 2025-11-28 04:11
行业趋势:大模型竞争焦点转向推理效率 - 大模型竞争焦点从训练规模与能力突破转向推理效率,推理效率成为影响模型能否落地的关键变量[2] - 推理环节比拼的是以低成本、低延迟将模型稳定运行起来的能力,尤其对于超大规模MoE模型而言[3] - 推理成本是否可控决定了大模型的可用性,并直接影响其能否高效进入业务场景[3] 超大规模MoE模型推理面临的挑战 - 超大规模MoE模型推理面临计算、通信、访存和并行策略等最优策略选择的挑战[3] - 在高度耦合的推理链路中,调度或资源分配上的微小偏差可能被放大为延迟上升、吞吐下降[3] - 大EP部署下MoE模型推理体系异常复杂,每个环节都可能成为大规模部署中的瓶颈[3] 华为昇腾技术栈解决方案概述 - 华为推出面向准万亿参数MoE推理的完整技术栈,包括openPangu-Ultra-MoE-718B-V1.1模型和昇腾亲和加速技术[2] - 该技术栈使超大规模MoE模型具备了走向生产级部署的现实可行性[2] - 解决方案涵盖框架层面、调度层面到算子层面的系统性优化[10] 模型核心参数与能力 - openPangu-Ultra-MoE-718B-V1.1总参数为718B,激活参数量为39B[4] - 该模型基于昇腾硬件训练,提升了Agent工具调用和其他综合能力[4] - 模型的量化版本openPangu-Ultra-MoE-718B-V1.1-Int8已在昇腾硬件上构建完整推理路径[4] 框架层面优化:Omni-Infer与Omni Proxy - Omni-Infer为vLLM、SGLang等主流开源推理框架提供昇腾亲和加速库[11] - Global Proxy在Omni-Infer V0.3.0中带来超过10%的推理性能提升[11] - Omni Proxy作为第二代请求调度特性,基于Nginx打造,解决传统调度器在大模型推理场景下的局限性[13] Omni Proxy五大创新技术 - 将推理请求拆解为10个细粒度生命周期阶段,实现基于全链路性能数据的精确请求级调度[17] - 提供sequential和parallel两种模式,适配vLLM与SGLang在P/D分离场景下的不同KV Cache传输方式[19] - 通过APC感知实现高效KV缓存复用与智能调度,减少重复计算与节点传输开销[22] - 在上游预先完成对话模板展开与tokenizer处理,在多机P/D分离场景下降低约30%的tokenizer开销[24] - 通过对请求按长度与等待时间加权排序,实现长短请求的动态平衡和节点精准匹配[26] 全栈推理加速体系 - 推理加速套件包含服务扩展、任务调度、专家管理到算子加速等组件[30] - Omni Placement通过Layer-wise与Uneven机制实现大规模专家的高效调度[31] - MTP提高多token并行生成能力,Fusion Operator通过算子融合减少冗余计算[31] 算子层面创新:AMLA技术突破 - AMLA将昇腾硬件算力利用率最高推至86%,在推理场景下绝无仅有[36] - AMLA采用"以加代乘"的高性能MLA算子,通过数学层面对计算逻辑进行解构[36] - 在昇腾硬件上跑出最高614 TFLOPS性能,算力利用率达到理论峰值的86.8%[45] - 远高于当前最好的开源FlashMLA(在NVIDIA H800 SXM5上算力利用率约66.7%)[45] 技术组合的商业价值 - 技术组合让准万亿参数MoE推理在成本、性能与稳定性之间找到可落地的平衡点[50] - 为超大规模MoE模型迈向商业可行性奠定了基础[50] - 模型能力与推理效率的双向提升让大模型加速走向产业化落地阶段[50]
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 11:47
大模型技术发展现状 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验,探索差异化技术路径 [1] - 虎嗅推出《华为技术披露集》系列,首次全面披露超大规模MoE模型推理部署技术细节,旨在推动昇腾生态发展 [1] 昇腾算子优化技术 - 算子是AI大模型的核心计算单元,华为开源三大硬件亲和算子技术(AMLA、融合算子、SMTurbo),实现效率与能效双重突破 [3][4][5] - AMLA通过数学重构将乘法转为加法运算,算力利用率提升至71%,优于FlashMLA公开结果 [7][9] - 融合算子优化实现硬件资源协同调度,通过并行度优化、冗余数据消除和数学重构,显著提升模型推理性能 [11][12] - SMTurbo技术实现384卡内存共享,跨卡访存延迟降至亚微秒级,访存吞吐提升20%以上 [14] 技术应用与未来方向 - AMLA技术将扩展至KVCache量化和全量化场景,进一步拓宽应用范围 [17] - 融合算子优化将探索更多模型架构适配,推动大语言模型在昇腾硬件的高效推理 [17] - SMTurbo将结合业务场景优化流水设计,在DeepSeek dispatch与combine场景中实现大BatchSize收益 [17] 行业影响与案例 - 华为与DeepSeek合作的技术方案在推理性能上表现优异,引发行业关注 [20][22] - 华为通过技术创新解决大模型推理效率瓶颈,推动行业突破"服务器繁忙"等体验问题 [22][23]