华为昇腾芯片技术演进 - 昇腾芯片持续演进 为中国及全球AI算力提供基础 未来3年规划三个系列芯片 包括Ascend 950/960/970系列 [2][3] - Ascend 950系列即将推出 包含两颗芯片:950PR面向推理Prefill和推荐场景 950DT面向推理Decode和训练场景 [3][4] - 相比前代Ascend 910C Ascend 950实现根本性提升:新增支持FP8/MXFP8/MXFP4等低精度格式 FP8算力达1 PFLOPS FP4算力达2 PFLOPS 互联带宽提升2.5倍至2TB/s [3][4][5] - 采用自研HBM技术:950PR采用HiBL 1.0 HBM 降低成本 950DT采用HiZQ 2.0 HBM 内存容量达144GB 带宽达4TB/s [4][5] - Ascend 960规划于2027Q4推出 各项规格相比950翻倍 FP8算力达2 PFLOPS FP4算力达4 PFLOPS 支持HiF4格式 [6][7] - Ascend 970规划于2028Q4推出 相比960 FP8算力翻倍至4 PFLOPS FP4算力翻倍至8 PFLOPS 互联带宽翻倍至4TB/s 内存带宽提升1.5倍 [7] 超节点产品布局 - Atlas 900超节点已部署300多套 满配384颗Ascend 910C芯片 算力达300 PFLOPS 服务20多个客户 [8] - 新发布Atlas 950超节点 基于Ascend 950DT 支持8192张卡 是Atlas 900规模的20多倍 FP8算力达8 EFLOPS FP4算力达16 EFLOPS 互联带宽达16PB/s 超全球互联网峰值带宽10倍 2026Q4上市 [9][10] - 相比英伟达NVL144 Atlas 950卡规模是其56.8倍 总算力是其6.7倍 内存容量达1152TB是其15倍 互联带宽达16.3PB/s是其62倍 [10] - Atlas 950超节点训练性能提升17倍达4.91M TPS 推理性能提升26.5倍达19.6M TPS [10][11] - Atlas 960超节点规划于2027Q4 基于Ascend 960 支持15488卡 FP8总算力达30 EFLOPS FP4总算力达60 EFLOPS 内存容量达4460TB 互联带宽达34PB/s 训练和推理性能相比950提升3倍和4倍以上 [11] 集群解决方案 - Atlas 950 SuperCluster集群由64个Atlas 950超节点组成 集成52万多片昇腾950DT卡 FP8总算力达524 EFLOPS 2026Q4上市 [19] - 相比xAI Colossus集群 华为集群规模是其2.5倍 算力是其1.3倍 [20] - Atlas 960 SuperCluster规划于2027Q4 规模达百万卡级 FP8总算力达2 ZFLOPS FP4总算力达4 ZFLOPS [20] - 集群支持UBoE和RoCE协议 UBoE相比RoCE静态时延更低 可靠性更高 节省交换机和光模块数量 [20] 通用计算超节点 - 鲲鹏处理器围绕超节点方向演进 2026Q1推出Kunpeng 950处理器 两个版本:96核/192线程和192核/384线程 支持通用计算超节点 新增四层隔离安全特性 [12] - 发布TaiShan 950通用计算超节点 基于Kunpeng 950 最大支持16节点32个处理器 内存48TB 支持内存/SSD/DPU池化 2026Q1上市 [14] - TaiShan 950助力金融系统替代大型机/小型机 结合GaussDB多写架构无需分布式改造 性能提升2.9倍 [14][15] - 在虚拟化环境内存利用率提升20% Spark大数据场景实时处理时间缩短30% [15] - 支持构建混合超节点 结合TaiShan 950和Atlas 950 为生成式推荐系统提供PB级共享内存池和超低时延推理能力 [15] 互联技术创新 - 华为开创超节点互联协议"灵衢"(UB) 灵衢1.0已用于Atlas 900超节点 灵衢2.0用于Atlas 950超节点 将开放给产业界共建生态 [17][18][19] - 解决长距离高可靠互联问题 光互联可靠性提升100倍 距离超200米 [16][17] - 解决大带宽低时延问题 实现TB级带宽和2.1微秒时延 [16][17] - 万卡超节点架构具备六大特征:总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性 [17]
华为披露芯片路线图,详情披露
半导体芯闻·2025-09-18 10:40