昇腾950全解全新自研HBM

涉及的行业与公司 * 行业：人工智能芯片、高带宽内存、半导体制造与封装 * 公司：华为、英伟达核心观点与论据 * 华为昇腾950系列芯片规划 * 华为昇腾950系列芯片计划于2026年推出，支持中低端精度，分为950PR和950DT两个版本，分别对标HBM2~2E和HBM3水平[1] * 950采用两个计算带和两个IO带通过Crossbar L连接的结构，与由两个910B拼接的910C结构不同[2] * 950在FP8精度下算力约为1,000 TFLOPS，高于920C的FP16算力（约800 TFLOPS），但整体算力仍不及920C[2] * 华为未来芯片发展方向 * 未来发展方向是提升互联带宽和内存容量以增强整体性能[1] * 后续产品960将达到9.6TB/s的内存带宽，与英伟达B200相当[1][4] * 通过增加IO面积来提高互联带宽，但受限于国内制程技术，其增长速度可能放缓[1][4] * 华为自研IO单元与连接能力 * 自研IO单元具备较强连接能力，NPU IO能力达到72路UB（每路UB约30GB/s）[1][5] * 拥有低基数交换机LIS（72路UB）和高维度交换机HRS（512路UB），通过拼接可形成更大面积的交换芯片[1][5] * LIS由两个IO带拼接而成，总面积约400平方毫米以上[5] * 华为自研HBM技术路线 * 第一代自研HBM代号“白鹭”，计划2026年上半年推出，采用8个堆叠，每个堆叠16GB容量和204GB/s带宽，对标HBM2到HBM2E[3][10] * 第二代自研HBM代号“朱雀”，计划2026年下半年推出，将搭配950DT使用，可能采用6、8或12个堆叠，每个堆叠24GB容量和683GB/s带宽，对标HBM3[3][10] * 选择定制化HMC而非标准化HBM的原因 * 增强供应链自主可控，避免对海外高端HBM的依赖[11][13] * 有利于功耗管理，将HMC放置在离计算带稍远的位置以降低热量对存储单元的影响[11][13] * 成本控制，HMC通过ABF载板连接的成本低于需要通过中介层互联的HBM[11][13] * 国产芯片与英伟达的差距与竞争态势 * 在算力方面，预计到2028年的华为970芯片才能与英伟达B200持平[1][7][8] * 英伟达Ruby系列芯片因制程优势明显，国产芯片难以快速追赶[1][8] * 若英伟达H200进入国内市场，国产算力芯片在单芯片性能上难以直接竞争，可能需要两到三年时间通过新产品迭代追赶[9] * 超级点架构可能是国产芯片与H200抗衡的重要手段，该架构将显著增加对交换机芯片的需求[1][9] * 国产GPU及配套产业链发展趋势 * 预计2026年将是国产GPU出货量大增的一年[3][14] * 以华为950为例，每颗芯片搭配8个自研HBM，若其出货量达到100万颗，则需800万颗以上的HBM[14] * 国产HBM的放量将显著受益封装材料、焊球、电镀液等相关产业链，并增加用于封装后的APO载板需求[3][14] * 2026年可能是国产HBM放量元年[14] 其他重要内容 * 华为芯片产能消耗估算 * 一个计算带面积约400平方毫米，一个HBM模块超过150平方毫米，一个IO模块约100多平方毫米[6] * 结合良率估算，一片晶圆可切出18颗NPU代、17颗I/O代、9个HRS以及70颗CPU[6] * HBM与HMC的技术差异 * 核心架构：HBM通过中介层实现高密度集成，HMC可放置在离CPU/GPU较远的位置通过线路连接[12] * 性能：HBM具有极高带宽和低时延，HMC因物理距离远导致延迟略高[12] * 功耗与集成度：HBM功耗较低且结构紧凑，HMC相对功耗密度较弱[12] * 成本：HBM因需要中介层互联而成本更高；HMC通过ABF载板连接成本更低，但线宽线距要求更高[12]