涉及的行业与公司 * 行业:人工智能芯片、高带宽内存、半导体制造与封装 * 公司:华为、英伟达 核心观点与论据 * 华为昇腾950系列芯片规划 * 华为昇腾950系列芯片计划于2026年推出,支持中低端精度,分为950PR和950DT两个版本,分别对标HBM2~2E和HBM3水平[1] * 950采用两个计算带和两个IO带通过Crossbar L连接的结构,与由两个910B拼接的910C结构不同[2] * 950在FP8精度下算力约为1,000 TFLOPS,高于920C的FP16算力(约800 TFLOPS),但整体算力仍不及920C[2] * 华为未来芯片发展方向 * 未来发展方向是提升互联带宽和内存容量以增强整体性能[1] * 后续产品960将达到9.6TB/s的内存带宽,与英伟达B200相当[1][4] * 通过增加IO面积来提高互联带宽,但受限于国内制程技术,其增长速度可能放缓[1][4] * 华为自研IO单元与连接能力 * 自研IO单元具备较强连接能力,NPU IO能力达到72路UB(每路UB约30GB/s)[1][5] * 拥有低基数交换机LIS(72路UB)和高维度交换机HRS(512路UB),通过拼接可形成更大面积的交换芯片[1][5] * LIS由两个IO带拼接而成,总面积约400平方毫米以上[5] * 华为自研HBM技术路线 * 第一代自研HBM代号“白鹭”,计划2026年上半年推出,采用8个堆叠,每个堆叠16GB容量和204GB/s带宽,对标HBM2到HBM2E[3][10] * 第二代自研HBM代号“朱雀”,计划2026年下半年推出,将搭配950DT使用,可能采用6、8或12个堆叠,每个堆叠24GB容量和683GB/s带宽,对标HBM3[3][10] * 选择定制化HMC而非标准化HBM的原因 * 增强供应链自主可控,避免对海外高端HBM的依赖[11][13] * 有利于功耗管理,将HMC放置在离计算带稍远的位置以降低热量对存储单元的影响[11][13] * 成本控制,HMC通过ABF载板连接的成本低于需要通过中介层互联的HBM[11][13] * 国产芯片与英伟达的差距与竞争态势 * 在算力方面,预计到2028年的华为970芯片才能与英伟达B200持平[1][7][8] * 英伟达Ruby系列芯片因制程优势明显,国产芯片难以快速追赶[1][8] * 若英伟达H200进入国内市场,国产算力芯片在单芯片性能上难以直接竞争,可能需要两到三年时间通过新产品迭代追赶[9] * 超级点架构可能是国产芯片与H200抗衡的重要手段,该架构将显著增加对交换机芯片的需求[1][9] * 国产GPU及配套产业链发展趋势 * 预计2026年将是国产GPU出货量大增的一年[3][14] * 以华为950为例,每颗芯片搭配8个自研HBM,若其出货量达到100万颗,则需800万颗以上的HBM[14] * 国产HBM的放量将显著受益封装材料、焊球、电镀液等相关产业链,并增加用于封装后的APO载板需求[3][14] * 2026年可能是国产HBM放量元年[14] 其他重要内容 * 华为芯片产能消耗估算 * 一个计算带面积约400平方毫米,一个HBM模块超过150平方毫米,一个IO模块约100多平方毫米[6] * 结合良率估算,一片晶圆可切出18颗NPU代、17颗I/O代、9个HRS以及70颗CPU[6] * HBM与HMC的技术差异 * 核心架构:HBM通过中介层实现高密度集成,HMC可放置在离CPU/GPU较远的位置通过线路连接[12] * 性能:HBM具有极高带宽和低时延,HMC因物理距离远导致延迟略高[12] * 功耗与集成度:HBM功耗较低且结构紧凑,HMC相对功耗密度较弱[12] * 成本:HBM因需要中介层互联而成本更高;HMC通过ABF载板连接成本更低,但线宽线距要求更高[12]
昇腾950全解 全新自研HBM
2025-12-16 03:26