Workflow
DDR DRAM
icon
搜索文档
复盘HBM的崛起
半导体行业观察· 2025-08-13 01:38
HBM技术优势与特性 - HBM在带宽、密度和能耗之间实现最佳平衡,适用于AI工作负载,结合垂直堆叠DRAM芯片与超宽数据路径[4] - HBM带宽显著高于其他内存类型,HBM3带宽达819.2 GB/s,远超DDR5的70.4 GB/s和GDDR6X的96.0 GB/s[6] - HBM需通过2.5D封装(如CoWoS)实现高布线密度,因I/O数量超1,000条,PCB或基板无法满足要求[6] - HBM直接放置于计算引擎海岸线附近以降低延迟和能耗,但受限于SOC边缘布局,需垂直堆叠提升容量[7] - HBM制造需TSV工艺和凸块处理,导致芯片尺寸大于DDR,位密度较低(HBM3为0.16 Gb/mm² vs DDR4的0.296 Gb/mm²)[7] HBM市场需求与竞争格局 - AI加速器需求推动HBM比特需求大幅增长,NVIDIA预计2027年占据最大份额,其Rubin Ultra单GPU容量达1 TB[8] - Broadcom(TPU/MTIA)、OpenAI、SoftBank和亚马逊成为HBM主要客户,亚马逊直接采购以降低成本[8] - HBM产能转换依赖TSV和凸块工艺增量步骤,需蚀刻机、沉积工具和光学检测设备支持[10] - HBM封装技术中MR-MUF提供更高生产率和散热性能,海力士专有材料优于美光三星的非导电薄膜[13][14] - 封装工艺效率提升,批量回流焊和单次包覆成型比TC-NCF更高效[18] HBM制造挑战与良率问题 - HBM良率受3DIC堆栈复杂度影响,前端良率问题突出,电源分配网络(PDN)设计是关键挑战[19] - 海力士HBM3E通过全方位电源TSV将TSV数量增近6倍,电压降降低最高75%[20] - 美光专注TSV和电源网络,宣称功耗降低30%[22] - HBM故障是GPU故障主因,散热问题显著,所有制造商良率均低于传统内存[24] - 堆叠层数增加导致良率下降(8层99%良率→92%总良率,12层→87%),键合精度需亚微米级[24][25] - 键合设备商Hanmi早期垄断HBM市场,但供应链争端曾威胁SK海力士生产[25][27] HBM技术演进与未来方向 - HBM堆叠高度受JEDEC标准限制(当前720μm),增加层数需更薄芯片和凸块间隙,良率挑战增大[27] - 混合键合(HB)可消除凸块间隙,支持更多DRAM层,但良率和成本挑战高,量产仍需时间[28] - JEDEC将堆叠高度放宽至775μm,延缓HB采用,更高堆叠需逻辑芯片加厚或中介层调整[29] - HBM4的HB应用讨论转向4E,三星最积极推广,海力士美光更谨慎[32] - AI加速器需高带宽支持并行计算,HBM扩展通过三维度实现:更快信号速度、更多层数、更多堆栈[34] - NVIDIA路线图显示HBM容量从A100的80GB增至Rubin Ultra的1024GB,带宽从2.0 TB/s增至32.0 TB/s[36] HBM在AI工作负载中的应用与瓶颈 - AI模型增长遵循"内存帕金森"动态,HBM容量提升促使模型参数、上下文长度和KVCache占用同步增加[37] - LLM推理中权重和KVCache均驻留HBM,带宽不足导致GPU等待时间超过计算时间,推理受内存限制[38] - 上下文长度增长(常超数十万token)加剧内存压力,需低批量大小服务,但影响经济效益[39] - 强化学习(RL)依赖大量推理生成数据,KVCache卸载至DDR或NVMe可缓解HBM压力[40] - Nvidia Dynamo框架管理KVCache分层存储,常用数据存HBM,次常用存DDR,极少用存NVMe[41] - 工作负载特性决定DDR或NVMe选择,高频循环数据适合DDR,因NAND写入容限有限[42] - 训练阶段权重、激活值和梯度均通过HBM,但RL兴起使训练更接近推理模式[43]