计算-存储融合
搜索文档
突破“存储墙”,三路并进
36氪· 2025-12-31 03:35
前言 近年来,AI与高性能计算的爆发式增长,正推动计算需求呈指数级攀升。从ChatGPT的横空出世到Sora带来的视觉震撼,大规模AI模型不仅在参数规模上 指数级膨胀,其对计算能力的需求更是呈现出令人惊叹的增长曲线。 然而,在这片繁荣的背后,一个日益严峻的挑战正浮出水面——"存储墙"。 从千亿参数的大语言模型到边缘端的智能终端,各类应用对存储器的性能、功耗、面积(PPA)提出了前所未有的严苛要求。存储"带宽墙"成为制约AI计 算吞吐量与延迟的核心瓶颈,传统存储器技术已难以满足系统能效优化需求,巨大的性能缺口正制约着AI芯片发挥其全部潜力。 作为全球半导体制造的领导者,台积电深刻洞察到这一根本性矛盾。在2025年的IEDM(国际电子器件会议)教程中,台积电清晰指出:未来AI与高性能 计算芯片的竞争,将不仅仅是晶体管密度与频率的竞赛,更是内存子系统性能、能效与集成创新的综合较量。 AI算力狂奔下,存储"带宽墙"成核心痛点 AI模型的进化史,堪称一场对算力与存储的极限压榨。 从早期的AlexNet到如今的GPT-4、Llama2、PaLM,模型参数从百万级跃升至万亿级,模型规模的扩张直接带动训练与推理阶段的计算量( ...
突破“存储墙”,三路并进
半导体行业观察· 2025-12-31 01:40
文章核心观点 AI与高性能计算需求的爆发式增长正遭遇“存储墙”瓶颈,即存储带宽和性能的提升速度远落后于计算性能的增长,这严重制约了系统整体能效和算力释放[1][5]。为突破此瓶颈,行业需从单一器件优化转向材料、工艺、架构、封装的全链条协同创新[12]。台积电的技术蓝图指出,未来竞争将是内存子系统性能、能效与集成创新的综合较量,其演进路径围绕“存储-计算协同”展开,具体通过优化SRAM、发展MRAM与存内计算(DCiM)、并利用3D封装等技术实现计算-存储深度融合,以构建下一代硬件平台[1][8][12][50][59]。 AI算力增长与存储“带宽墙”挑战 - AI模型参数规模与计算量呈爆炸式增长,过去70年间机器学习模型的训练计算量增长超过10^18倍[2] - 计算性能与存储器带宽提升速度严重失衡,过去20年间硬件峰值浮点运算性能(HW FLOPS)增长60000倍(平均每2年3.0倍),而DRAM带宽仅增长100倍(平均每2年1.6倍),互连带宽仅增长30倍(平均每2年1.4倍),形成“带宽墙”[5] - 存储带宽成为限制计算吞吐量的主要瓶颈,以英伟达H100 GPU为例,其BF16精度峰值算力达989 TFLOPs,但峰值带宽仅3.35 TB/s,在运算强度不足时系统性能受存储限制[8] - AI与HPC对存储器提出三大核心需求:大容量、高带宽、低数据传输能耗[8] - 行业架构正从以计算为中心加速向以存储为中心转型,存储架构演进路径为:从传统片上缓存,到片上缓存+大容量封装内存储器,再到高带宽低能耗封装内存储器,最终实现存算一体与近存计算[8] 分层存储架构与全链条优化 - 现代计算系统采用分层存储架构以平衡速度、带宽、容量与功耗,从寄存器(延迟约1ns)、SRAM缓存(延迟约10ns)到HBM/DRAM主存,再到SSD等存储设备,性能与成本逐级权衡[10] - 应对挑战需材料、工艺、架构、封装的全链条协同优化,台积电基于层次结构优化各级嵌入式存储器:SRAM提升缓存层密度与能效;MRAM填补嵌入式非易失性存储器(eNVM)缺口;DCiM从架构层面优化能效比;3D封装与芯粒集成则提供系统级解决方案[12] SRAM:性能基石的技术演进与挑战 - SRAM是高速嵌入式存储器主力,具有低延迟、高带宽、低功耗、高可靠性优势,广泛应用于数据中心CPU、AI加速器、移动SoC等,工艺节点覆盖N28至N2[13] - SRAM面积缩放依赖关键工艺与设计突破:90nm引入应变硅;45nm采用高k金属栅;28nm推出FinFET、飞跨位线与双字线;7nm应用EUV光刻与金属耦合;2nm通过Nanosheet架构实现进一步缩放[14] - SRAM密度提升直接推动计算性能,例如L3缓存容量增加可显著提升CPU每周期指令数(IPC)[17] - 先进节点下面临三大挑战:面积缩放速度放缓;最小工作电压(VMIN)优化困难,影响读写稳定性与能效;互连损耗加剧(Cu线宽<20nm时电阻率快速上升),制约速度提升[17] - 设计层面通过3D堆叠V-Cache技术优化末级缓存,AMD Ryzen™ 7 5800X3D处理器集成最高96MB共享L3缓存,游戏性能显著提升[17][20] - 通过写辅助电路、读辅助电路、双轨SRAM等技术,将N3工艺SRAM的VMIN降低超过300mV;通过交错三金属层字线、飞跨位线等技术降低互连损耗[22] - 未来聚焦方向:在N2及更先进节点通过Nanosheet架构与设计-工艺协同优化(DTCO)提升密度与能效;与3D封装结合实现缓存容量跨越式增长;与存算一体架构协同,作为DCiM的核心存储单元[22] 存内计算(CIM)与DCiM的架构革命 - 传统AI加速器中超过90%的能耗可能用于存储与计算单元间的数据搬运,而非实际计算,数据移动成为制约能效的核心因素[23] - 存内计算(CIM)打破冯·诺依曼架构,将计算功能嵌入内存阵列,数据在原地或近旁处理,极大节省能耗和延迟[26] - 台积电认为数字存内计算(DCiM)相比模拟存内计算(ACiM)更具潜力,DCiM无精度损失、灵活性强、工艺兼容,能随节点演进持续提升性能,特别适用于边缘推理场景[28] - DCiM核心优势:灵活性高,可针对不同AI工作负载配置计算位宽;计算密度高,从22nm到3nm,其能效(TOPS/W)和计算密度(TOPS/mm²)实现数量级飞跃;精度灵活与能效比高,支持INT8/12/16及FP16精度,精度损失<2.0%,INT8精度下能效比较传统架构提升约4倍[30] MRAM:非易失性嵌入式存储器的突破 - 传统嵌入式闪存(eFlash)在28nm以下工艺微缩困难,磁阻随机存取存储器(MRAM)凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等优势,成为eNVM的理想替代方案,适用于汽车电子、边缘AI等新兴场景[35][38] - 在汽车电子领域,台积电N16 FinFET嵌入式MRAM技术满足严苛要求:100万次循环耐久性、支持焊料回流、150℃下20年数据保持能力,支撑软件定义汽车的OTA更新等功能[41] - 在边缘AI领域,MRAM支持TinyML等紧凑AI架构,仅需2-4MB容量存储模型权重,同时支持安全OTA更新,匹配边缘设备对低容量、高能效与可靠性的需求[41] - MRAM存在短板:单位容量成本高于DRAM与NAND;高温度下数据保持能力需优化;强磁场环境(如强永磁体N52)下需保持9mm安全距离,抗干扰能力需特殊设计[42] - 台积电通过技术优化提升MRAM可靠性:采用数据擦洗(Data Scrubbing)技术结合ECC纠错,在125℃下控制位错误率(BER);优化MTJ结构与布局以抗磁性干扰;针对NVM与RAM不同应用场景差异化调整参数[43][46] - 台积电已将N16 eMRAM技术成功推向市场,特别是在汽车领域,并正向更先进节点迈进[50] 计算-存储融合与3D封装的系统级优化 - 单一存储技术优化已难以满足系统需求,必须通过3D封装、芯粒集成等技术实现存储靠近计算的架构重构,需求包括更高带宽密度、更低单位比特能耗、更短延迟、更高互连密度[50] - 2.5D/3D先进封装(如通过硅中介层或硅桥)将计算芯粒与高带宽内存(如HBM)集成,创造带宽极高、距离极近的超级系统,使内存带宽匹配AI加速器的巨大吞吐需求[52] - 高密度互连优势:缩短数据路径,降低移动能耗与延迟;提升带宽密度,3D堆叠的比特能效相比封装外铜互连提升60倍;模块化设计灵活适配不同场景,AI内存带宽需求已达20.0TB/s,3D封装可高效支撑[56] - 未来AI芯片可能通过3D堆叠将计算单元直接放置在高速缓存或存内计算单元之上,形成紧耦合异构集成体,并集成电压调节器、光子互连等技术[58] - 需芯片设计、存储器、封装工程师早期紧密协作,通过内存-计算协同优化,实现能效和性能的阶跃式提升[58] - 台积电具体布局包括:CoWoS先进封装平台,将逻辑芯片和HBM集成在硅中介层上,实现高互连密度和带宽;SoIC 3D堆叠技术,允许芯片垂直堆叠,将数据移动能耗和延迟降至最低[59]