Workflow
SRAM
icon
搜索文档
突破“存储墙”,三路并进
36氪· 2025-12-31 03:35
前言 近年来,AI与高性能计算的爆发式增长,正推动计算需求呈指数级攀升。从ChatGPT的横空出世到Sora带来的视觉震撼,大规模AI模型不仅在参数规模上 指数级膨胀,其对计算能力的需求更是呈现出令人惊叹的增长曲线。 然而,在这片繁荣的背后,一个日益严峻的挑战正浮出水面——"存储墙"。 从千亿参数的大语言模型到边缘端的智能终端,各类应用对存储器的性能、功耗、面积(PPA)提出了前所未有的严苛要求。存储"带宽墙"成为制约AI计 算吞吐量与延迟的核心瓶颈,传统存储器技术已难以满足系统能效优化需求,巨大的性能缺口正制约着AI芯片发挥其全部潜力。 作为全球半导体制造的领导者,台积电深刻洞察到这一根本性矛盾。在2025年的IEDM(国际电子器件会议)教程中,台积电清晰指出:未来AI与高性能 计算芯片的竞争,将不仅仅是晶体管密度与频率的竞赛,更是内存子系统性能、能效与集成创新的综合较量。 AI算力狂奔下,存储"带宽墙"成核心痛点 AI模型的进化史,堪称一场对算力与存储的极限压榨。 从早期的AlexNet到如今的GPT-4、Llama2、PaLM,模型参数从百万级跃升至万亿级,模型规模的扩张直接带动训练与推理阶段的计算量( ...
突破“存储墙”,三路并进
半导体行业观察· 2025-12-31 01:40
文章核心观点 AI与高性能计算需求的爆发式增长正遭遇“存储墙”瓶颈,即存储带宽和性能的提升速度远落后于计算性能的增长,这严重制约了系统整体能效和算力释放[1][5]。为突破此瓶颈,行业需从单一器件优化转向材料、工艺、架构、封装的全链条协同创新[12]。台积电的技术蓝图指出,未来竞争将是内存子系统性能、能效与集成创新的综合较量,其演进路径围绕“存储-计算协同”展开,具体通过优化SRAM、发展MRAM与存内计算(DCiM)、并利用3D封装等技术实现计算-存储深度融合,以构建下一代硬件平台[1][8][12][50][59]。 AI算力增长与存储“带宽墙”挑战 - AI模型参数规模与计算量呈爆炸式增长,过去70年间机器学习模型的训练计算量增长超过10^18倍[2] - 计算性能与存储器带宽提升速度严重失衡,过去20年间硬件峰值浮点运算性能(HW FLOPS)增长60000倍(平均每2年3.0倍),而DRAM带宽仅增长100倍(平均每2年1.6倍),互连带宽仅增长30倍(平均每2年1.4倍),形成“带宽墙”[5] - 存储带宽成为限制计算吞吐量的主要瓶颈,以英伟达H100 GPU为例,其BF16精度峰值算力达989 TFLOPs,但峰值带宽仅3.35 TB/s,在运算强度不足时系统性能受存储限制[8] - AI与HPC对存储器提出三大核心需求:大容量、高带宽、低数据传输能耗[8] - 行业架构正从以计算为中心加速向以存储为中心转型,存储架构演进路径为:从传统片上缓存,到片上缓存+大容量封装内存储器,再到高带宽低能耗封装内存储器,最终实现存算一体与近存计算[8] 分层存储架构与全链条优化 - 现代计算系统采用分层存储架构以平衡速度、带宽、容量与功耗,从寄存器(延迟约1ns)、SRAM缓存(延迟约10ns)到HBM/DRAM主存,再到SSD等存储设备,性能与成本逐级权衡[10] - 应对挑战需材料、工艺、架构、封装的全链条协同优化,台积电基于层次结构优化各级嵌入式存储器:SRAM提升缓存层密度与能效;MRAM填补嵌入式非易失性存储器(eNVM)缺口;DCiM从架构层面优化能效比;3D封装与芯粒集成则提供系统级解决方案[12] SRAM:性能基石的技术演进与挑战 - SRAM是高速嵌入式存储器主力,具有低延迟、高带宽、低功耗、高可靠性优势,广泛应用于数据中心CPU、AI加速器、移动SoC等,工艺节点覆盖N28至N2[13] - SRAM面积缩放依赖关键工艺与设计突破:90nm引入应变硅;45nm采用高k金属栅;28nm推出FinFET、飞跨位线与双字线;7nm应用EUV光刻与金属耦合;2nm通过Nanosheet架构实现进一步缩放[14] - SRAM密度提升直接推动计算性能,例如L3缓存容量增加可显著提升CPU每周期指令数(IPC)[17] - 先进节点下面临三大挑战:面积缩放速度放缓;最小工作电压(VMIN)优化困难,影响读写稳定性与能效;互连损耗加剧(Cu线宽<20nm时电阻率快速上升),制约速度提升[17] - 设计层面通过3D堆叠V-Cache技术优化末级缓存,AMD Ryzen™ 7 5800X3D处理器集成最高96MB共享L3缓存,游戏性能显著提升[17][20] - 通过写辅助电路、读辅助电路、双轨SRAM等技术,将N3工艺SRAM的VMIN降低超过300mV;通过交错三金属层字线、飞跨位线等技术降低互连损耗[22] - 未来聚焦方向:在N2及更先进节点通过Nanosheet架构与设计-工艺协同优化(DTCO)提升密度与能效;与3D封装结合实现缓存容量跨越式增长;与存算一体架构协同,作为DCiM的核心存储单元[22] 存内计算(CIM)与DCiM的架构革命 - 传统AI加速器中超过90%的能耗可能用于存储与计算单元间的数据搬运,而非实际计算,数据移动成为制约能效的核心因素[23] - 存内计算(CIM)打破冯·诺依曼架构,将计算功能嵌入内存阵列,数据在原地或近旁处理,极大节省能耗和延迟[26] - 台积电认为数字存内计算(DCiM)相比模拟存内计算(ACiM)更具潜力,DCiM无精度损失、灵活性强、工艺兼容,能随节点演进持续提升性能,特别适用于边缘推理场景[28] - DCiM核心优势:灵活性高,可针对不同AI工作负载配置计算位宽;计算密度高,从22nm到3nm,其能效(TOPS/W)和计算密度(TOPS/mm²)实现数量级飞跃;精度灵活与能效比高,支持INT8/12/16及FP16精度,精度损失<2.0%,INT8精度下能效比较传统架构提升约4倍[30] MRAM:非易失性嵌入式存储器的突破 - 传统嵌入式闪存(eFlash)在28nm以下工艺微缩困难,磁阻随机存取存储器(MRAM)凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等优势,成为eNVM的理想替代方案,适用于汽车电子、边缘AI等新兴场景[35][38] - 在汽车电子领域,台积电N16 FinFET嵌入式MRAM技术满足严苛要求:100万次循环耐久性、支持焊料回流、150℃下20年数据保持能力,支撑软件定义汽车的OTA更新等功能[41] - 在边缘AI领域,MRAM支持TinyML等紧凑AI架构,仅需2-4MB容量存储模型权重,同时支持安全OTA更新,匹配边缘设备对低容量、高能效与可靠性的需求[41] - MRAM存在短板:单位容量成本高于DRAM与NAND;高温度下数据保持能力需优化;强磁场环境(如强永磁体N52)下需保持9mm安全距离,抗干扰能力需特殊设计[42] - 台积电通过技术优化提升MRAM可靠性:采用数据擦洗(Data Scrubbing)技术结合ECC纠错,在125℃下控制位错误率(BER);优化MTJ结构与布局以抗磁性干扰;针对NVM与RAM不同应用场景差异化调整参数[43][46] - 台积电已将N16 eMRAM技术成功推向市场,特别是在汽车领域,并正向更先进节点迈进[50] 计算-存储融合与3D封装的系统级优化 - 单一存储技术优化已难以满足系统需求,必须通过3D封装、芯粒集成等技术实现存储靠近计算的架构重构,需求包括更高带宽密度、更低单位比特能耗、更短延迟、更高互连密度[50] - 2.5D/3D先进封装(如通过硅中介层或硅桥)将计算芯粒与高带宽内存(如HBM)集成,创造带宽极高、距离极近的超级系统,使内存带宽匹配AI加速器的巨大吞吐需求[52] - 高密度互连优势:缩短数据路径,降低移动能耗与延迟;提升带宽密度,3D堆叠的比特能效相比封装外铜互连提升60倍;模块化设计灵活适配不同场景,AI内存带宽需求已达20.0TB/s,3D封装可高效支撑[56] - 未来AI芯片可能通过3D堆叠将计算单元直接放置在高速缓存或存内计算单元之上,形成紧耦合异构集成体,并集成电压调节器、光子互连等技术[58] - 需芯片设计、存储器、封装工程师早期紧密协作,通过内存-计算协同优化,实现能效和性能的阶跃式提升[58] - 台积电具体布局包括:CoWoS先进封装平台,将逻辑芯片和HBM集成在硅中介层上,实现高互连密度和带宽;SoIC 3D堆叠技术,允许芯片垂直堆叠,将数据移动能耗和延迟降至最低[59]
北京君正:公司SRAM主要用于车规、工业和医疗等市场
证券日报网· 2025-12-30 11:12
公司产品与市场定位 - 公司SRAM产品主要应用于车规、工业和医疗市场 [1] - 公司产品可以替换瑞萨、英飞凌的相关产品 [1]
北京君正(300223.SZ):公司的SRAM为独立芯片,目前未提供片上SRAM IP业务
格隆汇· 2025-12-30 08:52
格隆汇12月30日丨北京君正(300223.SZ)在投资者互动平台表示,公司的SRAM为独立芯片,目前未提供 片上SRAM IP业务。 ...
北京君正:公司的SRAM为独立芯片 目前未提供片上SRAM IP业务
证券时报网· 2025-12-30 07:53
人民财讯12月30日电,北京君正(300223)12月30日在互动平台表示,公司的SRAM为独立芯片,目前 未提供片上SRAM IP业务。 ...
老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板
36氪· 2025-12-28 08:21
文章核心观点 - 英伟达计划投资200亿美元以收购或深度合作的方式拉拢芯片公司Groq 此举被视为应对谷歌TPU等新芯片范式威胁 并弥补自身在AI推理市场短板的关键战略布局 [1][2][3][18] 英伟达的战略动机与行业背景 - 谷歌通过自研TPU成功降低了对英伟达GPU的依赖 削减了AI训练和推理成本 证明了GPU并非唯一解决方案 给英伟达带来了竞争压力 [17] - 随着基础模型进展放缓 AI竞争重点从训练转向应用层 应用市场对推理速度的要求变得至关重要 [17] - 此次对Groq的布局 标志着英伟达在巩固训练市场霸主地位的同时 正式大举进入推理芯片这一新兴且竞争激烈的市场 [18][19] Groq LPU的技术优势与市场定位 - Groq的LPU在AI推理的decode(解码)阶段速度极快 远超GPU、TPU及大多数ASIC 其采用片上SRAM 速度比使用HBM的GPU快100倍 处理单个用户时能保持每秒300–500个token的速度 [6][13] - LPU的片上SRAM容量较小 单颗芯片仅230MB 而英伟达H200 GPU的HBM3e显存高达141GB 因此运行大模型需要连接成百上千颗LPU芯片 硬件规模和投资可能非常巨大 [14][15][16] - 市场验证表明 用户愿意为“速度”付费 Groq的业绩证明低延迟推理是一个真实存在且高速成长的需求 [16] GPU在AI推理中的架构性挑战 - GPU架构在推理过程的decode阶段存在短板 decode是串行任务 需要逐个生成token 对延迟极其敏感 但GPU数据主要存放在片外HBM 每次生成token都需从内存读取数据 导致算力闲置 FLOPs利用率低 [12] - 相比之下 推理的prefill(预填充)阶段是并行计算 GPU擅长处理 对延迟不敏感 [12] - 有观点指出 GPU架构难以满足推理市场对低延迟的需求 HBM显存速度是瓶颈 [7] 交易对英伟达的意义与潜在影响 - 此次交易被视为英伟达为自身注射的一剂“疫苗” 旨在通过引入Groq的人才与技术 补齐在低延迟推理场景的短板 抵御竞争对手 避免在AI时代被新玩家颠覆 [16] - 推理芯片市场可能与训练芯片市场特性不同 被描述为一项高销量、低利润的苦活 与英伟达当前毛利率高达70-80%的GPU业务模式截然不同 [19]
一图了解SRAM概念股
选股宝· 2025-12-25 06:43
行业事件与驱动因素 - 媒体报道英伟达以约200亿美元现金收购Groq,获得其LPU技术知识产权和相关资产 [1] - Groq的LPU采用时序指令集计算机架构,并使用静态随机存取存储器作为存储器 [1] - SRAM的速度比GPU使用的高带宽存储器快数倍,且成本较高 [1] 相关上市公司业务概况 - 恒烁股份自2023年下半年同步进行基于SRAM的数字存算一体方案的研发,流通市值34.24亿元 [2] - 成都华微突破超大规模高性能FPGA低功耗设计等关键技术,建立千万门级SRAM型FPGA器件自主研发与工程化能力,流通市值93.79亿元 [2] - 炬芯科技采用基于模数混合设计的存内计算技术,在SRAM介质内用客制化模拟设计实现数字计算电路,解决了功耗和性能瓶颈,流通市值96.40亿元 [2] - 国芯科技汽车电子高性能MCU新产品CCFC3012PT内存空间最高配置可达2.4M字节SRAM,流通市值99.52亿元 [2] - 概伦电子仿真平台NanoSpice的SRAM仿真模式支持存储器、射频、混合信号可靠性仿真,流通市值154.88亿元 [2] - 纳思达旗下极海半导体推出的高性能MCU系列新品拥有大容量SRAM,流通市值264.15亿元 [3] - 复旦微电FPGA类芯片聚焦在SRAM型FPGA,流通市值401.40亿元 [3] - 北京君正在SRAM企业排名中全球第二、国内第一,在全球车规级SRAM供应商中排名第一,流通市值450.81亿元 [3] - 东芯股份控股子公司Fidelix曾有SRAM产品的研发和销售,具备技术储备,流通市值535.21亿元 [3] - 华大九天具有存储电路设计全流程EDA工具系统,支持包括SRAM在内的多款存储器,流通市值589.35亿元 [3] - 兆易创新的低功耗SRAM此前是公司核心产品,流通市值1496.64亿元 [3]
南方基金郑晓曦:半导体设备处于高速成长中早期 未来三年或进入右侧收获期
证券时报网· 2025-11-23 23:42
行业景气度与市场表现 - 半导体设备指数年内涨幅达57.28% [1] - 行业正处于高速成长期的中早阶段,未来三年有望进入产业持续突破的关键周期 [4][5] - 行业迎来自主可控政策支持与AI及新兴应用驱动的双重利好,景气度将持续攀升 [1][4][5] 核心投资逻辑 - 投资框架优先考虑行业景气周期,权重占40%至50%,注重在产业由导入期向成长期转折点时买入 [2] - 公司基本面权重占30%至40%,重点关注核心竞争力、创新能力和管理团队 [2] - 对科技股投资应弱化估值,专注于公司的创新能力和管理团队 [3] 细分领域机遇 - 自主可控核心逻辑是国产化率提升叠加需求驱动带来长期景气高增长 [4] - 下游晶圆厂持续扩产为国内半导体设备和材料厂商提供广阔成长空间 [4] - 先进封装因摩尔定律放缓成为提升芯片性能关键路径,AI算力爆发拉动需求,企业技术壁垒和定价能力提升 [5] - 存储扩产有望在2026年中或下半年实现加速扩张 [6] 增长动力与前景 - 政策对自主可控的持续支持,预计在今年四季度至明年为国产先进制程半导体芯片产业链注入强劲增长动力 [1] - 从渗透率和国产化率角度,未来三年半导体自主可控有望大幅提升,行业增速保持高位 [5] - 投资更优选择是双轮驱动公司,既能受益于国产化率提升,又有能力参与全球竞争 [6]
GSI Technology Q2 Loss Narrows Y/Y on SRAM Demand
ZACKS· 2025-11-05 19:25
股价表现 - 自公布截至2025年9月30日的季度财报以来,公司股价下跌24.5%,同期标普500指数下跌0.5% [1] - 过去一个月内,公司股价上涨81.7%,同期标普500指数上涨2%,显示股票因投资者对公司基本面和前瞻性发展的反应而具有高波动性 [1] 第二财季财务业绩 - 每股亏损为11美分,较去年同期每股亏损21美分有所收窄 [2] - 营收为640万美元,较去年同期460万美元增长41.6%,增长由静态随机存取存储器产品需求增加驱动 [2] - 净亏损收窄至320万美元,去年同期为550万美元 [3] - 毛利率同比提升至54.8%,去年同期为38.6%,主要由于产品组合变化 [3] 业务指标与客户构成 - 关键客户集中度显著变化,对Cadence Design Systems的销售额占总营收的21.6%,去年同期为零;对诺基亚的贡献从去年同期的17.8%大幅下降至3.1%;KYEC占比为12.5%,略低于去年同期的14.3% [4] - 军事和国防相关发货量占总发货量的28.9%,低于去年同期的40.2% [5] - SigmaQuad SRAM销售额占总发货量的50.1%,高于去年同期的38.6% [5] - 运营总费用为670万美元,低于去年同期的730万美元,研发支出同比从480万美元降至380万美元 [5] 管理层评论与技术进展 - 首席执行官强调康奈尔大学的一项研究验证了Gemini-I芯片的性能,该芯片在检索增强生成任务上匹配英伟达A6000 GPU性能,同时能耗降低98%以上 [6] - Gemini-II芯片将提供8倍内存和10倍于Gemini-I的性能 [6] - 公司目标市场为边缘人工智能和国防应用,正努力将概念验证项目转化为2026年的商业合同 [7] - 近期募集的资金将用于持续的Gemini-II软件开发并启动Plato芯片设计 [7] 业绩驱动因素与展望 - 营收同比大幅增长主要得益于SRAM销售的增加以及国防和企业客户的增长势头 [8] - 环比毛利率下降反映了第二季度产品组合不太有利 [8] - 股票薪酬总计90万美元,同比有所上升 [9] - 第三财季毛利率指引为54%至56%,营收预计在600万美元至680万美元之间 [9][10] 资本部署与战略计划 - 管理层预计第三季度营收相对持平或小幅增长,毛利率保持稳定 [11] - 5000万美元直接募集的资金将用于完成Gemini-II、开发配套软件以及推进Plato芯片 [11] - Plato芯片的流片暂定于2027年初 [11] - 计划中的客户参与包括多个国防和航空航天潜在客户,评估正在进行中 [12] - 新计划是开发针对边缘应用的多模态大语言模型,初步基准测试结果预计在年底前公布 [12] 其他发展 - 公司完成了5000万美元的注册直接募集,现金状况从2025年3月底的1340万美元几乎翻倍至2530万美元,营运资金和股东权益也大幅改善 [13]
Jim Cramer on GSI Technology: “That Thing is a Rocket Ship”
Yahoo Finance· 2025-10-26 11:25
公司近期动态 - 知名财经评论员Jim Cramer将公司股票描述为“火箭飞船”并提及公司近期完成了一次股票发行 [1] - 公司于10月20日宣布其APU存内计算架构获得康奈尔大学研究确认可在大型AI工作负载上实现GPU级别性能且能耗显著降低 [2] 技术产品与性能 - 公司开发半导体内存和处理器解决方案包括SRAM和关联处理单元应用于网络、国防、航空航天、医疗及工业领域 [2] - 公司的Gemini-I APU在检索增强生成任务上性能匹配英伟达A6000 GPU但能耗降低超过98% [2] - 公司的APU在检索操作上比标准CPU快高达80% [2]