存算一体
搜索文档
后摩智能创始人兼CEO吴强:端边通用AI算力瓶颈迎来破局点,存算一体将重构产业生态|WISE 2025 商业之王
36氪· 2025-12-01 02:55
行业趋势:端边AI计算范式迁移 - 未来五到十年,端边侧计算将从以逻辑控制为主转向以AI为主,行业正站在端边侧AI爆发的前夜 [4] - 这一变革是类似数据中心过去十年的“范式迁移”,核心驱动力是大模型落地带来的算力重构需求 [4] - 行业分析机构STL Partners预测,端边计算的市场规模在未来五至十年有望达到四千亿美元量级 [4][12] 市场格局与驱动因素 - 当前端边计算仍以CPU及逻辑控制为主,AI是辅助角色,但未来任务将更多转向感知、理解、决策等以数据和AI为主的方向 [4][14] - 端边设备对实时性、隐私性的天然需求,以及AI普惠化的发展趋势,共同推动端边AI计算崛起并成为AI竞争的主战场 [10] - 端边AI计算可分为垂类场景(如手机、智能驾驶)和通用场景,后者覆盖成千上万种不同场景,总和可观,目前正开始受到重视 [14] 技术挑战与解决方案 - 端边通用AI芯片面临“存储墙”与“功耗墙”的严峻挑战,传统架构中约90%的功耗耗在数据搬运上,而非计算本身 [5][15] - 存算一体技术被认为是突破存储墙和功耗墙的最佳路径之一,通过拉近数据与计算的距离来减少数据搬运,提升能效 [15] - 存算一体有不同实现方式,基于SRAM的方案更适合提升计算密度和能效,基于DRAM的方案更擅长解决带宽问题 [15] 公司产品:后摩智能M50芯片 - 公司于2024年7月推出首款针对端边大模型的存算一体芯片M50,该芯片以10W功耗提供100-160T算力,可支持百亿级参数大模型在端侧运行 [6][19] - M50能支持从140亿、200亿、300亿直至1200亿参数的大模型,产品形态包括M.2卡和Duo M.2卡,最小的M.2卡仅口香糖大小 [19] - 公司提供了完整的工具链,支持各类已训练好的开源模型直接转换到硬件运行,无需重新训练,编译过程顺畅 [19] 应用场景与生态合作 - M50芯片目前已与AIPC、智能办公、陪伴机器人、5G+AI、智能语音设备、AI NAS、AI网关、计算盒子等场景的客户展开合作 [6][19] - 公司正与产业链上下游紧密合作,完成了与多种操作系统(Windows、Linux、麒麟、统信)及主控芯片(x86、ARM、国产CPU)的适配 [20] - 公司预计从2025年初开始,会有更多落地应用推出,并与算法层、解决方案层伙伴共建端边AI生态 [20] 未来战略与关键赛道 - 具身智能被认为是下一代端边AI的关键赛道,机器人需要一颗实时、强思维、可交互的“最强大脑”,而这正是存算一体架构的优势所在 [6] - 公司正基于下一代DRAM PM存算一体芯片,与机器人算法及方案厂商共同推进“最强大脑”式的芯片解决方案 [6] - 公司强调端计算不仅是算力的竞争,更是生态的竞争,目标是与合作伙伴一起在端侧实现AI的普及与普惠 [8][20]
MTS2026集邦咨询存储产业趋势研讨会演讲精华汇总
搜狐财经· 2025-11-28 13:36
会议核心观点 - 全球半导体存储与终端应用产业高度关注AI浪潮带来的变革,会议探讨了AI对晶圆代工、存储、服务器、电源及终端设备等全产业链的深远影响,并预测2026年将迎来强劲增长与技术创新 [1] 晶圆代工与先进工艺 - 预计2026年全球晶圆代工产业营收将实现19%的年增长,其中AI相关的先进工艺市场增长最为显著,年增幅达28% [5] - 台积电已在下半年导入2nm工艺生产,并持续向A16、A10等1nm工艺推进,先进封装产能明年预计年增27% [5] - 除CoWoS外,CoPoS与CoWoP等先进封装技术未来也将发展 [5] - AI芯片需求强劲,英伟达保持领先,同时2026年将成为ASIC芯片起飞的元年,美国四大云端业者及中国的华为、寒武纪均在推进自研芯片 [5] AI服务器与数据中心 - 全球数据总量预计将以约40%的年复合增长率持续攀升,对数据中心提出更高要求 [7] - 英特尔推出至强6系列处理器,通过AMX加速引擎和CacheClip方案,使中小模型推理的TTFT性能提升超过2倍,并构建了“CPU+GPU”异构LLM服务方案Hetero Flow以提升大模型推理并发能力 [7] - 英特尔计划于2026年基于18A制程推出下一代能效核产品Clearwater Forest(至强6+),支持高达8:1的服务器整合比例,可实现约750千瓦的功耗节约以及3.5倍的能效提升 [8] - 预计2025年全球服务器出货量增长有望超过7%,AI服务器将增长近25%;2026年全球服务器出货量可能再增长超过9%,AI服务器增长预计达20%以上 [29] - 2026年AI服务器竞争将分为三大阵营:以英伟达、AMD为主的GPU市场;美中CSP业者扩大自研ASIC;中国业者(如BBAT、华为、寒武纪)致力AI芯片自主化 [29] 存储市场趋势与挑战 - AI与服务器相关应用预计到2026年将占据DRAM总产能的66%,云端服务提供商正积极签订长约以确保供给 [17] - 由于需求产品组合复杂(含HBM/DDR5/LPDDR),预期缺货时间将更持久,AI服务器对LPDDR5X的需求激增已开始严重压缩智能手机的LPDRAM供给 [17] - 预计DRAM将面临比NAND更严峻的缺货,市场将出现产能竞价,受ASP持续上涨带动(2026年DRAM ASP预计年增36%),2026年DRAM营收预计将飙升56% [17] - 尽管供应商上调资本支出,但受限于无尘室空间与设备交付周期,对2026年的位元产出增长助力有限 [17] - AI驱动DRAM向大容量、高带宽、低延时、超高频发展,例如LPDDR5X传输速率高达8533Mbps,尺寸比LPDDR4X减小30% [13] - HDD市场因供应链限制导致交期长达52周,2026年预计将有150EB缺口,迫使需求转向高密度QLC eSSD,造成供不应求 [34] 存储技术创新与解决方案 - NAND Flash正从被动储存转型为辅助运算核心,催生两大新趋势:高带宽闪存(HBF)作为HBM的低成本补充,提供TB级容量;AI SSD将NPU整合至控制器,实现近数据处理 [34] - 为满足AI终端对存储芯片超薄、小型化、大容量、高速的要求,时创意采用SDBG制程(切割精度1μm,晶圆抗折强度提升30%)和C-Molding封装工艺(支持8叠/16叠Die,厚度可薄至0.6mm) [13] - Solidigm是QLC产品的首位推动者,自2018年以来已累积出货超过100EB的QLC产品,并推出了122TB的D5-P5336数据中心SSD以提升能效和空间利用率 [20] - Solidigm推出超高性能PCIe 5.0 SSD(如D7-PS1010/PS1030)以及业界首款采用单面冷板液体冷却技术的固态硬盘D7-PS1010 E1.S,以解决AI工作负载导致的热功耗攀升 [20] - 铨兴科技推出全离线、软硬一体的AI超显存融合解决方案,支持6B-671B模型全参微调,可降本90%且推理并发性能提升50%,并布局PCIe 5.0 eSSD [23] AI终端与AR设备 - AI和AR眼镜形成强大的共生关系,AI为AR提供功能支持,AR是AI人机交互的自然平台 [10] - 预计在Google、Apple等品牌AR眼镜于2027年后密集上市的推动下,2030年全球AR眼镜出货量将超过千万副 [10] - 中国在全球AR眼镜发展中扮演重要角色,Xreal、RayNeo、Rokid等品牌出货超过50万副,并在微型显示光机、光波导材料与加工、供应链整合方面领先全球 [11] 功率半导体与电源架构 - 随着AI芯片功耗迅速攀升,数据中心供电架构正在转向800V HVDC,碳化硅(SiC)和氮化镓(GaN)将成为推动转型的关键技术 [32] - SiC凭借大规模产能扩张和技术升级,在高压应用场景确立领导地位;GaN已进入由成本效益驱动、多应用领域共进的快速增长期,新兴应用包括AI数据中心、机器人、汽车 [32] - SiC/GaN晶圆正由6英寸加速迈向8英寸,12英寸GaN值得期待 [32] 存储测试与产业支持 - 专业的全自动测试系统对保障存储产品品质可靠及一致性、实现经济大规模量产至关重要,能消除人工错误并提供详细失效定位 [25] - 欧康诺提供一站式存储器测试系统,覆盖SSD、RDIMM/UDIMM、UFS和LPDDR等,并具备纯自研的测试系统底层驱动及IO引擎 [25] - 欧康诺通过优化测试Pattern,在同等效果下可大幅缩短测试时长80%,有效提高测试效率、降低测试工艺成本 [26]
我国首款存算一体视觉芯片在汉诞生
长江日报· 2025-11-13 11:11
文章核心观点 - 北京大学武汉人工智能研究院成功研发出中国首款存算一体视觉芯片,该芯片采用类似人脑的存算一体架构,正从实验室走向产业化[1] - 该芯片具有高算力、高性能、低功耗的特点,旨在实现国产替代并保障智能数据安全,计划在湖北依托当地产业和科教资源推进商业化[1][2] 技术特点与优势 - 芯片采用存算一体架构,区别于传统计算机将存储与计算分离的模式,可实现存算同步进行[1] - 与国外同类芯片相比,在同等速度下更节能,并能更好地保障中国智能数据安全[2] - 芯片具备高算力、高性能、低功耗的特性,适用于对体积、功能和成本有严苛要求的智能设备[1] 应用领域与市场潜力 - 智能眼镜是代表性应用领域,可解决当前依赖国外芯片导致的体积、功能和成本问题[1] - 在智能汽车领域可替代部分激光雷达功能,显著降低整车成本[1] - 其他应用场景包括工业车间生产监控、安防监控设备、低空经济及医疗影像识别等需要视觉“看”和“判断”的智能设备[1] 产业化战略与区域优势 - 产业化选址湖北,看重其拥有小米等头部企业可快速对接市场,以及丰富的科教资源和政府支持[2] - 计划联合本地力量培养团队,将芯片打造为湖北特色产业,推动国产视觉芯片在多领域落地[2]
定制化存储3D DRAM专家会
2025-11-12 02:18
行业与公司 * 行业涉及DRAM存储技术、近存计算/存算一体技术、3D DRAM封装技术以及AI芯片(NPU)领域 [1] * 主要提及的公司包括国际厂商三星、海力士、美光、NVIDIA、高通、联发科(MTK) 国内及台湾厂商长鑫半导体、长存、兆易创新、华邦电子、武汉新芯(XMC)、立基电、南亚、金正公司、巨星科技等 [1][5][16][25][26][29][51] 核心技术与观点 **1 近存/存算一体技术路线与现状** * PIM(Processing in Memory)技术由三星积极推广 将其与DRAM合封 直接置于DDR处 预计未来将成为发展热点 [1][3] * 海力士也在推动HBM PIM及DDR、LPDDR PIM等协议 高通和MTK未来可能会适配相关技术 [1][3] * PNM(Process near Memory)技术主要应用于服务器领域 若能接入NVIDIA体系 前景可期 但目前NVIDIA的PCI Switch多由其自身制造 市场参与者较少 [1][4] * 存算一体(CIM)适用于小型应用(如耳机唤醒) 但在大模型领域由于参数量巨大 难以获得功耗和面积收益 基本无人采用 [32][33] **2 3D DRAM技术特点与发展** * 3D DRAM采用Die-to-Die或Wafer-to-Wafer封装 对SOC大小、功耗等有限制 与传统DIMM差异显著 [1][8] * 当前成熟技术支持DRAM 8层堆叠 容量随层数增加而增大 带宽甜蜜点约为1-2TB [1][9] * 芯片设计需权衡面积和堆叠层数 根据云端(推理重带宽 训练重带宽和容量)或端侧(重尺寸和功耗管理)应用场景调整 [1][10] * 3D DRAM设计环节壁垒不高 本质是在传统DRAM基础上增加TSV通孔 [30] **3 定制化存储与HBM的对比与前景** * HBM散热好、容量大 适用于GPU等高带宽应用 但成本较高 [20] * 3D DRAM成本低、功耗低 适用于端侧设备 但总容量相对较小且存在散热挑战 [20] * 两者将根据具体需求共存 定制化存储不太可能完全替代HBM [21] * 长期来看 更看好传统方案(先进工艺标准化逻辑加3D DRAM)以及原厂将计算能力集成到HBM中的方案 [34][50] **4 国内厂商与技术格局** * 国内长鑫半导体专注于DRAM生产 具备较强竞争力 在国内3D DRAM市场占据主导地位 用户粘性较高 有望成为事实标准 [1][5][7] * 武汉新芯(XMC)封装技术出色 采用TSV加HyperBonding(XSTACK工艺) 但其没有自己的Fab 目前隶属于长存系 仅有一条中试线 [26][27] * 兆易创新采用TSV加HyperBonding技术 华邦电子采用Micro bump TSV Hyper Bonding技术 前者密度更高(Hyper bonding密度是Micro bump的10倍以上) 但后者良率稍高 [16][18] * 在3D DRAM市场中 与Fab关系良好的企业更易获得产能支持 [28] 其他重要内容 **1 技术细节与性能** * PIM通过将带宽需求最大的部分置于Memory内来优化大模型推理 但对主SoC带宽提升不明显 [6] * HyperBonding通过铜与硅表面键合 更薄且通孔密度更高 Micro bump良率稍高但厚度较大、XY密度较低 [16] * 功耗方面 Micro bump方案比HyperBonding方案差约一倍 带宽可能接近但布局舒适度不如HyperBonding [17] * 当前DRAM制造良率可达90%以上 TSV封装良率接近99.99% 但多层绑定后最终产品良率会逐步下降(例如增加一层后良率打9折 多层后可能仅50%-60%) [45] **2 成本与价值量** * DRAM厂商在定制化存储环节价值量最高 成本占比超过芯片一半 [14][15] * 例如RK3,588的2.5GB存储容量售价70美元 两层5GB售价100美元 其中很大部分成本来自DRAM [14] * 一颗1GB 3D DRAM在台湾厂商公开市场报价约为10美元 国内厂商如兆易创新和长鑫根据供货量不同 曾报过每GB 3至5美元的价格 [46] * 定制化存储价格会随工艺成熟和成本摊平而下降 但目前处于存储警惕期 价格短期内不会显著下降 [31] **3 应用场景与市场展望** * 手机对芯片功耗、面积、容量和性能要求严格且量产规模最大 PC需求多样(轻薄本重功耗 性能机重性能) [22] * 其他终端如车载座舱、机器人、家用NAS、小型服务器等场景展现出不同程度的需求增长 [23] * 终端市场相关落地产品(如AI PC、家庭NAS)有望在明年初或年中推出 但可穿戴设备暂时难以量产 [24] * NPU领域竞争激烈 关键是对算力和带宽利用率的优化 而不仅仅是提升算力 [52] **4 产能与供应链** * 兆易创新与长鑫存储合作紧密 长鑫具备快速响应市场需求的能力 若未来需求增加 有可能扩大生产 [41] * 国内3D DRAM封装主要由长鑫负责 封装价格占总价值量的5%至10% 且随堆叠层数增加而提高 [42][43] * DDR4与DDR5制造工艺基本相同 但DDR5需求增加导致更多产能转向生产DDR5颗粒 挤占了DDR4的产能 [40]
算力赛道“奇兵”:模拟计算芯片破壁而来
中国汽车报网· 2025-11-06 02:17
技术突破核心 - 北京大学团队成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片,首次实现精度可与数字计算媲美的模拟计算系统 [2] - 该芯片在求解大规模MIMO信号检测等关键科学问题时,计算吞吐量与能效较当前顶级数字处理器(GPU)提升百倍至千倍 [2] - 研究团队在试验中成功实现了16×16矩阵的24比特定点数精度求逆,矩阵方程求解经过10次迭代后,相对误差可低至10⁻⁷量级 [4] 性能优势 - 在求解32×32矩阵求逆问题时,其算力已超越高端GPU的单核性能;当问题规模扩大至128×128矩阵时,计算吞吐量达到顶级数字处理器的1000倍以上 [4] - 传统GPU需要处理1天的任务,这款模拟计算芯片仅需1分钟即可完成 [4] - 模拟计算芯片基于阻变存储器实现真正的“存算一体”,从根本上消除了数据搬运的能耗,解决了冯·诺依曼架构的“内存墙”问题 [5][6] 应用前景 - 模拟计算在未来AI领域的定位是强大的补充,最有可能快速落地的场景是计算智能领域,如机器人和人工智能模型的训练 [6] - 在汽车产业,模拟计算芯片的低功耗、高能效特性契合电动汽车的能效管理需求,解决128×128矩阵求逆问题时能耗仅为传统方案的千分之一 [7] - 该技术专注于矩阵方程求解——AI二阶训练的核心,在自动驾驶领域可使车辆更快处理多传感器融合数据,大幅缩短算法迭代周期 [7] 产业挑战 - 模拟计算芯片从实验室走向产业化面临可靠性挑战,汽车电子需要承受-40℃~125℃的温度变化等严苛环境,阻变存储器件的耐久性和稳定性尚待验证 [9] - 数字芯片已形成成熟的规模化制造和供应链体系,而新型模拟计算芯片仍处于产业化过渡早期,成本劣势在价格敏感的汽车行业是一大短板 [9] - 阻变存储的基础材料体系仍未完全确定,器件的一致性和可靠性距离车规级要求的“零失效”标准还有相当距离 [10]
农夫山泉“好朋友”要IPO
搜狐财经· 2025-11-02 15:18
大型基金设立 - 江苏社保科创基金正式签约,首期规模500亿元人民币 [2] - 基金由江苏省与全国社会保障基金理事会、中国工商银行共同组建,旨在服务国家战略并支持江苏发展新质生产力 [2] 低空经济与自动驾驶融资 - 维新宇航连续完成种子轮、天使轮近亿元融资,由慕华科创领投,用于研发全球首款7座3吨级多用途eVTOL飞行器 [3] - 尚元智行完成近亿元A轮融资,由复容投资领投,资金将用于智能滑板底盘升级及构建无人驾驶生态平台 [3] 人工智能与芯片融资 - 亿铸科技完成新一轮融资,投资方包括兴湘资本、农银国际等,公司专注于存算一体AI大算力芯片研发 [4] 医疗健康融资 - 国医通完成近亿元D轮融资,由浙生协同生命健康基金独家领投,资金将用于核心产品开发、商业化推广及新产线投建 [4][5] 企业IPO进展 - 苏州江天包装科技股份有限公司于北交所IPO过会,该公司为农夫山泉供应商,主营标签印刷产品 [6] - 明略科技通过港股上市聆讯,按2024年总收入计为中国最大的数据智能应用软件供应商 [6] 上市公司动态 - 寒武纪遭前CTO梁军索赔42.87亿元,涉及股权激励纠纷,索赔金额依据1152.32万股股票按最高价372元/股计算 [8] - 寒武纪2025年上半年实现营业收入28.81亿元,净利润10.38亿元 [8] - 伟明环保入选印尼废物转化能源项目供应商名单,后续合作仍存不确定性 [8]
AI专题:2025年度国产AI芯片产业白皮书
搜狐财经· 2025-10-22 02:48
文章核心观点 - 国产AI芯片产业正通过双线突破策略应对架构主导、生态短板和规模化落地三大挑战,以实现算力基石的关键作用[1] - 产业在主流架构AI革新和稀疏计算、FP8精度、系统级优化等前沿创新方向取得进展,国内厂商已实现特定领域突破[1] - 产业全景呈现多品类、地域集中的特点,通用并行架构为算力平台优先方向,算力密度与软件生态是核心瓶颈[1] - 智算、智驾、机器人和端侧AI为核心应用领域,全栈国产化受青睐,智能座舱芯片和工业协作机器人是重点突破场景[1] 国产AI芯片发展的意义与挑战 - AI芯片作为算力基石是全球科技竞争关键,需突破架构主导能力、生态体短板和规模化落地三大挑战[1][9][11] - 架构主导能力决定产业发展上限,需成为关键架构定义者或主流架构深度演进者[9][11] - 生态体在软件栈等方面存在显著差距,制约产业发展[11] AI芯片定义与技术路线 - AI芯片核心特征是基于软硬件协同设计理念,关键指标为算力(TOPS)和能效比(TOPS/W)[14] - 广义AI芯片涵盖所有加速AI工作负载的处理器,包括CPU、GPU、FPGA等[15] - 狭义AI芯片特指为AI场景设计的ASIC芯片,如NPU/TPU[15] - 技术路线是通用性与效率的权衡,没有绝对最优解,只有最适合场景的权衡[16] 主流计算架构的AI革新 - x86架构定位通用计算基石,通过AMX、AVX-512指令集、HBM和多芯片封装实现AI创新[18] - Arm架构定位高能效生态,通过SVE2/SME2矢量扩展、为AI优化的CPU核实现端边云协同[18] - x86应用场景包括AI服务器、高性能AIPC、数据中心,Arm应用场景包括移动端AI、边缘服务器、云原生部署[18] 前沿创新方向:稀疏计算 - 稀疏计算核心创新是硬件原生稀疏支持,在硬件层面加入对稀疏数据的识别和处理能力[19] - 通过减少数据搬运提升系统性能效,对边缘设备和高密度数据中心至关重要[19] - 典型应用包括大规模稀疏模型,如推荐系统和自然语言处理网络[19] 国产厂商稀疏计算创新 - 墨芯人工智能实现双稀疏化算法和高稀疏倍率,支持高达32倍稀疏[22] - 华为与清华大学合作研发稀疏矩阵存储专利,异腾系列芯片内置稀疏计算加速功能[22] - 寒武纪聚焦神经网络稀疏方法专利,云天励飞持有稀疏神经网络计算方法专利[22] 前沿创新方向:FP8精度 - DeepSeek发布V3.1模型使用FP8精度,针对下一代国产芯片设计[24] - 摩尔线程为国内首批实现FP8算力量产厂商,算力提升约30%[24] - 砺算科技7G100系列GPU芯片支持FP8精度,有望降低国产AI训练成本[24] 系统级优化:提升算力密度 - 先进集成通过Chiplet、2.5D/3D封装解决制造与集成问题[25] - 计算范式通过存算一体减少数据在存储与计算模块间搬运[25] - 互连技术通过光电共封、硅光互连解决互连带宽与功耗问题[25] 系统级优化:存算一体 - 存算一体颠覆冯·诺依曼架构,解决内存墙与功耗墙问题[26] - 技术路径分为近存计算和存内计算两条路径[26] - 计算模式分为数字和模拟两种,在精度、能效和设计复杂度之间权衡[26] 产业全景与企业布局 - 产业形成CPU、AI SoC、云端/边缘/车端AI芯片、GPU多品类布局[1] - 企业地域集中于上海(15家)、北京(8家)、广东(6家)[1] - 头部企业包括华为海思(昇腾系列)、昆仑芯(7nm XPU架构)、摩尔线程(支持FP8)、沐曦(曦思系列)[1] 核心应用领域 - 智算产业2024年智能算力规模725.3EFLOPS,2026年将达1460.3EFLOPS[1] - 智驾产业舱驾一体趋势显著,小鹏图灵、地平线征程6P等芯片量产上车[1] - 机器人领域宇树科技、优必选等加速商业化,国产芯片聚焦细分场景[1] - 端侧AI覆盖AloT、智能家居等,追求能效与成本平衡[1]
2025年度国产AI芯片产业白皮书-与非网
搜狐财经· 2025-10-21 08:05
产业发展战略意义与现状 - 国产AI芯片是AI产业的算力基石,对保障供应链自主可控和争夺下一代计算主导权至关重要 [1] - 产业正经历从“技术突围”到“生态崛起”的变革,形成传统架构优化与新兴架构创新双线并行的格局 [1] - 产业面临三大核心挑战:架构主导能力不足、生态体系存在短板、规模化落地受阻 [1] 技术创新方向与路径 - 多架构领域持续发力,涵盖x86、Arm、RISC-V、GPU及DSA专用加速器 [1] - 聚焦稀疏计算、FP8精度优化、存算一体、Chiplet异构集成等前沿技术突破 [1] - 墨芯人工智能、华为、寒武纪等企业在稀疏计算领域形成技术积累,摩尔线程等实现FP8算力量产 [1] - 存算一体技术通过近存计算与存内计算两条路径推进,旨在突破“内存墙”难题 [1][42] - 系统级优化技术包括Chiplet先进集成、存算一体计算范式、光电共封互连技术、液冷散热及新材料应用 [40] 产业格局与市场应用 - 产业全景呈现多领域协同发展,CPU、AI SoC、云端/边缘/车端AI芯片及GPU企业各具特色,地域上集中于上海、北京、广东 [2] - 通用并行架构成为算力平台优先发展方向,Chiplet技术被视为突破算力瓶颈的关键路径 [2] - 2024年智能算力规模达725.3 EFLOPS,华为、摩尔线程等企业的万卡级集群已实现部署 [2] - 智驾领域舱驾一体趋势显著,地平线、黑芝麻等企业的芯片已批量上车 [2] - 国产芯片在机器人领域及智能汽车、具身智能等端侧市场场景展现巨大潜力 [2] 核心挑战与瓶颈 - 架构主导能力不足,难以突破技术跟随困境 [1][14] - 生态体系存在短板,软件栈、开发工具与模型兼容性滞后 [1] - 算力密度与软件生态是最需突破的瓶颈 [2] - 量产方面,EDA工具链缺失和先进封装产能不足是主要障碍 [2]
MRAM,台积电(TSM.US)重大突破
智通财经网· 2025-10-18 01:09
存储技术变革背景 - 人工智能、自动驾驶、物联网等新兴应用对存储器的速度、能耗与稳定性提出更高要求,传统存储体系面临多重挑战 [1] - 传统基于电荷存储的技术(如SRAM、DRAM、闪存)在技术节点突破10纳米后,面临可扩展性受限、性能提升困难、可靠性下降等严峻挑战 [2] - 新型非易失性存储技术需兼具DRAM的高速响应能力和闪存的非易失性特征,同时大幅降低功耗 [2] SOT-MRAM技术优势 - SOT-MRAM利用自旋轨道力矩效应实现数据写入与擦除,具备高速写入、高能效和高可靠性三大核心优势 [3][4][5] - 切换速度达到1纳秒级别,几乎可与SRAM媲美,同时保留非易失性优势,数据保持时间可超过10年 [2][13][14] - 三端结构设计将读写电流路径完全分离,解决了耐久性问题和磁性隧道结电阻限制,显著降低能耗 [4][14] - 隧穿磁阻比高达146%,表明MgO与Co₄₀Fe₄₀B₂₀之间形成高质量界面,提供稳定读取裕量 [1][14] 关键技术突破 - 研究团队通过插入超薄钴层形成复合结构,成功解决β相钨材料在半导体制造热处理条件下的相变难题 [7][9] - 复合钨结构可在400°C下维持物相稳定长达10小时,甚至耐受700°C高温30分钟,而传统单层钨在400°C下仅10分钟即发生相变 [9] - 该结构自旋霍尔电导率约为4500 Ω⁻¹·cm⁻¹,阻尼类扭矩效率约0.61,确保了高效的磁化翻转性能 [9] 性能验证与产业化进展 - 成功制备出64千位SOT-MRAM原型阵列,在1纳秒切换时间下的临界电流密度为48.0兆安/平方厘米,在10纳秒下为34.1兆安/平方厘米 [13] - 器件热稳定性参数Δ约为116,数据保持能力出色,可满足非易失性存储的严格要求 [14] - 设计已考虑与现有半导体后端工艺的兼容性,为大规模量产铺平道路,并计划进一步扩展至兆比特级集成 [14][15] 行业应用前景 - SOT-MRAM有望替代高速缓存级别的SRAM,成为AI加速器的片上缓存,显著降低系统能耗 [6][15] - 其非易失性特性对电池供电的物联网终端尤为有利,设备可快速启停而不丢失数据 [15] - 或将推动传统“SRAM缓存—DRAM主存—闪存外存”三级架构的重构,简化系统架构并提升效率 [15] - 为“存算一体”等新型计算架构提供可行性,有助于突破传统冯·诺依曼结构的“存储墙”瓶颈 [16]
MRAM,台积电重大突破
半导体行业观察· 2025-10-18 00:48
存储技术变革需求 - 当前计算系统依赖SRAM、DRAM和闪存构成的存储层级体系,但随着技术节点突破10纳米,传统电荷存储技术面临可扩展性受限、性能提升困难、可靠性下降等挑战[3] - 人工智能和边缘计算等新兴应用要求存储器兼具DRAM的高速响应能力和闪存的非易失性特征,同时需大幅降低功耗[3] - 新型SOT-MRAM的切换速度达到1纳秒级别,几乎可与SRAM媲美,并保留非易失性优势,远优于DRAM的14毫秒延迟和3D TLC NAND的50至100微秒读取延迟[3] SOT-MRAM技术优势 - SOT-MRAM利用强自旋轨道耦合材料产生自旋轨道力矩,实现磁性隧道结内纳米磁体的磁化翻转,从而完成数据写入与擦除[4] - 技术具有三大核心优势:通过自旋轨道力矩效应实现纳秒级高速写入;三端结构设计分离读写电流路径,显著降低能耗;读写操作独立使器件耐久性大幅提升,数据保持能力出色[4][7] - 这些优势使SOT-MRAM有望替代高速缓存级别的SRAM,成为新一代计算系统的核心存储组件[4] 关键技术突破:热稳定性解决方案 - 研究团队通过插入超薄钴层形成复合结构攻克β相钨热稳定性难题,钴层厚度仅0.14纳米,发挥扩散阻挡层和消耗热预算的双重作用[7][8] - 复合钨结构在400°C下可维持物相稳定长达10小时,耐受700°C高温30分钟,而传统单层钨在400°C下仅退火10分钟就发生相变[8] - 该结构保持优异自旋转换效率,自旋霍尔电导率约为4500 Ω⁻¹·cm⁻¹,阻尼类扭矩效率约为0.61,确保高效磁化翻转性能[8] 器件性能验证 - 成功制备64千位SOT-MRAM原型阵列,实现1纳秒自旋轨道力矩翻转速度,本征翻转电流密度在10纳秒条件下为34.1兆安/平方厘米[11] - 器件热稳定性参数Δ约为116,数据保持时间可超过10年,隧穿磁阻比高达146%[12] - 三端结构设计实现读写操作完全独立,降低能耗,适用于对功耗敏感的边缘计算和移动终端应用场景[12] 产业化应用前景 - 研究从设计之初面向现有半导体后端工艺优化,确保工艺兼容性,为大规模量产铺平道路[12][14] - 计划进一步扩展至兆比特级集成,并将写入能耗降至每比特亚皮焦级别[14] - 在人工智能场景中,SOT-MRAM可作为AI加速器的片上缓存,显著降低系统能耗;在边缘设备中,其非易失性使设备可快速启停而不丢失数据[14][15] - 技术有望推动存储层级体系重构,填补SRAM与DRAM之间的性能空白,甚至取代其中一者,简化架构提升系统效率[15]