内存墙

搜索文档
AI存储赛道,华为再出招
第一财经资讯· 2025-08-27 11:29
产品发布 - 华为于8月27日推出AI SSD产品系列 包括OceanDisk EX/SP/LC 最高单盘容量达122/245TB 为业内最大容量 [1] - AI SSD是专为AI工作负载优化的高性能大容量固态硬盘 结合公司自研多项核心技术 有望成为国产SSD突破的关键一步 [1] 行业挑战 - AI应用普及导致数据语料库从纯文本走向多模态 数据规模指数级增长 推理文本从短序列走向多模态融合长序列 [1] - 内存墙和容量墙问题成为AI训推效率和体验的关键瓶颈 对IT基础设施性能和成本造成巨大挑战 [1] - 训练671B大模型需采集3.5PB数据 全球互联网语料总量从350PB(文本)暴涨至154ZB(多模态) 传统存储介质难以承载 [1] - 671B模型训练微调需要13.4TB内存 需168卡承载 无法在一体机运行 限制模型训练效率与灵活性 [1] - 模型推理阶段TTFT平均1000ms 是美国大模型的2倍 TPS平均25 token/s 仅为美国大模型的1/10 影响用户体验与业务效率 [2] 市场竞争格局 - 2025年第一季度全球前五大企业级SSD品牌厂商依次为三星 SK海力士 美光 铠侠和闪迪 [2] - 中国存储容量增长快 但此前主要采用机械硬盘HDD 先进存储技术相对滞后 [2] - 华为 曙光 浪潮及长江存储等厂商逐步走出国产厂商自己的发展路径 [2] 技术发展趋势 - AI场景下SSD具有省电 高效 低运营成本优势 推动渗透率快速提升 [2] - 2024年服务器存储方案中固态硬盘占比预计达9%-10% 2028年AI服务器的SSD需求占比将攀升至20% [2] - 未来国内市场将逐步用大容量QLC SSD替代HDD 推动存储产业从容量导向向性能与容量双优转型 [3] - 华为等技术突破与生态构建将加速AI存储产业成熟 [3] 基础设施现状 - 截至今年6月底 我国存力规模达1680EB 呈现区域梯次布局 单机架密度提升 闪存渗透率提高三大特征 [3] - 全国外置闪存占比超过28% 金融 制造 互联网三个行业渗透率超45% 存力建设迈向升级阶段 [3]
算力:从英伟达的视角看算力互连板块成长性 - Scale Up 网络的“Scaling Law”存在吗?
2025-08-21 15:05
行业与公司 * 行业聚焦于AI算力网络互连板块 特别是Scale Up网络技术及其带来的产业链机会[1] * 核心讨论围绕英伟达及其产品策略展开 同时涉及亚马逊、谷歌、Meta等公司的ASIC方案[5] * 产业链受益环节包括光纤、AEC(有源铜缆)、光模块(1.6T)、MPO、FU以及交换机厂商(如锐捷网络、博通、天弘、Arista等)[28][30] 核心观点与论据 * **Scale Up网络的定义与必要性**:Scale Up网络旨在实现跨机柜的大规模连接 将机柜当作积木连接 其核心驱动力是解决硬件内存墙问题并满足AI并行计算(尤其是专家并行和张量并行)的高通信需求[1][5][7][10] * **英伟达的推广策略**:通过两条路径推广 一是不断提高Nvlink带宽(每代产品单卡带宽基本翻倍) 二是扩大Up规模(如从H100升级到GH200时将MV8提升到MV256) 后因成本高和推理需求不足而推出更具性价比的NVO32方案[6] * **Scale Up相比Out网络的优势**:在超节点内能提供更高带宽 在英伟达系统中Up带宽是Out的九倍 未来随着规模扩大可能取代Out 实现AI网络统一连接[7][8] * **性能优势验证**:GB200使用FP4精度 在TPS(Token Per Second)为10时 其单卡性能比B200差三倍(两倍来自FP4 0.5倍来自Scale Up和Grace CPU);当TPS为20时 差距变为七倍(3.5倍来自Scale Up和Grace CPU) 表明网络通信压力增大时Scale Up优势更明显[4][14][15] * **更大规模网络的需求**:为满足单用户TPS增长和模型能力拓展(如多模态模型) 需要组建更大规模的Scale Up网络(如NVL576) 其规模扩大速度需快于性能指标增长速度[21][22] * **组网方式与技术选择**:更大规模网络需进行机柜间第二层连接 建议采用光纤和AEC(有源铜缆)而非PCB(柜内)和DAC(有效距离仅1米)[23][24] * **带来的增量需求**:在第二层网络中 一个GPU需要9个等效1.6T连接(传统IB架构仅需2-3个) 且每4个GPU需额外增加一台Nvlink交换机(传统IB架构每30-48颗GPU才需一台) 导致端口和交换机需求显著增长[4][25][26] 其他重要内容 * **内存墙概念**:分为模型内存墙和算力内存墙 指模型参数量和算力增速快于配套内存(如HBM)增速 需通过高速通信实现显存池化[1][10] * **并行计算范式**:包括数据并行、流水线并行、专家并行和张量并行 后两者对通信频率和数据大小要求更高[2][11][12][13] * **总拥有成本(TCO)分析**:GB200 NVL72方案的总硬件成本约为6.1万美金 比NVL576方案节省2万美金[18][19] * **技术路径排除**:CPO和OCS技术因故障率瓶颈和镇静频率问题 目前尚未能应用于Scale Up场景[27] * **市场认知差异**:市场普遍认为Scale Up仅限于柜内 但实际需要跨机柜连接以提升单卡性能有效利用率[29][30]
从英伟达的视角看算力互连板块成长性——Scale Up网络的“Scaling Law”存在吗? | 投研报告
中国能源网· 2025-08-20 07:47
核心观点 - AI算力发展面临"内存墙"问题及计算范式演进推动Scale Up网络升级 显著提升网络连接需求 [1][2][3] - Scale Up网络存在Scaling Law 柜间第二层网络将出现 光连接与AEC需求达芯片1:9配比 交换机需求达芯片4:1配比 较Scale Out网络倍增 [2][4] - 英伟达通过提升单卡带宽至7200Gb/s和扩大超节点规模持续扩大Scale Up网络 NVL72机柜方案将作为基础节点进一步扩展 [2] - 更大Scale Up网络可解决TCO 用户体验和模型能力拓展问题 单用户Token消耗增长推动单卡有效性能提升 [3] - 网络构建需柜间第二层Scale Up交换机 光与AEC并存 每颗GPU需9个额外等效1.6T连接 每4颗GPU需额外1台交换机 [4] Scale Up网络驱动因素 - 模型内存墙:单一大模型参数量与单卡显存差距逐代放大 [1][3] - 算力内存墙:单卡算力与单卡显存差距逐代放大 [1][3] - 计算范式演进:张量并行与专家并行对通信频次和容量要求跨越数量级 [3] 英伟达技术路径 - NVLink5.0单卡带宽达7200Gb/s [2] - 超节点规模从H100NVL8扩展到GH200/GB200 NVL72机柜方案可提高训推效率 [2] - NVL72将作为最小节点在柜间拼出更大Scale Up超节点 需光连接通信 [2] 规模扩展必要性 - 单用户每秒Token消耗量提高导致现有服务器单卡性能坍缩 [3] - 用户体验提升和模型能力拓展要求单用户TPS增长 [3] - Scale Up规模与预期单用户TPS 单卡实际性能间存在非线性Scaling Law [3] 网络构建方案 - 柜间搭建第二层Scale Up交换机 [4] - 光与AEC在第二层网络中并存 [4] - 单颗GPU需要9个额外等效1.6T连接 为Scale Out网络的3-4.5倍 [4] - 每4颗GPU需要额外1台交换机 为Scale Out网络的7.5-12倍 [4] 受益环节及标的 - 光互连:中际旭创 新易盛 天孚通信 光库科技 长芯博创仕佳光子 源杰科技 长光华芯 太辰光 [4] - 铜互连:中际旭创 兆龙互连 [4] - 交换机:锐捷网络 盛科通信 Astera Labs 博通 天弘科技 Arista [4]
一觉醒来,中国打碎美国关键科技封锁,迎来了扬眉吐气的一刻
搜狐财经· 2025-08-15 21:38
中国HBM技术突破的背景与意义 - 中国人工智能产业曾长期依赖进口高带宽内存(HBM)技术,2024年底HBM突遭出口管制导致高性能计算项目面临停滞风险 [1] - HBM是AI算力系统的关键组件,负责高速数据供应,其性能直接决定计算效率,被称为“隐形油箱”或“超级油箱” [3][5] - 传统内存技术存在“内存墙”问题,即计算核心性能进步远快于内存数据供应速度,导致计算效率大打折扣 [7][9] HBM技术特点与突破难点 - HBM通过多层内存芯片垂直堆叠和硅通孔(TSV)技术实现高速数据传输,大幅缩短数据传递距离并提供惊人带宽 [9][10] - 技术难点包括精密堆叠十几层芯片、数千个TSV微型通道的精准对齐以及堆叠后的散热防止芯片烧毁 [18][20] - HBM对人工智能大模型而言并非奢侈品而是必需品,直接影响AI系统的运行效率 [10] 技术突破过程与成果 - 2024年12月至2025年8月间,国内存储芯片企业联合封装测试厂、设备制造商和科研院所形成攻关联合体 [16][20] - 基于自主16纳米工艺的国产HBM3样品于2025年夏季研制成功,并送至下游头部企业验证 [22] - 中国成为全球第三个掌握HBM技术的国家,实现从零到一的决定性跨越,尽管在堆叠层数和峰值带宽上与国际最新HBM3E仍有差距 [22][24] 产业影响与战略意义 - 国产HBM为“东数西算”等国家级算力工程提供底层安全保障,减少对进口核心部件的依赖 [25] - 中国市场需求巨大,预计2025年将占全球HBM需求近三分之一,为技术迭代提供重要练兵场 [27] - 技术突破动摇了通过封锁遏制对手的战略根基,证明技术壁垒反而成为创新催化剂 [29]
突破\"内存墙\"瓶颈关键技术,CXL被存储巨头视为下一个战略高地
选股宝· 2025-06-19 23:36
CXL技术发展现状 - CXL互连技术正成为存储行业下一个战略高地,行业格局逐渐明朗化[1] - CXL联盟已吞并Gen-Z和OpenCAPI,成为主流互连标准并获得众多厂商支持[1] - 预计2025年更多CXL服务器设计推出,生态日益完善[1] CXL技术优势 - CXL技术旨在解决"内存墙"问题,提供更高数据吞吐量和更低延迟[1] - CXL延迟为10ns,显著低于PCIe的100ns延迟[1] - CXL支持内存一致性和可定义缓存地址空间,优于PCIe[1] - 通过计算和存储分离形成内存池,可动态配置内存资源提升效率[1] 市场前景预测 - 预计2028年全球CXL市场规模达150亿美元[2] - 目前不到10%CPU兼容CXL标准,预计2027年所有CPU都将兼容[2] - 预计2025年采用CXL接口的高端服务器内存条将量产[2] 行业参与者动态 - 澜起科技已发布全球首款CXL内存扩展控制器芯片(MXC)[2] - 佰维存储推出了CXL内存模组[2] - 澜起、IDT、Rambus等厂商已推出CXL产品[2]