TPU V7
搜索文档
谷歌本周审厂?液冷放量元年在即—2026年行业逻辑梳理及出海展望
傅里叶的猫· 2025-12-15 13:16
文章核心观点 - 2026年将是液冷行业需求爆发的元年,行业呈现高景气度,需求侧迅速扩大而供给侧跟进缓慢,先发企业将享受行业红利 [1][17] - 北美主要云服务提供商(CSP)的下一代AI算力平台将全面采用液冷方案,驱动千亿级市场规模 [2][6] - 中国大陆液冷厂商凭借供应链安全、成本和技术优势,存在明确的出海机遇,有望切入北美大厂供应链 [13][17] 需求侧驱动因素 - **高功耗驱动技术切换**:单AI算力卡及机柜功耗持续提升,当单柜功耗超过35-40KW时,风冷无法满足散热要求,必须采用液冷方案 [4] - **节能降耗需求迫切**:北美缺电严重,液冷方案能将数据中心PUE降至1.2以下,显著降低单位算力密度的总能耗,缓解因缺电导致的项目推迟 [4] - **环境友好性要求**:北美部分数据中心靠近经济中心或居民区,液冷方案相比风冷能显著降低机房噪音,加快项目落地进程,减少资金垫付成本 [6] - **头部厂商全面转向**:英伟达GB200及以上、谷歌TPU V7及以上、Meta MTIA V2及以上、亚马逊Trainium3及以上的高级机柜系列方案已全面采用液冷散热方案 [6] 主要客户需求与市场规模测算(2026年) - **英伟达**:预计2026年GB系列出货10万柜(以GB300为主),Rubin系列出货不到1万柜;GB系列液冷单柜价值量约9~10万美元,Rubin系列约11万美元;预计英伟达端液冷总价值量约100-110亿美元 [7] - **谷歌**:预计2026年TPU V7及以上芯片出货量约220-230万颗,按单柜64颗换算对应约3.5万柜需上液冷;单柜价值量约7-8万美元;预计谷歌端液冷总价值量约26亿美元 [9] - **Meta**:预计2026年MTIA V2出货量约100万颗,按单柜72颗换算对应约1.4万柜;假设单柜价值量与谷歌近似,预计Meta端液冷总价值量约10.5亿美元 [10] - **亚马逊**:预计2026年AWS Trainium3出货约120万颗(保守估计),单柜72颗对应约1.6万柜;假设单柜价值量与Meta近似,预计AWS端液冷总价值量约12.5亿美元 [10] - **其他厂商**:包括其他自研及国内厂商(如华为昇腾),预计液冷总价值量约5-8亿美元 [10] 液冷方案价值量拆解(以GB300为例) - **计算托盘**:每个冷板模块300美元,每个托盘6个,价值1800美元;冷却风扇每个25美元,每个托盘8个,价值200美元;NVQD每个20美元,每个托盘8个,价值160美元;浮动支架每个50美元,每个托盘2个,价值100美元;每个计算托盘热管理价值总计2260美元;每个机柜有18个计算托盘,计算托盘部分总价值约40,680美元 [8] - **交换托盘**:每个冷板模块200美元,每个托盘2个,价值400美元;冷却风扇每个25美元,每个托盘6个,价值150美元;NVQD每个20美元,每个托盘18个,价值360美元;浮动支架每个100美元,每个托盘2个,价值50美元;其他部件价值60美元;每个交换托盘热管理价值总计1020美元;每个机柜有9个交换托盘,交换托盘部分总价值约9,180美元 [8] - **机柜总计**:每个GB300机柜的热管理内容总价值约49,860美元 [8] 供给侧现状与壁垒 - **供应格局与产能**:北美液冷市场供应格局相对固化,主要供应商为美资及台资企业(如Vertiv、Cooler Master、奇宏、AVC等),中国大陆厂商目前几乎没有放量先例;通过北美CSP验证的可批量供应产能主要位于国外及中国台湾 [11] - **技术方案**:目前主要采用冷板式液冷方案,技术占比超98%,其余为浸没式及喷淋式方案 [11] - **应用范围**:目前液冷方案主要应用于计算模块及交换模块,未来存储、服务器电源/变压器件、高速率交换机模块等也将逐步采用 [11] - **验证壁垒**:液冷产品对数据中心服务器影响重大,需与芯片模组制造服务器厂进行深度磨合验证,验证周期短则半年,长则1-2年以上,渠道壁垒极高 [11] - **综合壁垒**:行业壁垒不仅在于技术,市场、渠道、产能、人脉资源等同样是重要壁垒,参考光模块市场龙头企业的竞争格局 [12] 大陆厂商出海机会与展望 - **出海驱动力**: - **供应链安全**:国外及中国台湾产能扩产周期长(9-12个月以上),在2026年需求爆发下可能无法满足需求,需要大陆产能保障供应稳定 [13] - **成本优势**:大陆厂商的液冷产品在成本上相对国外及台湾具备一定优势,可减少下游资本开支 [13] - **技术稳定性**:大陆部分龙头厂商在液冷产品技术上不输甚至领先于国外厂商,可提升客户数据中心效能 [13] - **出海现状**: - **送样情况**:冷板及其他细分领域向海外大厂送样的约有3-5家(含代工),提供综合解决方案多产品供应的约有2-3家 [14] - **批量供应预期**:到2026年,可能只有龙头厂商能够实现对海外大厂的批量供应 [14] - **出海盈利前景**:直供北美液冷产品的平均毛利率可能超过40%(参考光模块),在需求指数级爆发、供给短期无法满足的情况下,预计产品价格及盈利能力将在2-3年内维持高位,高需求态势可能持续3-5年 [16]
AI 网络 - 2027 年关键动向:英伟达扩产中引入 CPO 技术AI Networking The Key Move in 2027 to be CPO in NVIDIA’s Scale Up
2025-12-09 01:39
涉及的行业与公司 * **行业**:AI网络、光互连、半导体[1] * **核心公司**:英伟达 (NVIDIA, NVDA US)[1] * **供应链受益公司**:LITE (连续波激光器)、住友 (Sumitomo, 连续波激光器)、Browave (光交换器)、中国本地FAU制造商、光模块/光交换器供应商[3] 核心观点与论据 * **英伟达可能在2027年采用CPO技术**:公司认为英伟达可能在2027年下半年推出的Rubin Ultra架构的一个版本中,在其规模扩展网络内部采用共封装光学技术,用于Kyber架构内的机架到机架光互连[1][2] * **规模扩展CPO可能早于预期到来**:谷歌已计划在其TPU V7中通过OCS互连超过9000个芯片,这超过了英伟达预计在2027年部署的576个芯片,因此英伟达可能已开始考虑从Rubin Ultra开始引入CPO[2] * **CPO在规模扩展架构中的具体应用形式**:在576芯片架构中,计算托盘和交换托盘预计将继续依赖PCB背板连接,而机架到机架互连可能转向基于CPO的光互连,因其在功耗、延迟、密度和成本方面具有优势[2] * **规模扩展CPO带来增量机会**:规模扩展CPO为光互连供应链带来增量机会,但不影响规模扩展的光互连需求,其供应链与规模扩展CPO相似[3] * **英伟达OIO解决方案时间预期**:英伟达的GPU到NVSwitch光互连解决方案可能与Feynman架构同期推出,将驱动对连续波激光器、FAU和光引擎的增量需求[1][4] * **规模扩展CPO渗透率预测**:在1.6T时代,CPO渗透率不会显著,考虑到成熟度、技术可靠性和解耦程度等因素,Meta也提到TH6 Bailly不会有显著量,预计英伟达规模扩展CPO交换机在2025/2026/2027年的数量分别为2k/20k/35k[4] * **英伟达规模扩展交换机潜在上行空间**:根据2024年11月12日的预览报告,英伟达2027年的规模扩展交换机存在潜在上行空间[4] * **英伟达Spectrum X的采用**:根据2024年10月20日的OCP报告,英伟达在OCP上的主题演讲表明,微软Azure和Oracle Cloud将开始使用Spectrum X[4] 其他重要内容 * **投资评级**:报告给予英伟达“买入”评级,预期其股票表现将超越基准指数超过15%[1][6] * **主要风险**:AI需求减速、地缘政治不确定性、竞争[5] * **报告性质与免责声明**:报告仅供参考,不构成投资要约或建议,信息来源于公开渠道,广发证券不对其准确性和完整性作任何明示或暗示的保证,投资者应独立决策并自担风险[7][10][12]
Marvell 对比 Broadcom 对比 Alchip 对比 GUC —— 关于 ASIC 投资的最新动态 --- Marvell vs. Broadcom vs. Alchip vs. GUC – Update on ASIC Plays
2025-11-10 03:34
涉及的行业与公司 * 行业:ASIC(专用集成电路)芯片设计、先进封装、云计算与人工智能加速器[1] * 主要公司:Marvell (MRVL US)、Broadcom (AVGO US)、Alchip (3661 TT)、GUC (3443 TT)[1] * 其他相关公司:AWS(及其子公司Annapurna)、微软、Meta、谷歌、OpenAI、苹果、TikTok、特斯拉、XAI、Astera Labs、ARM、台积电、ASE、联发科、SiTime、Macom、Celestica、富士康、Kioxia、Socionext[3][6][11][14][16][17][22][25][27][28][30][32][34][37][39][41][45] 核心观点与论据 AWS ASIC项目(Tranium系列) * **Tranium 2**芯片在2025年第四季度进入尾声[3] * **Tranium 2.5**为过渡芯片,在2025年第四季度至2026年第一季度生产,Marvell部分约每季度出货20万台,用于验证其先进封装方案[3][6] * **Tranium 3**预计2026年第二季度量产,AWS预估出货量约250万台,设计由Annapurna + Alchip团队负责,Marvell可能获得最多50万台订单[8] * **Tranium 4**(代号Maverick)已确认由Annapurna + Alchip设计,采用台积电CoWoS-R + MCM先进封装技术,包含四个计算芯片、四个I/O芯片(由Astera Labs设计)、四个存储缓冲芯片、四个IPD和八个HBM4E立方体,预计最早2027年第四季度量产[9][11] 微软ASIC项目 * 当前有三个ASIC项目:Cobalt 200 CPU、MAIA 200 Sphinx、MAIA 300 Griffin[14] * Cobalt 200和MAIA 200已确认由GUC设计[14] * MAIA 300(代号Griffin)与Marvell的合作项目遇到严重困难,微软与Marvell的合同将在2026年上半年到期,若失去信心可能转向Broadcom,或延迟MAIA 300量产计划[16] Meta ASIC项目 * ASIC路线图复杂,包括多代芯片:Artemis(第一代推理,已量产)、Athena(第二代训练,2025年第三季度末量产)、Iris(第三代训练+推理,计划2026年第三季度量产)、Arke(第四代推理,计划2027年第二季度量产)、Olympus(第五代训练+推理,计划2028年第二季度量产)、Etna(第六代,预计2029年量产)[17][18] * 除Arke外,其他芯片均由Broadcom全盘设计[19] * Arke芯片是Iris的简化版,前端设计由Broadcom负责,后端设计由Marvell完成,作为引入第二设计合作伙伴的评估[20] * 预计Meta在2025年生产约15万颗ASIC芯片(10万颗Athena + 5万颗Artemis),2026年生产约80万颗(60万颗Athena + 20万颗Iris)[21] 谷歌ASIC项目 * ASIC分为服务器CPU和TPU(加速器芯片)[22] * 第一代服务器CPU(Axion)由Marvell设计,第二代(Tamar)由GUC设计[22] * 最新TPU V7有两个版本:V7p由Broadcom设计(代号Hellcat),V7e的ASIC芯片由谷歌内部团队设计,I/O芯片由联发科设计(代号A5921)[22][23] * 预计谷歌在2026年生产约400万颗TPU,其中300万内部使用(200万TPU V6 + 100万TPU V7),100万出售给外部客户(主要是Anthropic)[24] * 谷歌TPU的爆炸性增长推动1.6T光模块需求激增,预计全球需求从2025年约300万台增至2026年2000万台(谷歌TPU V7服务器占约600万台)[25] * 1.6T模块带动相关元件价值:SiTime的MEMS振荡器内容价值约2美元,Macom的200G光电二极管售价约2美元(全球市场份额>60%)[25] Broadcom的其他ASIC项目 * **OpenAI**:开发两代芯片,Titan 1(推理,CoWoS-S封装)计划2026年第二季度量产,Titan 2(训练,CoWoS-L封装)计划2027年第二季度量产,预计出货量2026年30万台,2027年至少60万台[28][29] * OpenAI同时与ARM合作开发ASIC加速器芯片,Celestica作为Broadcom版本服务器的JDM,富士康作为ARM版本服务器的ODM[30][31] * **苹果**:定制两款芯片,ASIC服务器CPU(代号Sotra)由内部团队设计,ASIC加速器芯片(代号Baltra)由Broadcom提供设计服务,量产不早于2027年[32][33] * **TikTok**:项目(代号Neptune)可能获许可最早2026年第一季度量产,采用台积电N4P工艺和CoWoS-L封装,含四个计算芯片和八个HBM3e立方体,2026年预计产量50万台,仅允许中国以外部署[34][35] GUC与特斯拉AI5项目 * 特斯拉AI5芯片(及后续AI6-AI8)由GUC提供设计服务,专为特斯拉自动驾驶和人形机器人定制,预计2026年第四季度量产[39][40] * GUC已为2027年在台积电预订约5万片CoWoS晶圆产能,对应约150万颗AI5芯片(每片晶圆30颗)[43] * 在该项目中,GUC提供Turnkey 2服务(负责所有后端阶段),AI5芯片ASP约2000美元,预计为GUC带来30亿美元收入,毛利率约15%,运营利润率约10%,可带来增量运营利润约90亿新台币(是GUC今年总运营利润的两倍多)[43][44] * GUC还将量产微软MAIA 200 Sphinx项目(从2026年第三季度开始)和Kioxia的HBF AI控制器项目(前端设计由Socionext负责),预计推动其2027年净利润达到约新台币130亿至140亿水平[45][46] Alchip与GUC的业务模式对比 * 投资者对GUC的争议点在于其谷歌Tamar CPU项目(预计2026年达100万台)仅提供Turnkey 3服务(仅负责先进封装设计和流片),利润率可能为低个位数百分比[41][42] * 但报告认为GUC在特斯拉AI5等Turnkey 2项目上利润更高,前景被低估[43][44] 其他重要内容 * 报告发布于2025年11月8日,旨在更新北美主要超大规模云服务公司ASIC项目的最新进展[2] * 文档末尾包含读者评论,对报告中部分项目信息的准确性提出质疑[47][48][49]