AI推理时代
搜索文档
盘前下跌超3%!英伟达遭史上最强阻击?谷歌TPU获Meta数十亿美元洽购!深度重磅拆解:性能硬刚Blackwell、能效怼GPU
美股IPO· 2025-11-25 10:17
文章核心观点 - 谷歌自研TPU的核心价值在于通过掌控全栈设计绕开“英伟达税”,从而显著提升AI业务的利润率,并为AI推理时代构建强大护城河 [1][17][18] - 谷歌TPU v7在算力、显存和能效比等关键性能指标上实现代际跨越,足以与英伟达最新Blackwell架构芯片处于同一竞争梯队 [14][15][16][20] - TPU获得Meta数十亿美元规模的洽购,表明其市场竞争力已对英伟达构成实质性威胁 [3][4] TPU的发展背景与战略意义 - TPU的研发缘起于2013年,是为应对语音搜索等AI业务算力需求激增导致的财务和物流成本噩梦而进行的“生存自救” [6] - 项目从设计概念到数据中心部署仅用15个月,2015年已默默支撑谷歌地图、照片和翻译等核心业务 [7][8] - 公司并非将TPU视为“备胎”,而是为AI推理时代构建一道几乎不可逾越的护城河的关键战略 [5] TPU的技术架构优势 - TPU采用极简主义的“脉动阵列”架构,剥离了GPU中为图形处理设计的无关硬件,使数据能像血液一样流动,大幅减少对HBM的读写次数 [10][11] - 这种设计有效规避了“冯·诺依曼瓶颈”,让芯片将更多时间用于计算而非等待数据,从而在“每焦耳运算量”上拥有碾压级优势 [11][12] - 在互联技术上使用光路交换机和3D环面网络,相比英伟达的InfiniBand,极其节省成本和功耗 [16] TPU v7 (Ironwood) 的性能突破 - 算力实现数量级提升:BF16算力高达4,614 TFLOPS,远超上一代TPU v5p的459 TFLOPS [15] - 显存容量对标英伟达B200:单芯片HBM容量达到192GB,内存带宽飙升至7,370 GB/s,远超v5p的2,765 GB/s [16] - 能效比显著优化:v7的每瓦性能比v6e提升了100%,针对特定应用能提供比GPU高出1.4倍的每美元性能,处理动态模型训练时速度可达GPU的5倍 [16] TPU对商业模式和行业格局的影响 - 自研ASIC是云厂商逃离“英伟达税”、重回高毛利时代的唯一解药,可避免AI业务毛利从传统的50-70%骤降至20-35% [17][18] - 谷歌通过全栈设计掌控(前端RTL自行设计,Broadcom仅负责后端物理实现),并利用Broadcom远低于英伟达的毛利,将算力成本压到极致 [1][18] - 随着AI工作负载从训练向推理转移,CUDA生态系统的重要性在降低,TPU的性价比优势(成本可降至原五分之一)日益凸显 [19][20]