Workflow
人工智能硬件霸权
icon
搜索文档
CUDA被撕开第一道口子,谷歌TPUv7干翻英伟达
36氪· 2025-12-01 02:55
文章核心观点 - 谷歌TPUv7通过大规模商业化、卓越的系统级工程和积极的软件生态建设,首次对英伟达在AI硬件领域的霸权构成了实质性挑战,其总体拥有成本比英伟达GB200系统低30%-40% [5][7][36] - 谷歌TPU已成功支持顶尖AI模型(如Gemini 3、Claude 4.5 Opus)的训练与推理,并开始向Anthropic、Meta等外部客户大规模销售,部署规模已超过1GW,标志着其从内部自用转向外部竞争的关键转折 [6][7][17] - 客户(如Anthropic)采用TPU不仅因其性能和成本优势,也将其作为与英伟达谈判的筹码,以降低GPU集群的总体拥有成本,OpenAI借此获得了约30%的成本节省 [21][22][23] - 尽管TPU在单芯片理论性能上可能略逊于英伟达GPU,但其通过系统级优化实现了更高的实际算力利用率,弥补了性能差距,并在最具挑战性的前沿模型预训练中证明了其能力 [7][29][36] 行业竞争格局 - 英伟达面临来自谷歌TPU和亚马逊Trainium等专用芯片的竞争压力,但其通过强调GPU的通用性、性能优势以及向大客户提供股权回扣等方式进行回应 [13][16][21] - AI硬件市场出现分化,谷歌凭借TPU成为一个差异化的云服务提供商,其客户名单包括Anthropic、Meta、xAI等,这推动了谷歌及其供应链的重新评级,并可能压制英伟达GPU供应链 [17][25] - 前沿AI实验室正通过采用或威胁采用TPU等替代方案,来降低对英伟达GPU的依赖并优化总体拥有成本 [21][25] 谷歌TPU的技术与商业进展 - **商业化突破**:谷歌已开始通过谷歌云平台或作为商用供应商销售完整的TPU系统,与Anthropic的交易是TPU规模化商用里程碑,部署超过1GW的TPU集群 [7][24][25][27] - **性能与成本**:TPUv7 Ironwood在FLOPs、内存和带宽方面几乎追平英伟达旗舰GPU(如Blackwell),其全规模部署下的总体拥有成本比英伟达GB200服务器低44% [34][36] - **系统级优势**:谷歌凭借卓越的系统级工程(如ICI互联和光路交换)实现了极高的模型算力利用率,弥补了芯片理论参数的不足 [7][27] - **设计理念转变**:进入大模型时代后,谷歌TPU设计从保守转向激进,TPUv6/v7专为大模型设计,性能大幅提升 [32] 软件生态与挑战 - **软件短板修补**:谷歌正通过大力投入对PyTorch的原生支持和对vLLM/SGLang的TPU支持,积极构建开源生态,试图瓦解CUDA的护城河 [7][39][42] - **外部化战略**:谷歌已改变TPU团队的KPI,显著增加对vLLM等开源仓库的贡献,并创建了官方的TPU推理后端,以吸引外部开发者 [39] - **现存弱点**:谷歌的XLA图编译器、网络库和TPU运行时仍未开源且文档不足,给用户调试带来困难,多Pod训练的MegaScale代码库也未开源,这限制了更广泛的采用 [41][43] 客户案例与谈判策略 - **Anthropic的采用**:Anthropic拥有强大的工程团队(包括前谷歌编译器专家),能够通过自定义内核驱动高TPU效率,从而获得比商用GPU更高的模型FLOPs利用率和更好的成本性能 [38] - **OpenAI的谈判策略**:OpenAI虽未实际部署TPU,但利用“转向TPU”的可能性作为谈判筹码,迫使英伟达提供了大幅折扣,在其英伟达集群成本上节省了约30% [22][23] - **成本模型分析**:根据SemiAnalysis的模型,对于Anthropic,英伟达及合作伙伴提供的折扣高达44%,其中包含英伟达和微软的股权回扣 [22]