英伟达危,谷歌联手Meta要让TPU支持PyTorch,击穿CUDA护城河
36氪·2025-12-18 10:59

核心观点 - 谷歌正在推进一项代号为“TorchTPU”的战略行动,核心目标是优化其自研AI芯片TPU对主流AI框架PyTorch的支持,旨在打破英伟达在AI算力市场的垄断地位 [1] - 该行动不仅是技术补课,更是一场商业围剿,谷歌与PyTorch的掌控者Meta联手,试图松动英伟达的垄断 [1] - 对于谷歌而言,降低开发者的迁移门槛,让客户能够无痛从PyTorch环境迁移到TPU硬件,是真正介入AI算力战争的关键 [1][3] 战略行动与目标 - 行动代号为“TorchTPU”,核心是让谷歌自研的TPU芯片能够更顺滑地运行全球最主流的AI软件框架PyTorch [1][3] - 这是谷歌激进战略拼图中的关键一块,旨在将TPU打造为英伟达GPU的有力替代者 [3] - 计划旨在消除长期阻碍TPU普及的无形围墙,即降低开发者的迁移门槛和转换成本 [3][6] - 谷歌正考虑将部分软件开源以加速这一进程,并投入了前所未有的组织关注度和战略资源 [3] 市场背景与竞争格局 - 英伟达的垄断地位不仅在于硬件性能,更在于其CUDA生态已深深嵌入PyTorch,成为训练和运行大模型的默认选项 [4][7] - 华尔街分析师普遍认为,CUDA是英伟达抵御竞争对手最坚固的盾牌 [4] - 全球大多数AI开发者使用PyTorch,而谷歌芯片最擅长的是其内部框架Jax,这造成了供需错位和较高的工程适配成本 [5][6] - 在硅谷,PyTorch是AI模型开发者的通用语言,其最大支持者是Meta [3] 谷歌的挑战与转变 - 谷歌此前走了一条“圈地自萌”的路,其AI软件栈和性能优化大多围绕内部框架Jax构建,拉大了与外部客户使用习惯的鸿沟 [4] - 企业客户反复反馈,TPU虽好,但接入门槛太高,因为历史上它强迫开发者放弃通用的PyTorch,转而学习Jax [7] - 谷歌TPU的角色已从“自用”转变为“外售”,谷歌云部门在2022年争取到了TPU的销售主导权,并大幅增加对外分配额度以抢占市场 [5] - 今年以来,谷歌已开始将TPU直接出售给客户的数据中心,而不再局限于自家的云服务 [9] 关键合作与盟友 - 谷歌找来了关键盟友Meta,即PyTorch的创造者和守护者,以加速开发进程 [8] - 两家巨头正在商讨协议,让Meta获得更多TPU的使用权 [8] - 对Meta而言,推动软件适配TPU具有极高战略价值,既能降低推理成本,又能通过硬件多元化减少对英伟达的依赖,增加谈判筹码 [9] 商业驱动与组织调整 - 随着谷歌急需向投资者证明其巨额AI投入的回报能力,TPU的销售已成为谷歌云营收增长的重要引擎 [3] - 谷歌老将Amin Vahdat本月被任命为AI基础设施负责人,直接向CEO桑达尔·皮查伊汇报,显示了组织架构的调整 [10] - 谷歌的AI基础设施不仅要支撑包括Gemini聊天机器人和AI搜索在内的自家产品,也要服务于像Anthropic这样依赖谷歌云TPU算力的外部客户 [12]