TPU vs GPU:谷歌芯片商业化提速,英伟达护城河能防得住吗?
华尔街见闻·2025-12-03 07:21

核心观点 - 谷歌自研的AI芯片TPU正从内部工具转变为面向市场的英伟达GPU替代方案,对英伟达的市场主导地位构成实质性挑战 [1] - 竞争的关键在于系统级设计、软件生态、成本结构与商业模式,而不仅是单芯片性能 [2][3][8] 市场格局与竞争态势 - 全球最先进的两个AI模型(来自谷歌和Anthropic)完全或部分使用谷歌TPU开发,促使英伟达大客户Meta考虑使用TPU [1] - TPU的角色已从“谷歌内部工具”升级为大型AI公司可考虑的替代方案,任何客户“试水”都可能被市场放大 [1][2] - 摩根士丹利分析,谷歌计划2026年生产超过300万片TPU,2027年约500万片,英伟达当前GPU产量约为TPU的三倍,差距正在缩小 [1][7] 性能与系统设计 - 最先进的TPU(Ironwood)在每秒浮点运算次数(FLOPS)上约为英伟达Blackwell GPU的一半 [3] - 谷歌的策略是通过“集群化”放大优势,数千颗TPU可串联成“超级Pod”,在训练超大模型时具备出色的性价比与能效比 [3] - 英伟达单个系统最多直接连接约256颗GPU芯片,大模型时代系统级设计、互连能力和能效比成为新核心指标 [3] 软件生态与兼容性 - 英伟达的核心护城河是深度绑定的CUDA软件生态,对已使用CUDA的客户而言,租用英伟达芯片更具成本效益 [4] - TPU仅能与TensorFlow等特定AI软件工具顺畅配合,而多数AI研究人员使用的PyTorch在GPU上运行效果更佳 [4] - 对Anthropic、苹果和Meta等技术水平较高的客户,使用TPU挑战较小,TPU在运行谷歌Gemini模型时成本效率尤其突出 [4] 成本结构与盈利能力 - 在制造成本上,TPU与GPU相差不大,Ironwood使用了更先进、更昂贵的制程,但芯片体积更小,部分抵消了成本劣势 [5] - 博通从TPU项目中获得的收益至少达到80亿美元 [5] - 英伟达当前的硬件业务毛利率高达63%,而谷歌云整体只有24%,这解释了英伟达在价格战中仍保持极强盈利能力的原因 [6] 供应链与产能 - 台积电不会将所有产能押注在单一客户上,市场上始终会留出空间给包括TPU在内的其他方案 [7] - 当供应开始多元化,客户会更愿意比较、议价与分散风险 [7] 商业模式与战略意义 - 如果谷歌大规模对外销售TPU,需要重建包括服务器厂商、分销网络、企业级售后支持等整套产业链,近乎“复制一个英伟达” [8] - TPU未来可能不会走“低价路线”,而是通过其他费用弥补收入缺口,因为客户自建数据中心会减少谷歌云服务收入 [8] - TPU对谷歌的战略意义在于:成为与英伟达谈判的筹码、推广Gemini及其AI生态、在AI基础设施上拥有更大自主权 [8] - 只要客户愿意“多一个选项”,英伟达就不再拥有绝对定价权 [8]