分布式AI训练
搜索文档
谷歌TPU助力OpenAI砍价三成,英伟达的“王座”要易主了?
36氪· 2025-12-02 08:19
公司战略转变 - 谷歌TPU战略从主要服务内部AI模型转向积极向第三方销售芯片,直接与英伟达竞争 [1] - 公司通过谷歌云平台向外部客户提供TPU,并作为商业供应商销售完整TPU系统,以成为差异化云服务提供商 [2] - 与Anthropic达成的合作是公司外部战略的标志性一步,涉及直接销售硬件和通过云平台租赁两种方式 [2][3] 重要客户与合作 - Anthropic成为谷歌TPU首批重要客户,交易涉及约100万颗TPUv7芯片 [1][3] - 交易分配为:博通直接向Anthropic出售内含40万颗TPUv7芯片的成品机架,价值约100亿美元 [3] - Anthropic还将通过谷歌云平台租用另外60万颗TPUv7芯片,预计产生约420亿美元履约价值,占GCP第三季度新增订单积压490亿美元的大部分 [3] - 谷歌在早期对Anthropic进行了积极投资,并设定了15%的股权上限以扩大TPU外部应用 [2] 技术规格与成本优势 - TPUv7 "Ironwood"在理论算力(FP8 TFLOPs达4,614)和内存带宽(7,380 GB/s)上已接近英伟达Blackwell架构产品 [5][6] - 对谷歌而言,每颗TPU的总拥有成本比英伟达GB200低约44% [6] - 即使对外部客户,每个有效计算单元的成本仍可能比英伟达系统低30%-50% [6] - 谷歌系统支持将9,216颗芯片互联为统一计算域,而英伟达系统通常只能连接64到72颗芯片,在分布式AI训练中更具扩展性 [8] 市场影响与竞争格局 - OpenAI凭借转向TPU或其他替代方案,在与英伟达的谈判中获得了约30%的价格折扣 [1] - TPU已成为顶级AI模型的首选,谷歌Gemini 3 Pro和Anthropic Claude 4.5 Opus主要依托TPU和亚马逊Trainium芯片训练 [4] - 分析预测谷歌云未来几个季度有望与Meta、OpenAI等更多AI巨头达成类似交易 [3] 软件生态与部署模式 - 谷歌正加大投入消除软件兼容性制约,开发对PyTorch框架的原生支持并集成vLLM等推理库,目标是不要求开发者重构整个工具链 [10][12] - 公司采用创新融资模式,与Fluidstack等云服务商及TeraWulf等加密矿企合作,谷歌常担任财务保障角色以快速转型现有设施为AI算力设施 [12] 未来竞争与风险 - 英伟达正筹备在2026到2027年推出"Vera Rubin"芯片,采用HBM4内存等激进设计 [13] - 谷歌的应对策略是TPUv8双线开发,但项目已有延迟,且未积极采用台积电2nm工艺或HBM4内存等前沿技术 [13] - 若英伟达成功实现Rubin芯片性能提升,TPU现有的价格优势可能不复存在,其系统甚至在谷歌内部工作负载中可能比TPUv8更具经济效益 [13]