ICI光互连系统
搜索文档
谷歌对比英伟达,AI芯片王者之争才刚开始
36氪· 2025-12-02 03:21
AI芯片市场竞争格局出现根本性松动 - 2025年AI芯片市场处于关键转折点,英伟达的主导地位首次出现根本性松动[1][21] - 谷歌从云服务商变身为商用芯片供应商,成为英伟达最懂的对手[3][21] 谷歌TPU的全面商业化与市场进攻 - 谷歌TPU全面商业化,通过直接销售和云租赁的“混合销售”方式向外界开放最先进算力系统[6] - Anthropic大规模采购超过1GW的TPU,部署超过100万颗TPUv7芯片,其中40万颗由博通直接出售价值约100亿美元,60万颗通过谷歌云租赁对应约420亿美元履约义务[3][6] - Meta、SSI、xAI等一线AI实验室均在考虑采购TPU[6] - OpenAI仅凭“威胁购买TPU”就迫使英伟达生态链让步,使其计算集群总拥有成本下降约30%[3][23] TPU在总拥有成本上具备显著优势 - 根据SemiAnalysis模型,TPUv7服务器的总拥有成本比英伟达GB200低约44%,即便通过云租赁,采用TPU的总拥有成本仍比采购GB200低约30%[8][9] - 成本优势源于谷歌独有的“超级云厂商兜底”金融工程,通过信用担保形式构建独立于英伟达体系的低成本基础设施生态[8] - 具体数据对比显示,TPU v7 Torus - External配置的总成本为每小时每GPU 1.60美元,低于英伟达GB200 NVL72的2.28美元和GB300 NVL 72的2.73美元[8] 谷歌TPU具备系统级架构优势 - 谷歌通过更高的模型算力利用率和更先进的系统架构弥补了单芯片理论峰值算力的差距[13] - 谷歌的ICI光互连系统是杀手锏,其自研OCS光交换机结合3D Torus拓扑,一个TPUv7 Pod可扩展至9216颗芯片,远高于英伟达的64/72卡结构[16][17] - 光网络可毫秒级动态重构并绕过故障点,光信号无需光电转换,功耗与延迟大幅降低[17] - 系统级成本对比显示,TPUv7 IC架构的扩展网络资本成本为每XPU 1,752美元,低于英伟达Trn2 Teton 2的1,855美元和PDS的4,590美元[18] 谷歌积极填补软件生态短板 - 过去外界不采用TPU的最大痛点是软件生态,谷歌长期坚持JAX而开发者普遍使用PyTorch + CUDA[19] - 谷歌态度彻底改变,软件团队KPI从“内部服务”转向“全面拥抱开源”[22] - 谷歌正全力支持PyTorch Native在TPU上运行,让XLA直接对接PyTorch的eager mode,并大量投入vLLM、SGLang等开源推理框架[22] 行业影响与未来展望 - Gemini 3与Claude 4.5 Opus两大最强模型均在TPU上完成预训练,为TPU系统能力提供了有力背书[16] - 英伟达的“循环经济”商业模式受到市场质疑,其财务团队罕见发布长文回应相关质疑[6][23] - TPUv8与英伟达Rubin架构的下一轮正面对决已经在路上[23]