这颗不被看好的芯片,终于翻身?
半导体芯闻·2025-12-01 10:29

文章核心观点 谷歌TPU经过十年迭代,已从解决内部算力危机的自研项目,发展为在性能上可与英伟达GPU正面竞争的战略级产品,并开始积极推动商业化,可能动摇英伟达在AI算力市场的霸权地位 [1][27] TPU的发展背景与初衷 - 2013年,谷歌面临算力危机,预测若1亿安卓用户每天进行3分钟语音识别,所需算力将是其数据中心总算力的两倍 [2] - 为避免依赖单一供应商(英伟达)并追求更高效率,谷歌决定自研深度学习专用ASIC芯片,目标是在推理上实现相比GPU 10倍的成本性能优势 [2] - 项目仅用15个月就完成从立项到大规模部署,2015年推出的第一代TPU(28nm制程)带来了15-30倍的性能提升和30-80倍的能效提升 [3] TPU的核心技术创新与早期争议 - 核心架构采用“脉动阵列”,由65536个乘法单元构成256×256网格,并采用“提前编译”策略,减少内存访问并降低能耗 [5] - 早期备受业界质疑,英伟达曾公布基准测试,称其Pascal P40 GPU在GoogLeNet推理上的性能是TPU的两倍(56万次/秒 vs 28万次/秒),并质疑TPU的单位性能成本 [6] - 谷歌的应对策略是聚焦于特定工作负载下的总拥有成本(TCO)和战略主动权,而非单卡峰值性能 [7] - TPU最终生产超过10万颗,并在AlphaGo等关键应用中证明价值,仅用48个TPU就战胜了使用1202个CPU和176个GPU的版本 [7] TPU的迭代历程与关键突破 - TPU v2 (2017): 从专用推理转向训练,定义了bfloat16数值格式,片上内存16GB,带宽600GB/s,采用“2D环形互连”,v2 Pod峰值算力达11.5 PetaFLOPS [9][10] - TPU v3 (2018): 性能翻倍,单芯片功耗达450W,推动全面转向液冷散热,为超大规模集群奠定物理基础 [11] - TPU v4 (2022): 引入OCS光电路交换技术,实现动态可编程互连,单集群规模达4096颗芯片,采用7nm工艺 [12][13] - TPU v5p (2023): 定位转向训练与推理双强,集群规模达8960颗芯片,互连带宽翻倍至1200GB/s,使用800G光模块 [14] - TPU v6 (2024): 专为推理优化,采用FP8格式,片上SRAM翻倍,能效比上一代提升67% [15] - TPU v7 Ironwood (2025): 单芯片FP8峰值算力达4614 TFLOPS,略高于英伟达B200的4500 TFLOPS,配备192GB HBM3e(带宽7.2TB/s),最高可组9216颗芯片集群,峰值算力达42.5 ExaFLOPS,是当前最大超级计算机的24倍以上 [1][16][18] TPU的商业化进展与市场影响 - 谷歌开始积极推动TPU商业化,与云服务商Fluidstack达成协议,并为其提供高达32亿美元的兜底担保 [20] - 向Meta、大型金融机构等推介在其自有数据中心部署TPU的方案,该业务可能为谷歌带来数十亿美元年收入,目标拿下英伟达10%的年营收盘子 [20] - 为简化客户使用,谷歌开发了“TPU command center”工具,并承诺客户可借助PyTorch生态与TPU交互 [20] - 野村证券预计,到2026年ASIC总出货量可能首次超过GPU,谷歌TPU 2025年预计出货250万片,2026年将超300万片 [21] - 相关消息导致英伟达股价波动,自10月底以来其市值已缩水超5万亿人民币 [22] - 谷歌自身仍同时支持两种芯片,2024年订购了约16.9万台英伟达Hopper架构GPU,同时内部已部署约150万颗TPU [22] 行业竞争格局与人才流动 - TPU的成功引发了激烈的人才争夺,其核心团队成为行业“黄埔军校” [24][26] - 2016年底,TPU核心十人团队中有八人离职创办Groq,其LPU芯片推理速度号称达英伟达GPU的10倍,成本仅1/10,并于2024年8月完成6.4亿美元融资,估值达28亿美元 [25] - OpenAI为推进自研芯片战略,大量挖角谷歌TPU团队,组建了以前谷歌高级工程总监Richard Ho为首的硬件团队,计划于2026年生产首个定制芯片 [25][26] - 亚马逊、微软、特斯拉等巨头以及Cerebras等初创公司也纷纷入局自研AI芯片,其团队中多有前TPU成员身影 [26] - 行业观点认为未来更可能呈现ASIC和GPU异构部署的格局,而非单一架构统治市场 [22] TPU成功带来的启示与行业展望 - 专用芯片(ASIC)在特定领域可实现比通用芯片高出数十倍的能效比 [27] - 软硬件协同是关键,谷歌的成功得益于TensorFlow、JAX等软件生态与海量内部场景的垂直整合 [27] - 算力竞争的本质是成本竞争,尤其在推理成本成为AI公司最大开支的当下 [27] - 生态系统仍是关键壁垒,未来的竞争是芯片性能与生态系统的综合较量 [27] - AI基础设施将转向“云+专用芯片+混合部署”的多样化形态,打破垄断并为产业带来新机遇 [28]