文章核心观点 - 谷歌TPU从内部自研项目发展为战略级产品,性能显著提升并开始商业化,可能撼动英伟达在AI算力市场的霸权地位 [1][28] - TPU的成功证明了专用芯片在特定场景下的能效优势,AI基础设施未来将呈现GPU、TPU、定制ASIC多样化共存的生态格局 [28][29] - 算力竞争的本质是成本竞争,尤其在推理成本成为行业焦点时,性价比高的算力解决方案将赢得市场 [28] TPU的发展背景与初衷 - 2013年谷歌面临算力危机,预测语音搜索需求将消耗其数据中心总算力的两倍,通过扩大数据中心规模成本过高 [3] - 为避免依赖单一供应商英伟达GPU带来的效率损失和供应链风险,谷歌决定自研深度学习专用ASIC芯片 [3] - 项目目标明确:快速交付硬件,并在推理方面实现相比GPU 10倍的成本性能优势 [3] TPU的技术演进与突破 - 第一代TPU于2015年推出,采用28nm工艺,专为推理设计,带来15-30倍性能提升和30-80倍能效提升 [4] - TPU v2(2017)实现从推理到训练的跨越,创新定义bfloat16数值格式,并引入2D环形互连技术连接256颗TPU组成训练阵列 [10] - TPU v3(2018)性能翻倍,但因功耗问题首次引入液冷技术,奠定超大规模集群工程基础 [11] - TPU v4(2022)最大突破是引入光电路交换技术,使网络拓扑动态可编程,单集群规模达4096颗芯片 [13][14] - TPU v5p(2023)定位为训练与推理双强芯片,集群规模提升至8960颗,互连带宽翻倍至1200GB/s [14][15] - TPU v6(2024)专为推理进行架构重做,能效比提升67%,片上SRAM翻倍 [15][16] - TPU v7 Ironwood(2025)单芯片FP8峰值算力达4614 TFLOPS,略高于英伟达B200,最高集群算力达42.5 ExaFLOPS,是最大超级计算机的24倍 [1][16][18] TPU的商业化进展与行业影响 - 谷歌开始积极推动TPU商业化,与小型云服务商Fluidstack达成协议,并向Meta、大型金融机构等推介自有数据中心部署方案 [20] - 野村证券预计到2026年ASIC总出货量将首次超过GPU,谷歌TPU 2025年预计出货250万片,2026年超300万片 [21] - 谷歌开发TPU command center简化客户使用流程,并承诺可借助PyTorch生态与TPU交互 [20] - 谷歌自身仍在大量采购英伟达GPU,2024年订购约16.9万台Hopper架构GPU,同时内部部署约150万颗TPU,未来更可能呈现异构部署 [22] 行业竞争与人才流动 - TPU核心团队人才流失严重,2016年底十人核心团队中有八人离职创办Groq公司,其LPU芯片推理速度达英伟达GPU的10倍 [24] - OpenAI为推进自研芯片战略,大量挖角谷歌TPU团队,并与博通、台积电合作计划于2026年生产定制芯片 [24][25][26] - TPU的成功促使多家公司自研AI芯片,如亚马逊的Trainium/Inferentia、微软的Maia、特斯拉的Dojo,谷歌TPU项目成为行业“黄埔军校” [26]
这颗不被看好的芯片,终于翻身?