TPU v7加速器 - 财报，业绩电话会，研报，新闻

TPU v7加速器

搜索文档

半导体行业观察· 2025-11-07 01:00

TPU v7 (Ironwood)性能突破 - 谷歌最新一代Ironwood TPU加速器性能实现重大飞跃，性能是TPU v5p的10倍，是TPU v6e"Trillium"的4倍 [4] - 单个Ironwood TPU提供4.6 petaFLOPS的密集FP8性能，略高于英伟达B200的4.5 petaFLOPS，略低于GB200/GB300的5 petaFLOPS [3] - 计算平台配备192GB HBM3e内存，提供7.4 TB/s带宽，与英伟达B200（192GB HBM，8TB/s内存带宽）处于同一水平 [3] - 每个TPU具有四个ICI链路，提供9.6 Tbps总双向带宽，而英伟达B200/B300为14.4 Tbps (1.8 TB/s) [3] 大规模扩展架构优势 - 谷歌TPU以Pod形式提供，单个Ironwood模块可通过专有互连网络连接多达9216个独立芯片 [7] - 9216颗芯片共享1.77PB高带宽内存，互连带宽高达9.6 Tbps，相当于在不到两秒内下载整个美国国会图书馆 [7] - 采用光路交换技术构成动态可重构架构，组件故障时可在几毫秒内自动绕过中断点，保持工作负载运行 [7] - 液冷系统整体正常运行时间保持约99.999%可用性水平，相当于每年停机时间不到6分钟 [8] - 采用3D环面拓扑结构，每个芯片以三维网格形式连接其他芯片，无需使用高性能数据包交换机 [8] Axion CPU战略布局 - 谷歌部署首款基于Armv9架构的通用处理器Axion，基于Arm Neoverse v2平台构建 [11] - Axion旨在比现代x86 CPU提升高达50%性能、高达60%能效，比云端最快通用Arm实例性能高30% [11] - 该CPU每个核心配备2MB私有L2缓存，80MB L3缓存，支持DDR5-5600 MT/s内存和统一内存访问 [11] - 早期客户Vimeo报告核心转码工作负载性能提升30%，ZoomInfo在Java服务上性价比提升60% [12] 软件生态系统与生产力 - AI超级计算机客户平均实现353%三年投资回报率，降低28% IT成本，提高55% IT团队效率 [14] - 谷歌Kubernetes Engine为TPU集群提供高级维护和拓扑感知功能，实现智能调度和高弹性部署 [14] - 开源MaxText框架支持监督式微调和生成式强化策略优化等高级训练技术 [14] - 推理网关通过前缀缓存感知路由等技术，将首次令牌延迟降低96%，服务成本降低高达30% [14] - 推理网关监控关键指标并智能路由请求，对共享上下文的请求路由到同一服务器以减少冗余计算 [15] 行业竞争格局与客户采用 - Ironwood Pods的FP8 ExaFLOPS性能被谷歌称为是其最接近竞争对手的118倍 [7] - 谷歌TPU v4支持最大4096芯片POD，TPU v5p提升至8960芯片，Ironwood进一步达到9216芯片 [16] - Anthropic计划利用多达一百万个TPU来训练和运行其下一代Claude模型 [16] - 亚马逊Trainium 2加速器在其计算结构中也采用2D和3D环面网格拓扑结构 [16]