Workflow
TPU v7加速器
icon
搜索文档
英伟达最强对手,来了
半导体行业观察· 2025-11-07 01:00
TPU v7 (Ironwood)性能突破 - 谷歌最新一代Ironwood TPU加速器性能实现重大飞跃,性能是TPU v5p的10倍,是TPU v6e"Trillium"的4倍 [4] - 单个Ironwood TPU提供4.6 petaFLOPS的密集FP8性能,略高于英伟达B200的4.5 petaFLOPS,略低于GB200/GB300的5 petaFLOPS [3] - 计算平台配备192GB HBM3e内存,提供7.4 TB/s带宽,与英伟达B200(192GB HBM,8TB/s内存带宽)处于同一水平 [3] - 每个TPU具有四个ICI链路,提供9.6 Tbps总双向带宽,而英伟达B200/B300为14.4 Tbps (1.8 TB/s) [3] 大规模扩展架构优势 - 谷歌TPU以Pod形式提供,单个Ironwood模块可通过专有互连网络连接多达9216个独立芯片 [7] - 9216颗芯片共享1.77PB高带宽内存,互连带宽高达9.6 Tbps,相当于在不到两秒内下载整个美国国会图书馆 [7] - 采用光路交换技术构成动态可重构架构,组件故障时可在几毫秒内自动绕过中断点,保持工作负载运行 [7] - 液冷系统整体正常运行时间保持约99.999%可用性水平,相当于每年停机时间不到6分钟 [8] - 采用3D环面拓扑结构,每个芯片以三维网格形式连接其他芯片,无需使用高性能数据包交换机 [8] Axion CPU战略布局 - 谷歌部署首款基于Armv9架构的通用处理器Axion,基于Arm Neoverse v2平台构建 [11] - Axion旨在比现代x86 CPU提升高达50%性能、高达60%能效,比云端最快通用Arm实例性能高30% [11] - 该CPU每个核心配备2MB私有L2缓存,80MB L3缓存,支持DDR5-5600 MT/s内存和统一内存访问 [11] - 早期客户Vimeo报告核心转码工作负载性能提升30%,ZoomInfo在Java服务上性价比提升60% [12] 软件生态系统与生产力 - AI超级计算机客户平均实现353%三年投资回报率,降低28% IT成本,提高55% IT团队效率 [14] - 谷歌Kubernetes Engine为TPU集群提供高级维护和拓扑感知功能,实现智能调度和高弹性部署 [14] - 开源MaxText框架支持监督式微调和生成式强化策略优化等高级训练技术 [14] - 推理网关通过前缀缓存感知路由等技术,将首次令牌延迟降低96%,服务成本降低高达30% [14] - 推理网关监控关键指标并智能路由请求,对共享上下文的请求路由到同一服务器以减少冗余计算 [15] 行业竞争格局与客户采用 - Ironwood Pods的FP8 ExaFLOPS性能被谷歌称为是其最接近竞争对手的118倍 [7] - 谷歌TPU v4支持最大4096芯片POD,TPU v5p提升至8960芯片,Ironwood进一步达到9216芯片 [16] - Anthropic计划利用多达一百万个TPU来训练和运行其下一代Claude模型 [16] - 亚马逊Trainium 2加速器在其计算结构中也采用2D和3D环面网格拓扑结构 [16]