⾕歌 Ironwood TPU 技术细节与⾏业影响分析 公司及产品定位 - 公司为⾕歌(Google) 产品为其最新⼀代张量处理单元(TPU)代号 Ironwood 专为⼤规模 AI 推理设计(⾮训练场景) ⽬标应⽤包括⼤语⾔模型(LLMs) 专家混合模型及推理模型[1] - Ironwood 仅限⾕歌内部使⽤ 集成于 Google Cloud 服务 不对外销售[1] 核⼼性能指标 - 单节点最⾼集成 9,216 颗芯⽚ 计算性能达 42.5 Exaflops(FP8 精度) 功耗为 10MW[1] - 每瓦性能相⽐上⼀代 TPU(Trillium)提升 2 倍 相⽐ TPUv4 提升近 6 倍[1][2] - 共享内存容量达 1.77 PB(HBM3e) 带宽为 7.3TB/秒 创⾏业纪录[2] 技术创新与架构升级 - 采⽤光路交换机(OCS)技术 实现芯⽚间内存共享 ⽀持动态剔除故障节点并通过检查点恢复重构集群[2] - ⾸次采⽤多计算⼩芯⽚(Chiplet)设计 每物理芯⽚集成两个计算芯⽚ 突破光罩尺⼨限制[2] - 集成 8 组 HBM3e 内存堆栈 单芯⽚内存容量 192GB[2] - 第三代液冷系统采⽤多循环设计 确保冷板⽔质洁净防堵塞[2] - 第四代 SparseCore 加速嵌⼊与集合操作[2] 可靠性及安全性特性 - 强化 RAS(可靠性 可⽤性 可服务性)功能 包括⾃检 静默数据损坏检测 算术运算实时校验等[2] - ⽀持机密计算 集成信任根 安全启动及安全调试功能[3] - 硬件与软件协同优化电⼒波动 保障兆瓦级负载下的电⽹稳定性[2] 部署与扩展能⼒ - 单 SuperPod 可扩展⾄ 9,216 芯⽚(⾮ 2 的幂设计 预留冗余机架) 横向扩展⽀持数⼗个 SuperPod[2][3] - 物理层级结构:单托盘含 4 个 TPU 单机架含 16 个托盘(64 TPU) 机架内互联采⽤铜缆 跨机架通过 OCS 连接[3] 设计与⽣态协作 - 芯⽚设计阶段应⽤ AI 技术优化算术逻辑单元(ALU)电路及布局规划 与 AlphaChip 团队合作开发[2] - 数据中⼼级电⼒感知与控制系统 实现硬件与基础设施的协同能效管理[3] ⾏业地位与战略意义 - Ironwood 代表⾕歌在 AI 推理领域的技术领先性 强调从芯⽚到数据中⼼的全栈创新[5] - 超⼤规模部署已启动 视频资料证实实际应⽤进展[2] 注:⽂中未提及竞争对⼿产品(如 AMD MI350)的直接对⽐ 或具体商业落地时间表
谷歌Ironwood TPU:2025 年 Hot Chips 大会剑指推理模型领军地位