Workflow
谷歌 Ironwood TPU:在推理模型训练与推理服务领域实现一流性能、性能成本比及性能功耗比
2025-09-04 14:38

行业与公司 * 行业涉及人工智能加速器芯片和云计算基础设施 公司为开发Ironwood TPU系统的科技企业 与Google Cloud有紧密合作关系[3][6][35] * 公司专注于为推理模型训练和服务提供高性能计算解决方案 强调在性能、总拥有成本(TCO)和能效(perf/Watt)方面的领先优势[3] 核心技术创新与性能指标 * 系统集成9216个Ironwood芯片 通过光学电路开关(OCS)共享内存 直接可寻址的共享HBM内存容量达1.77 PB[7][11][16] * 提供42.5 Exaflops的机器学习计算能力 使用FP8精度[7][17] * 单个Ironwood芯片为首次采用双计算晶片的TPU 提供4614 TFLOPS的FP8算力 比较前代TPU v5p提升超过10倍[38][40] * 芯片配备8个HBM3E堆栈 峰值带宽7.3 TB/s 容量192 GiB 并支持1.2 TBps的I/O以无缝扩展至9216芯片[40] 能效与冷却系统 * 拥有行业领先的计算能效 比较前一代提升2倍perf/W[7][23] * 采用第三代液冷基础设施 托盘级设计配备并行水流和阀门控制流量 提升冷却效率[7][26][62] 专用加速与功能特性 * 集成第四代SparseCore 用于加速嵌入和集合卸载 比较第三代SparseCore提升2.4倍FLOPS[7][30] * 支持机密计算 集成硬件信任根(iROT) 提供安全启动、安全测试调试功能 并支持PCIe DOE和CMA[40][58][60] * 具备功能内建自测试(BIST)和静默数据损坏(SDC)缓解机制 以及逻辑修复以提高良率[40] 系统架构与可扩展性 * 架构支持大规模扩展 一个超级池(Superpod)可连接9216芯片 任意大小的切片均可组建 资源按任务分配 故障节点影响范围小[9][73] * 机架间通过不同等级的光学电路开关(OCS)连接[13] * 利用非一致性共享内存和多线程技术 实现跨节点的海量内存并行访问(数百万未完成引用)[32] 电力管理与优化 * 支持前所未有的兆瓦(MW)级负载波动管理 在大规模预训练中出现秒/毫秒级的负载剧烈变化[33][34] * 采用全栈方法进行主动功率整形(Google Project Smoothie) 结合硬件和软件特性平滑功率波动[34] * 通过芯片/系统/机架的功率管理能力与数据中心功率感知控制相结合 目标在相同电力预算下为数据中心额外提升30%吞吐量[67][68][72] 可靠性、可用性与可维护性(RAS)及部署 * 极度强调可靠性、可用性和可维护性(RAS) 以支持扩展到极端规模[7][20][74] * 超大规模部署正在进行中 即将在Google Cloud上线[7][35] * 拥有超过8年的液冷生产经验和超过1吉瓦(GW)的生产规模[75]