Workflow
谷歌Ironwood TPU
icon
搜索文档
谷歌Ironwood TPU:2025 年 Hot Chips 大会剑指推理模型领军地位
2025-09-04 14:38
**⾕歌 Ironwood TPU 技术细节与⾏业影响分析** **公司及产品定位** - 公司为⾕歌(Google) 产品为其最新⼀代张量处理单元(TPU)代号 Ironwood 专为⼤规模 AI 推理设计(⾮训练场景) ⽬标应⽤包括⼤语⾔模型(LLMs) 专家混合模型及推理模型[1] - Ironwood 仅限⾕歌内部使⽤ 集成于 Google Cloud 服务 不对外销售[1] **核⼼性能指标** - 单节点最⾼集成 9,216 颗芯⽚ 计算性能达 42.5 Exaflops(FP8 精度) 功耗为 10MW[1] - 每瓦性能相⽐上⼀代 TPU(Trillium)提升 2 倍 相⽐ TPUv4 提升近 6 倍[1][2] - 共享内存容量达 1.77 PB(HBM3e) 带宽为 7.3TB/秒 创⾏业纪录[2] **技术创新与架构升级** - 采⽤光路交换机(OCS)技术 实现芯⽚间内存共享 ⽀持动态剔除故障节点并通过检查点恢复重构集群[2] - ⾸次采⽤多计算⼩芯⽚(Chiplet)设计 每物理芯⽚集成两个计算芯⽚ 突破光罩尺⼨限制[2] - 集成 8 组 HBM3e 内存堆栈 单芯⽚内存容量 192GB[2] - 第三代液冷系统采⽤多循环设计 确保冷板⽔质洁净防堵塞[2] - 第四代 SparseCore 加速嵌⼊与集合操作[2] **可靠性及安全性特性** - 强化 RAS(可靠性 可⽤性 可服务性)功能 包括⾃检 静默数据损坏检测 算术运算实时校验等[2] - ⽀持机密计算 集成信任根 安全启动及安全调试功能[3] - 硬件与软件协同优化电⼒波动 保障兆瓦级负载下的电⽹稳定性[2] **部署与扩展能⼒** - 单 SuperPod 可扩展⾄ 9,216 芯⽚(⾮ 2 的幂设计 预留冗余机架) 横向扩展⽀持数⼗个 SuperPod[2][3] - 物理层级结构:单托盘含 4 个 TPU 单机架含 16 个托盘(64 TPU) 机架内互联采⽤铜缆 跨机架通过 OCS 连接[3] **设计与⽣态协作** - 芯⽚设计阶段应⽤ AI 技术优化算术逻辑单元(ALU)电路及布局规划 与 AlphaChip 团队合作开发[2] - 数据中⼼级电⼒感知与控制系统 实现硬件与基础设施的协同能效管理[3] **⾏业地位与战略意义** - Ironwood 代表⾕歌在 AI 推理领域的技术领先性 强调从芯⽚到数据中⼼的全栈创新[5] - 超⼤规模部署已启动 视频资料证实实际应⽤进展[2] **注**:⽂中未提及竞争对⼿产品(如 AMD MI350)的直接对⽐ 或具体商业落地时间表
谷歌 Ironwood TPU:在推理模型训练与推理服务领域实现一流性能、性能成本比及性能功耗比
2025-09-04 14:38
**行业与公司** * 行业涉及人工智能加速器芯片和云计算基础设施 公司为开发Ironwood TPU系统的科技企业 与Google Cloud有紧密合作关系[3][6][35] * 公司专注于为推理模型训练和服务提供高性能计算解决方案 强调在性能、总拥有成本(TCO)和能效(perf/Watt)方面的领先优势[3] **核心技术创新与性能指标** * 系统集成9216个Ironwood芯片 通过光学电路开关(OCS)共享内存 直接可寻址的共享HBM内存容量达1.77 PB[7][11][16] * 提供42.5 Exaflops的机器学习计算能力 使用FP8精度[7][17] * 单个Ironwood芯片为首次采用双计算晶片的TPU 提供4614 TFLOPS的FP8算力 比较前代TPU v5p提升超过10倍[38][40] * 芯片配备8个HBM3E堆栈 峰值带宽7.3 TB/s 容量192 GiB 并支持1.2 TBps的I/O以无缝扩展至9216芯片[40] **能效与冷却系统** * 拥有行业领先的计算能效 比较前一代提升2倍perf/W[7][23] * 采用第三代液冷基础设施 托盘级设计配备并行水流和阀门控制流量 提升冷却效率[7][26][62] **专用加速与功能特性** * 集成第四代SparseCore 用于加速嵌入和集合卸载 比较第三代SparseCore提升2.4倍FLOPS[7][30] * 支持机密计算 集成硬件信任根(iROT) 提供安全启动、安全测试调试功能 并支持PCIe DOE和CMA[40][58][60] * 具备功能内建自测试(BIST)和静默数据损坏(SDC)缓解机制 以及逻辑修复以提高良率[40] **系统架构与可扩展性** * 架构支持大规模扩展 一个超级池(Superpod)可连接9216芯片 任意大小的切片均可组建 资源按任务分配 故障节点影响范围小[9][73] * 机架间通过不同等级的光学电路开关(OCS)连接[13] * 利用非一致性共享内存和多线程技术 实现跨节点的海量内存并行访问(数百万未完成引用)[32] **电力管理与优化** * 支持前所未有的兆瓦(MW)级负载波动管理 在大规模预训练中出现秒/毫秒级的负载剧烈变化[33][34] * 采用全栈方法进行主动功率整形(Google Project Smoothie) 结合硬件和软件特性平滑功率波动[34] * 通过芯片/系统/机架的功率管理能力与数据中心功率感知控制相结合 目标在相同电力预算下为数据中心额外提升30%吞吐量[67][68][72] **可靠性、可用性与可维护性(RAS)及部署** * 极度强调可靠性、可用性和可维护性(RAS) 以支持扩展到极端规模[7][20][74] * 超大规模部署正在进行中 即将在Google Cloud上线[7][35] * 拥有超过8年的液冷生产经验和超过1吉瓦(GW)的生产规模[75]
关于谷歌TPU性能大涨、Meta算力投资、光模块、以太网推动Scale Up...,一文读懂Hot Chips 2025大会要点
硬AI· 2025-09-04 08:42
AI基础设施需求增长 - AI在消费端和企业端的爆炸式增长继续推动先进计算、内存和网络技术的多年强劲需求周期 [2] - 每个会议都强调AI是技术进步和产品需求的最重要驱动力 [2] - AI基础设施需求增长动能依然强劲 且正在从单纯的计算力竞争扩展到网络和光学技术的全面升级 [2] 谷歌TPU性能突破 - Ironwood TPU峰值FLOPS性能较TPU v5p提升约10倍 功效比提升5.6倍 [5] - 配备192GB HBM3E内存 带宽达7.3TB/s 相比TPU v5p的96GB HBM2和2.8TB/s带宽显著提升 [5] - 超级集群可扩展至9,216颗芯片 由144个机架组成 总计1.77PB直接可寻址HBM内存和42.5 exaflops FP8计算能力 [5] - 功效比达4.2 TFLOPS/瓦 略低于英伟达B200/300 GPU的4.5 TFLOPS/瓦 [5] - 采用3纳米工艺 预计2025年下半年量产 将为博通带来90亿美元收入 生命周期总收入超过150亿美元 [6] Meta定制化部署 - 定制NVL72系统Catalina分布在两个IT机架中 配备四个辅助冷却机架 [7] - 每个B200 GPU配对一个Grace CPU 使Grace CPU总数翻倍至72个 [7] - LPDDR内存从17.3TB增至34.6TB 缓存一致性内存总量从30TB增至48TB 增幅达60% [7] - 选择定制设计基于模型需求和物理基础设施考虑 [7] - 英伟达采用符合OCP标准的MGX模块化参考设计架构 支持客户个性化定制 [7] 网络技术发展 - 网络技术成为AI基础设施关键增长点 Scale Up和Scale Out领域都出现显著增长机会 [8][9] - 博通推出51.2TB/s Tomahawk Ultra交换机 专为HPC和AI应用构建的低延迟Scale Up交换机 [9] - Scale Up代表博通TAM扩展的重要机会 超大规模云服务商部署越来越大的XPU集群 [10] - 英伟达推出"Spectrum-XGS"以太网技术 解决跨多个数据中心的分布式集群需求 [11] - Spectrum-XGS具有无限制扩展和自动调整负载均衡优势 CoreWeave成为首个部署客户 [12] 光学技术集成 - 多个演讲者强调推动光学技术深度集成到AI基础设施的关键动力 [14] - 动力包括铜互连限制 快速增长的机架功率密度 以及光学收发器较高成本和功耗 [14] - Lightmatter展示Passage M1000"AI 3D光子互连器" 解决I/O连接扩展挑战 [14] - Ayar Labs推出TeraPHY光学I/O芯片 支持高达8.192TB/s双向带宽 [14] - 功耗效率比传统可插拔光学器件加电气SerDes高4-8倍 [14] - 数据中心功耗限制将成为2027-2028年广泛采用的关键驱动因素 [14] AMD产品进展 - MI355X运行TBP为1.4kW 时钟频率2.4GHz MI350X为1.0kW和2.2GHz [16] - MI355X主要部署在液冷数据中心 MI350X服务于传统风冷基础设施客户 [17] - MI355X计算性能较MI350X高出9% 但单芯片内存容量和带宽保持一致 [18] - MI355X可部署在最多128个GPU的机架系统 MI350X机架最多支持64个GPU [18] - MI400系列及"Helios"机架解决方案按计划于2026年推出 MI500系列计划于2027年发布 [18] - AMD在推理计算市场具备良好定位 需求增长超过训练市场 [18]
摩根大通:关于谷歌TPU性能大涨、Meta算力投资、光模块、以太网推动Scale Up...,一文读懂Hot Chips 大会
美股IPO· 2025-09-04 04:24
AI基础设施需求增长 - AI在消费端和企业端的爆炸式增长将继续推动先进计算、内存和网络技术的多年强劲需求周期[3] - AI基础设施需求的增长动能依然强劲 且正在从单纯的计算力竞争扩展到网络和光学技术的全面升级[3] 谷歌TPU技术突破 - Ironwood TPU峰值FLOPS性能较TPU v5p提升约10倍 功效比提升5.6倍[4] - 配备192GB HBM3E内存 带宽达7.3TB/s 相比TPU v5p的96GB HBM2和2.8TB/s带宽有显著提升[4] - 超级集群可扩展至9,216颗芯片 由144个机架组成 总计1.77PB直接可寻址HBM内存和42.5 exaflops FP8计算能力[4] - 4.2 TFLOPS/瓦功效比仅略低于英伟达B200/300 GPU的4.5 TFLOPS/瓦[5] - 采用3纳米工艺 预计2025年下半年量产 将为博通带来90亿美元收入 生命周期总收入超过150亿美元[5] Meta定制化部署 - 定制NVL72系统Catalina分布在两个IT机架中 配备四个辅助冷却机架[6] - 每个B200 GPU配对一个Grace CPU 使Grace CPU总数翻倍至72个 LPDDR内存从17.3TB增至34.6TB 缓存一致性内存总量从30TB增至48TB增幅达60%[6] - 选择定制设计基于模型需求和物理基础设施考虑 包括大语言模型和排序推荐引擎[6] - 采用符合OCP标准的MGX模块化参考设计架构 支持个性化定制[7] 网络技术发展 - 网络技术成为AI基础设施关键增长点 Scale Up和Scale Out领域都出现显著增长机会[8][3] - 博通推出51.2TB/s Tomahawk Ultra交换机 专为HPC和AI应用构建的低延迟Scale Up交换机[9] - 支持102.4TB/s Tomahawk 6交换机的战略 推动以太网在Scale Up和Scale Out领域采用[10] - Scale Up代表博通TAM扩展的重要机会 超大规模云服务商部署越来越大的XPU集群[11] - 英伟达推出"Spectrum-XGS"以太网技术 解决跨多个数据中心的分布式集群需求 宣布CoreWeave成为首个部署客户[11] 光学技术集成 - 推动光学技术深度集成到AI基础设施 关键动力包括铜互连限制 快速增长机架功率密度 光学收发器较高成本和功耗[12] - Lightmatter展示Passage M1000"AI 3D光子互连器" 解决I/O连接扩展挑战[12] - Ayar Labs推出TeraPHY光学I/O芯片 支持高达8.192TB/s双向带宽 功耗效率比传统可插拔光学器件高4-8倍[13] - 数据中心功耗限制将成为2027-2028年广泛采用的关键驱动因素[13] AMD产品发展 - MI355X运行TBP为1.4kW 时钟频率2.4GHz 而MI350X为1.0kW和2.2GHz[14] - MI355X主要部署在液冷数据中心 MI350X服务于传统风冷基础设施客户[15] - MI355X计算性能较MI350X高出9% 但单芯片内存容量和带宽保持一致[16] - MI355X可部署最多128个GPU机架系统 MI350X机架最多支持64个GPU[16] - MI400系列及"Helios"机架解决方案按计划于2026年推出 MI500系列计划于2027年发布[16] - 在推理计算市场具备良好定位 需求增长超过训练市场 具有强劲性能和总体拥有成本优势[16] 行业整体趋势 - Meta扩展100k+ GPU集群规模 未来十年预计增长10倍[3] - 以太网向Scale-up领域扩张成为网络关键增长点[3] - 光学集成技术加速发展以应对功耗限制[3]