Workflow
下一代智算网络
icon
搜索文档
一文读懂“谷歌链”:AI全栈式创新,TPU+OCS共塑下一代智算网络
美股IPO· 2025-11-25 10:17
文章核心观点 - 谷歌通过深度整合自研TPU芯片与OCS光交换技术,构建了从芯片到应用的“全栈式”AI算力护城河,确立了下一代智算网络的架构标准 [1][3] - OCS技术通过物理光路直接传输数据,突破传统数据中心能效与扩展瓶颈,带来吞吐量提升和功耗成本降低等显著优势 [1][11][13] - 谷歌的技术革新驱动了上游光模块、MEMS芯片、光器件等产业链的增量需求,AI数据中心正向动态光子互联演进 [3][6][19] 芯片(TPU)技术 - 谷歌自研TPU v7(Ironwood)性能实现质的飞跃,单芯片计算能力较上一代TPU v5p提升超过十倍,峰值带宽达7.4 TB/s [6] - TPU v7采用3D Torus拓扑结构,单集群规模可扩展至9216颗芯片,并开始配置1.6T光模块以匹配极高算力密度 [6] - 预计到2026年,谷歌TPU将成为全球自研ASIC市场主力,出货量远高于AWS Trainium或Microsoft Maia等竞品 [8] 网络(OCS)技术 - OCS技术本质是用物理光路直接传输数据,彻底抛弃“光—电—光”信号转换过程,解决大规模扩展带来的功耗与效率难题 [1][10][11] - 在Ironwood集群中,48台OCS交换机连接9216个TPU芯片,构建低延迟、高带宽的动态光子网络 [11] - 引入OCS后,谷歌网络吞吐量提升30%,功耗降低40%,网络宕机时间减少50倍,资本开支减少30% [13] 产业链影响 - 谷歌TPU v7与英伟达GB200共同拉动,预计2026年行业1.6T光模块需求有望上修至2000万只以上 [8] - 谷歌OCS采用基于MEMS的方案,其定制光模块内置环形器,使所需端口和光缆数量比传统架构减少40% [15][17] - OCS的核心光学元件(如MEMS阵列、准直器、2D透镜阵列)单机价值量极高,并探索液晶、压电陶瓷等新技术路径 [18] - 预计2024-2029年OCS市场将以28%的复合增速增长,行业迎来技术与需求双重爆发期 [19]
一文读懂“谷歌链”:AI全栈式创新,TPU+OCS共塑下一代智算网络
华尔街见闻· 2025-11-25 08:25
文章核心观点 - 谷歌通过整合自研TPU芯片与OCS光交换技术,构建从芯片到网络的“全栈式”AI算力护城河,推动AI数据中心架构向动态光子互联演进 [1][3] TPU v7 (Ironwood) 芯片进展 - 即将全面上市的TPU v7在性能上实现质的飞跃,单芯片计算能力较上一代TPU v5p提升超过十倍,峰值带宽达7.4 TB/s [4] - TPU v7集群采用3D Torus拓扑结构,单集群规模可扩展至9216颗芯片,并开始配置1.6T光模块 [4] - 供应链调研指出,2026年谷歌TPU将成为全球自研ASIC市场主力,出货量远高于AWS Trainium或Microsoft Maia等竞品 [6] - 受英伟达GB200与谷歌TPU v7双重拉动,2026年行业1.6T光模块需求有望上修至2000万只以上 [6] OCS光交换技术优势 - 谷歌大规模引入OCS旨在解决大规模扩展带来的功耗与效率难题,替代面临严重功耗散热问题和昂贵布线成本的传统电分组交换机 [8] - OCS通过物理光路直接传输数据,摒弃“光—电—光”转换过程,是实现服务器解耦、允许计算资源跨机架动态编排的关键 [8] - 采用OCS后,谷歌网络吞吐量提升30%,功耗降低40%,网络宕机时间减少50倍,资本开支减少30% [11] - 在Ironwood集群中,48台OCS交换机连接了9216个TPU芯片,构建低延迟、高带宽的动态光子网络 [8] OCS技术构成与产业链影响 - 谷歌主流的Palomar OCS基于MEMS方案,拥有136个光路通道,通过2D MEMS微镜阵列反射光信号实现毫秒级光路切换 [14] - 谷歌在光模块中内置环形器,实现单根光纤双向传输,使所需端口和光缆数量比传统胖树架构减少40% [15] - OCS创造了对MEMS阵列、准直器、2D透镜阵列等高价值精密光学元器件的需求 [15] - 除MEMS方案外,谷歌正在探索液晶、压电陶瓷和硅光波导等新技术路径 [15] - Lightcounting预测2024-2029年OCS市场将以28%的复合增速增长,行业迎来技术与需求双重爆发期 [17] 谷歌全栈AI布局 - 公司已形成从芯片(TPU)到网络(OCS)、模型(Gemini)、应用(云计算/搜索/广告)的全栈优势布局 [3] - 自2011年成立谷歌大脑实验室以来,通过一系列AI研究(如2017年发布Transformer架构)将AI整合到多元业务流程中,获取海量训练数据 [3]