报告行业投资评级 - 增持(维持)[1] 报告的核心观点 - 2026年是商用GPU持续放量及CSP ASIC进入大规模部署的关键一年,数据中心Scale up(向上扩展)催生超节点爆发,铜缆凭借短距、低功耗、低成本优势成为机柜内互联最优解;Scale out(向外扩展)带动集群持续扩容,光模块与GPU配比飙升,产品放量使得光芯片缺口凸显,光与铜两大核心赛道共振,互联需求迎来量价齐升[5][54] 英伟达Rubin平台互联方案 - Scale up方案:Rubin NVL 144节点由18个计算托盘和9个交换托盘构成,每个计算托盘集成4个Rubin GPU模组(双die),单GPU模组单向互联带宽1.8TB/s,整机柜计算侧与交换侧单向带宽均为129.6TB/s,通过36颗第六代NVSwitch芯片(单向带宽3.6TB/s)及预计采用1.6T AEC铜缆(5184对224G差分对)实现高带宽互联[13][14] - Scale out方案:为实现大规模无阻塞互联,采用胖树(Fat Tree)架构,在满配CPX芯片、三层组网(Tor/Leaf/Spine交换机)的情况下,支持9216颗GPU集群,总光模块需求达110592个,芯片与光模块比例最高可达1:12[16][18] 谷歌TPU集群互联方案 - Scale up方案:基于3D Torus拓扑,单机柜64颗TPU(Ironwood V7)通过PCB走线、铜缆/AOC及光模块+OCS多链路互联,每颗TPU配置6个800Gbps I/O端口,芯片双向互联速率达4.8TB/s,整机柜连接介质用量为铜缆80根、PCB 64块、光模块96个[23][25] - Scale out方案:采用DCN分层架构,以9216颗TPU的ICI POD为基础模块,通过288台12.8T TOR交换机、576台25.6T Leaf交换机及144台25.6T Spine交换机进行流量汇聚,最终通过64台300300端口的OCS设备实现147456颗TPU集群的全局动态非阻塞互联[29] 亚马逊Trainium3集群互联方案 - Scale up方案:Trainium3 NL722机柜包含144颗Trainium3芯片,通过Scropio X PCIe 6.0交换芯片及AEC铜缆实现三层互联(PCB、背板、跨机架),其中背板互联需180根64端口PCIe AEC铜缆,跨机架互联需36根[33][34] - Scale out方案:采用ENA(前端)与EFA(后端)双网分工,使用高基数、低速率交换机(如12.8T)构建Clos拓扑无阻塞网络,当交换机带宽升级至25.6T/51.2T时,集群规模可线性扩展2/4倍,支持万卡级(如131072颗)集群[35] Meta AI训练集群互联方案 - Scale up方案:Minerva机柜内16颗MTIA芯片通过4颗Tomahawk5交换芯片及112G PAM4铜缆背板互联,采用cable backplane,MTIA单卡通过8个2*800Gbps端口对外互联,机柜总对称带宽达204.8Tbps[39] - Scale out方案:采用DSF解耦网络架构,机柜内由4颗Jericho3芯片构成RDSW,通过铜缆背板直连MTIA;集群层面由Ramon3芯片构建FDSW和SDSW进行分层组网,在1:1收敛比下保障非阻塞传输,例如18432颗MTIA集群需184320个800G OSFP光模块,芯片与光模块比例可达1:10[43][47][52][56] 投资建议与产业链公司 - 报告建议重点关注光与铜两大核心赛道[5][54] - 光芯片产业链相关公司包括长光华芯、源杰科技、仕佳光子等[2] - 铜缆产业链相关公司包括华丰科技、兆龙互连、沃尔核材等[2]
电子行业深度报告:AI基建,光板铜电:光、铜篇:主流算力芯片 Scale up&out 方案全解析
东吴证券·2025-12-27 13:59