SUE

搜索文档
国内外AI服务器Scale up方案对比
傅里叶的猫· 2025-08-18 15:04
Scale Up技术概述 - Scale Up通过提升单台服务器的计算密度增强算力,如集成更多高性能GPU、更大内存或更快存储,形成"超级节点"[1] - 特点包括高带宽、低时延,适合AI推理的大显存并行计算及训练中的张量并行(TP)和专家并行(EP)任务[1] - 支持在网计算,如在Switch节点加速All Reduce操作,提升GPU协作效率[1] - 依赖高端硬件导致成本较高,常与Scale Out结合使用以兼顾性能与扩展性[1] 英伟达NVLink方案 - 采用自研NVLink高速互连技术,通过铜缆实现机柜内GPU高带宽低延迟连接[3] - GB200 NVL72架构集成18个计算托盘和9个NVLink Switch托盘,每个计算托盘含4颗B200 GPU(共72颗)[3][8] - 每个NVSwitch5芯片带宽28.8Tb/s,整机柜含18颗NVSwitch5芯片,共72个端口对应72颗GPU[8] - B200 NVLink带宽1.8TB/s,含18个端口,每个端口带宽100GB/s(2x224G PAM4 Serdes)[8] - 未来Rubin架构将升级至NVLink 6.0/7.0,带宽密度提升,延迟降低[5] NVLink Fusion生态开放 - 推出NVLink Fusion技术,向第三方CPU/加速器开放生态,允许通过NVLink C2C或NVLink 5 Chiplet集成[11][12] - 采用"二选一"模式:仅支持半定制CPU或加速器,节点必须包含英伟达芯片[12] - 合作伙伴包括Alchip、AsteraLabs等芯片厂商,富士通/高通研发兼容CPU,Cadence/Synopsys提供IP支持[13] AMD UALink方案 - UALink是由AMD等公司推出的开放互连标准,支持每通道200GT/s,最多连接1024个加速器,延迟<1微秒[16] - MI400采用UALoE方案,通过以太网物理层传输UALink协议,兼容现有以太网生态[17] - Helio UALoE 72架构含18个计算托盘(各4颗MI400 GPU)和6个交换托盘(各2颗Tomahawk6 102.4T交换机)[18] 其他厂商方案 - **AWS NeuronLink**:基于PCIe Gen5协议,Trn2-Ultra64机柜间用AEC、机柜内用DAC互连,Teton PDS Ultra含40个Scorpio X交换机[21][22] - **Meta SUE**:采用博通Tomahawk5/Jericho3交换芯片,Minerva架构含16个MTIA计算托盘和6个交换托盘[24] - **Google ICI**:TPU v4 pod采用3D Torus拓扑(4×4×4),机柜内DAC连接,机柜间通过OCS光交换组成4096 TPU集群[26] - **华为UB**:Cloud Matrix 384系统含384颗昇腾910C芯片,通过统一总线(UB)光互连,使用6912个400G光模块[28][29] 技术演进趋势 - NVLink带宽从4.0的450GB/s提升至7.0的1800GB/s,NVSwitch聚合带宽从1600GB/s增至14400GB/s[6] - 互连技术从封闭走向有限开放(如NVLink Fusion),同时出现开放标准(UALink)与私有协议(ICI/NeuronLink)并存[11][16][26] - 光互连在跨机架场景应用增多(华为UB用5376个400G光模块),铜缆仍主导机柜内连接[29][3]