AWS发布3nm芯片： 144 GB HBM3e，4.9 TB/s带宽

AWS发布新一代AI训练芯片Trainium3 - 亚马逊网络服务在re:Invent大会上正式发布下一代AI加速器Trainium3，并推出基于该芯片的Amazon EC2 Trn3 UltraServer系统 [1] - Trainium3采用台积电3纳米工艺制造，单芯片提供2.52 PFLOPs的FP8计算能力，集成144 GB HBM3e显存，内存带宽达4.9 TB/s [1] - 芯片新增对FP32、BF16、MXFP8和MXFP4数据格式的支持，并增强了对结构化稀疏性、微扩展、随机舍入和集体通信引擎的硬件支持，旨在更好地适应大语言模型、混合专家架构和多模态系统的训练 [1] Trainium3 UltraServer系统级性能大幅提升 - 完全配置的Trainium3 UltraServer系统连接144个芯片，聚合计算能力达362 FP8 PFLOPs，封装内HBM3e内存达20.7 TB，内存带宽达706 TB/s [2] - 与上一代基于Trainium2的架构相比，该系统可提供高达4.4倍的计算性能提升、4倍的能效提升以及近4倍的内存带宽提升 [2] - 系统引入NeuronSwitch-v1全连接架构，将芯片间带宽提升至Trn2 UltraServer的两倍，升级后的Neuron Fabric将芯片间通信延迟降低至略低于10微秒 [3] 实际应用表现与客户反馈 - 在对OpenAI的开源权重模型GPT-OSS进行的内部测试中，与上一代UltraServer相比，每个芯片的吞吐量提高了3倍，推理响应时间提高了4倍 [4] - 客户如Anthropic、Metagenomi和Neto.ai报告称，使用Trainium3与替代方案相比，训练成本最多可降低50% [5] - 人工智能视频初创公司Decart使用Trainium3进行实时生成视频，并以GPU一半的成本实现了4倍的帧生成速度 [5] AWS下一代芯片Trainium4的规划 - AWS已着手研发下一代定制芯片Trainium4，旨在显著提升计算、内存和互连性能，包括至少6倍的FP4吞吐量、3倍的FP8性能以及4倍的内存带宽 [5] - Trainium4将集成英伟达的NVLink Fusion互连技术，目标是使Trainium4、Graviton和Elastic Fabric Adapter能够在通用的基于MGX的机架中互操作 [6] - AWS计划将NVIDIA NVLink技术集成到其定制的芯片栈中，设计Trainium4使其能够与NVLink 6和NVIDIA MGX机架架构集成 [7][8] AWS与NVIDIA的战略合作 - NVIDIA和AWS宣布建立多代合作伙伴关系，将NVLink Fusion芯片集成到未来的AWS AI机架和芯片设计中 [7] - 对NVIDIA而言，有机会将NVLink Fusion Chiplet和NVLink交换机销售到非NVIDIA的CPU/GPU/NIC芯片机架中 [10] - AWS决定采用NVIDIA NVLink技术，而不是自行构建通信协议、交换机以及机架基础设施，这意味着它不会在其机架内扩展计算链路中使用Broadcom Tomahawk Ultra或其他基于以太网的交换机芯片 [10]