超以太网(Ultra Ethernet

搜索文档
英伟达迎来一群劲敌
半导体行业观察· 2025-09-01 01:17
超以太网(UE)技术概述 - 超以太网(Ultra Ethernet)1.0规范为AI和高性能计算(HPC)系统定义了一套变革性的高性能以太网标准 其核心创新是超以太网传输层(UET) 这是一种可完全通过硬件加速的协议 专为超大规模系统中的可靠、高速、高效通信而设计[2] - 超以太网充分利用以太网庞大的生态系统 相比InfiniBand实现每传输1比特数据带来千倍级计算效率提升 开启高性能网络新时代[2] 技术发展背景与动因 - 传统InfiniBand和RoCE协议存在明显局限性 包括要求网络提供无损传输能力、严格按序交付数据包 以及依赖优先级流控(PFC)机制导致拥塞扩散和队首阻塞问题[4][5][6] - 过去25年晶体管成本降低超过10万倍 而带宽仅从SDR提升至XDR 增幅仅为100倍 这使得网络架构设计人员在每传输1比特数据时可利用的计算资源增加1000倍以上 促使企业重新思考AI和HPC网络协议栈设计[7] - 2022年第一季度 AMD、博通、HPE、英特尔和微软等公司组建工作组 基于各企业内部研发成果打造下一代以太网开放标准 该项目最初名为HiPER 后更名为超以太网(UE)[8] 超以太网联盟(UEC)与核心原则 - 2023年7月 超以太网联盟(UEC)由AMD、Arista、博通、思科、Eviden、HPE、英特尔、Meta和微软联合正式宣布成立 作为Linux基金会联合开发基金会旗下的开放项目 截至2024年底 成员公司已超过100家 参与人数超过1500人[9] - 联盟核心原则包括:大规模可扩展性(支持数百万个网络端点)、高性能(通过高效协议实现 如无连接API建立耗时可低至纳秒级)、与现有以太网数据中心部署兼容性(仅需交换机支持ECMP和基础ECN功能)、厂商差异化(在确保互操作性的前提下支持厂商创新)[9][10][11] 网络架构与关键特性 - 超以太网将网络划分为三种基本类型:本地网络(纵向扩展型 连接CPU与加速器 传输距离达10米 延迟目标为亚微秒级)、后端网络(横向扩展型 连接计算设备的高性能网络)和前端网络(传统数据中心网络)[12] - 关键特性包括:高可扩展性无连接传输协议、原生支持逐包多路径传输(数据包喷洒)、支持可靠与不可靠两种传输模式、创新性拥塞管理方案、支持纯硬件/纯软件/软硬件混合部署、集成端到端加密与认证功能、链路层优化支持硬件加速[18] - 超以太网提供三个配置文件:HPC配置文件(最丰富功能集 针对MPI和OpenSHMEM工作负载优化)、AI Full配置文件(AI Base的超集 支持精确标签匹配)、AI Base配置文件(实现复杂度最低)[24] 技术实现细节 - 采用ECMP数据包喷洒技术实现负载均衡 通过为每个数据包分配不同熵值(EV)避免流量极化现象 实现统计意义上的均匀分布[16][21][22] - 传输语义子层(SES)采用受Portals 4规范启发的有线协议和语义 实现高效、轻量级的libfabric提供程序 支持两种地址解析模式(相对寻址和绝对寻址)[29][30][31] - 提供多种消息处理机制:会合协议(HPC配置文件)、可延迟发送(AI Full配置文件)和接收方发起(AI Base配置文件) 优化不同场景下的消息传输效率[38][40][41] - 数据包交付子系统(PDS)管理数据包可靠传输 支持四种传输模式:可靠无序交付(RUD)、可靠有序交付(ROD)、不可靠无序交付(UUD)和幂等操作可靠无序交付(RUDI)[49][50][51] - 拥塞管理子系统(CMS)提供两种互补算法:基于网络信号的拥塞控制(NSCC)和基于接收端信用的拥塞控制(RCCC) 分别针对不同拥塞场景(入向拥塞、出向拥塞和网络内拥塞)进行优化[65][70][71][72][73] - 传输安全子系统(TSS)采用零信任安全模型 提供端到端机密性和认证服务 支持多种密钥管理机制和防重放攻击方案[80][81][84][86] 物理层与链路层特性 - 物理层(PHY)基本未因UE而改变 保持与任何以太网部署兼容 首批UE产品支持100G/lane或200G/lane信令[27] - 链路层引入两项独立可选特性:链路层重试(LLR)和基于信用的流控制(CBFC) 通过LLDP与对等设备协商启用[87][88]