InfiniteHBD

搜索文档
网络基础设施如何支撑大模型应用?北京大学刘古月课题组5大方向研究,相关论文入选ACM SIGCOMM 2025
AI前线· 2025-09-23 06:37
作者 | 刘古月课题组 在大规模智能计算和未来网络快速演进的背景下,业界迫切需要更高带宽、更低成本、更智能化和更安全的网络基础设施,以支撑大语言模型训练、生 产网络运维与数据中心安全等多样化场景。 围绕这些需求,北京大学计算机学院网络与高能效计算研究所刘古月助理教授课题组长期聚焦于智能计算时代的网络体系结构、运维智能化和安全防护 研究,并从不同层面呼应行业痛点,形成互补合力,来推动新一代智能网络系统发展。 在今年的 ACM SIGCOMM 2025 上,该课题组共有 5 篇高水平论文(4 篇长文 +1 篇短文)入选,成为本年度 SIGCOMM 全球发文数量最多的高校课 题组 。据悉,SIGCOMM 作为计算机网络系统领域历史最悠久、最具权威性的学术会议,以严苛的录用标准著称。今年共有 461 篇投稿,录用仅 74 篇,录取率仅为 16.1%。这五篇论文的研究内容大概如下: 基于光交换收发器的大语言模型数据中心规模高带宽域架构 大语言模型(LLM)的训练依赖多维并行,其中高带宽域(High-Bandwidth Domain,HBD)是支撑张量并行等通信密集型并行方式的关键。 然而,现有 HBD 架构在可扩展性、 ...
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
量子位· 2025-05-19 04:37
大模型分布式训练技术 - 随着大模型参数规模扩大,分布式训练成为AI发展的中心技术路径[1] - 高带宽域(HBD)设计对提升大模型训练效率至关重要[2] - 张量并行和专家并行需依赖HBD提供Tbps级带宽支持[6] 现有HBD架构的局限性 - 以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂且不易扩展[3][8] - 以GPU为中心的HBD(如Google TPUv3)存在严重的故障传播问题[3][12] - 交换机-GPU混合HBD(如TPUv4)在成本和容错方面仍不理想[3][18] InfiniteHBD创新架构 - 采用以光交换模组为中心的HBD架构,单位成本仅为NVL-72的31%[4] - 通过OCS技术实现节点级故障隔离,GPU浪费率接近零[4][59] - 与NVIDIA DGX相比,MFU最高提升3.37倍[4][63] 关键技术突破 - 基于硅光子技术的OCS光电转换模组(OCSTrx),支持800Gbps带宽[30][31] - 可重配置的K-Hop Ring拓扑,支持动态构建任意大小的GPU粒度环[36][39] - HBD-DCN编排算法将跨ToR流量降低5.8倍[69] 性能优势 - 互连成本仅为NVL-72的31%、TPUv4的63%[74] - 能耗为NVL-72的75%,与TPUv4持平[74] - 在Llama3.1和GPT-MoE 1.1T训练中表现优异[62][64] 行业合作 - 阶跃星辰作为通用大模型创业公司参与研发[77] - 曦智科技作为光电混合算力提供商支持技术创新[77] - 上海智能算力科技正在筹备相关集群建设[77]