Workflow
DNSLogzip
icon
搜索文档
网络基础设施如何支撑大模型应用?北京大学刘古月课题组5大方向研究,相关论文入选ACM SIGCOMM 2025
AI前线· 2025-09-23 06:37
研究团队与行业背景 - 北京大学刘古月课题组在智能计算时代聚焦于网络体系结构、运维智能化和安全防护研究 [2] - 业界迫切需要更高带宽、更低成本、更智能化和更安全的网络基础设施以支撑大语言模型训练等多样化场景 [2] - 课题组在ACM SIGCOMM 2025共有5篇论文入选(4篇长文+1篇短文),成为全球发文数量最多的高校课题组,会议投稿461篇录用74篇,录取率16.1% [2] InfiniteHBD:大语言模型数据中心高带宽域架构 - 提出收发器中心高带宽域架构,首次将光路交换嵌入收发器内部,突破大模型训练中可扩展性与动态通信瓶颈 [4][6][7] - 支持可重构的点到多点通信与可变规模环形拓扑,兼顾灵活扩展性、节点级故障隔离与高效带宽利用 [7] - 实验结果显示成本仅为NVL-72的31%,GPU浪费率几乎为零(比NVL-72和TPUv4低10倍以上),在7%节点故障率下仍保持接近零的跨ToR流量,模型FLOPs利用率较NVIDIA DGX提升3.37倍 [8] DNSLogzip:DNS日志高效压缩方法 - 针对海量DNS日志实现高效无损压缩,大幅降低存储与运营成本 [2][11] - 通过模块化压缩架构充分利用DNS日志的行间与行内特性去除冗余 [11] - 在生产环境中部署可将存储成本降低约三分之二,每个DNS服务节点每月节省高达16.3万美元 [12] BiAn:基于大模型的网络故障定位 - 借助大模型实现生产网络的智能化故障定位,能够处理监控数据并生成带有详细解释的故障设备排序 [13] - 部署10个月后将根因定位时间缩短20.5%(高风险故障事件缩短55.2%),定位准确率相比基线方法提升9.2% [14] MixNet:可重构光电混合网络 - 提出运行时可重构光电混合网络,支持分布式MoE训练的动态通信,是首个支持拓扑重配置的系统 [6][15][17] - 通过光交换增强现有电互连,在32块A100 GPU上实现支持训练期间拓扑重配置的MoE模型训练 [18] - 在100Gbps和400Gbps链路带宽下,四个代表性MoE模型的网络成本效率(性能/美元)分别提升1.2倍到1.5倍和1.9倍到2.3倍 [18] Mazu:加密流量异常检测系统 - 基于可编程交换机实现高速加密流量异常检测,采用双平面特征提取模型在接近线速下获取流量特征 [19][22] - 已在两家ISP投入生产两年,保护超过千万台服务器,成功阻止10余起重大攻击,检测准确率约90% [22] 技术应用与产业合作 - 五项成果从架构、数据、运维、安全四个维度形成完整技术闭环,共同推动新一代网络系统高效、可靠与智能化发展 [3] - 团队与华为、腾讯、阿里巴巴、京东等知名企业和研究机构携手开展项目合作,推动科研成果在产业中的转化与落地 [23]