行业趋势:AI算力需求爆发与集群规模演进 - 主流大模型参数从千亿级跃升至万亿级规模,算力需求持续爆发式增长,EFLOPS算力级别、万卡级别高性能集群成为大模型标配[1] - 超节点因密度和性能优势,正成为新建万卡集群的首选架构之一[1] - 行业构建大规模智算集群的主流架构思路是:先通过Scale-up策略将数百张加速卡集成为超节点,再将这些超节点作为标准单元进行Scale-out横向扩展,最终构筑万卡规模[5] - 集群规模持续扩大,从千卡、万卡发展到未来的几十万甚至百万卡,国际上Meta、微软、OpenAI等AI巨头已陆续宣布或完成10万卡集群建设[6][7] 技术突破:国产万卡级AI集群真机亮相 - 中科曙光在HAIC2025大会上发布并展出了scaleX万卡超集群,这是国产万卡级AI集群系统首次以真机形式亮相[1] - 此前国内万卡集群项目多以分散服务器、技术蓝图或在建工程形式存在,例如三大运营商已投产的万卡集群多为分散部署的标准服务器,物理形态并非一体化单元[1] - 同样在2025年,华为昇腾384超节点真机也在世界人工智能大会期间首秀,标志着国产算力“大基建”正从图纸走进现实[1] 产品核心:scaleX万卡超集群与scaleX640超节点 - scaleX万卡超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops[1][3] - scaleX640是全球首个单机柜级640卡超节点,采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04[1] - scaleX640是全球已公开的、在单个机柜内集成加速卡数量最多的超节点产品[2] 技术架构:超节点的设计逻辑与优势 - 超节点是一种Scale-up纵向扩展解决方案,将大量AI加速卡以超高密度集成在单个或少数几个机柜内,通过内部高速总线或专用互连网络,实现“物理多机、逻辑单机”的新型计算单元[2] - 当前算法对算力的苛刻要求,迫使业界牺牲部分通用性以换取性能的极致优化,超节点应此需求而生[2] - 在单机柜内把芯片互连规模做大,可以让芯片之间的互连更加可靠、高效,因为柜内互联采用高效低成本的电信号,而柜间依赖高功耗、高成本的光模块[2] - 中科曙光、华为Atlas超节点、英伟达NVL72等产品均已应用超节点架构[2] 关键挑战:大规模集群的系统性难题 - 当智算集群规模扩展至万卡乃至十万卡级别,集群设计与建设面临可扩展性、可靠性与能效三大核心挑战[8] - 可扩展性挑战:必须构建具备高带宽、低延迟的强大互连网络,确保集群规模增长时计算效率不会出现断崖式下降,并实现大规模组网下的有效管理[8] - 可靠性挑战:海量设备数量累加遵循“木桶效应”,即便单点可靠性极高,整体系统的无故障运行时间也会被指数级拉低[8] - 能耗与能效挑战:随着单个算力中心体量从MW级向未来GW级演进,传统供电技术已难以为继,必须实现供电技术的根本性突破,并辅以先进的软件管理调度[8] - 超节点面临复杂的系统性挑战,包括海量芯片协同带来的系统散热压力、光铜混合互连方案引发的稳定性问题、多零部件长期运行下的可靠性隐患,这类问题需要服务器厂商与上游各环节深度协同解决[7] 网络互连:高速互连技术的重要性与突破 - 随着集群规模从千卡、万卡向几十万卡发展,高速互连的重要性愈加凸显[7] - 在超节点间,曙光scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,并可将超集群规模扩展至10万卡以上[7] - scaleFabric网络相比传统IB网络性能提升2.33倍,同时网络总体成本降低30%[7] - 自研原生RDMA高速网络至关重要,英伟达生态体系中的“三驾马车”包括:核心GPU提供算力、NVLink负责节点内超高速互联、基于Mellanox技术的InfiniBand网络承担节点间Scale-Out重任[7]
超节点互连技术落地,国产万卡超集群首次真机亮相