Workflow
超节点(SuperPoD)
icon
搜索文档
蚂蚁透露!部署的万卡国产算力集群已媲美国际,超节点有望成国产算力加速发展重要动力
选股宝· 2025-11-09 23:32
阿里巴巴与蚂蚁集团的AI基础设施投入 - 阿里巴巴正在建设超大规模AI基础设施并加大投入打造超级AI云 [1] - 蚂蚁集团已部署万卡规模的国产算力集群,训练任务稳定性超过98%,训练与推理性能可媲美国际算力集群 [1] 大模型发展趋势与技术瓶颈 - 大模型发展推动业界转向算法效率与底层架构的根本创新 [1] - 跨服务器张量并行(TP)的All-Reduce通信成为大规模分布式训练性能提升的主要瓶颈 [1] - 混合专家(MoE)模型的规模化应用使跨服务器专家并行(EP)的All-to-All通信成为新瓶颈 [1] 超节点技术与国产算力发展 - 构建超高带宽、超低延迟的ScaleUp网络是应对TP和EP要求的主流技术路径,可将大量XPU高速互联构建为超节点(SuperPoD) [2] - 超节点有望成为集群扩展下的主流技术,助力国产算力生态不断完善 [1] - 无论海外算力芯片限制是否解除,国产化算力自主发展均为国内政策支持的重点方向 [2] 相关公司动态 - 中科曙光发布世界首个640卡单机柜超节点Scale X640,支持万亿参数大模型训练,在MOE大模型训练和推理性能可提升30%-40% [3] - 协创数据建设高端GPU算力服务器集群,在国内核心节点及海外建立分布式算力网络,并推动数据存储业务向AI服务器领域延伸 [3]