Workflow
万卡集群
icon
搜索文档
国产算力迈入“万卡”时代:摩尔线程发布新一代GPU架构,中科曙光发布万卡超集群
经济观察网· 2025-12-20 06:47
行业竞争焦点转移 - 国产算力产业链竞争焦点已从比拼单卡参数转向构建能稳定运行的万卡级系统[2] - 当模型参数量突破万亿,算力提升依赖规模堆叠,核心问题是如何让上万张计算卡协同工作[2] 摩尔线程新产品发布 - 摩尔线程发布最新全功能GPU架构“花港”,新架构算力密度提升50%,效能提升10倍[3] - “花港”架构支持从FP4到FP64的全精度计算,并新增对MTFP6、MTFP4及混合低精度的支持[3] - 基于新架构规划两款芯片:“华山”定位AI训推一体,专攻大规模智算;“庐山”专注高性能图形渲染,其AI计算性能较前代提升64倍,光线追踪性能提升50%[4] - 公司坚持“全功能GPU”技术路线,同时覆盖图形渲染与人工智能计算两个市场[5] 中科曙光万卡集群系统 - 中科曙光发布“scaleX”万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相[6] - 系统由16个scaleX640超节点通过scaleFabric高速网络互连,总计可部署10240块AI加速卡[10] - 系统采用浸没相变液冷技术,单机柜算力密度相比业界提升20倍,PUE值降至1.04[12] 解决通信与散热挑战 - 构建万卡集群需解决散热、供电与物理空间限制等多重物理与工程难题[7][8] - 高功率算力芯片集中部署会产生惊人热量和电力消耗[9] - 摩尔线程在“花港”架构中集成新一代异步编程模型,并通过自研MTLink互联技术宣称支持十万卡以上规模集群扩展[12] - 中科曙光发布scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,实现400Gb/s带宽与低于1微秒的端侧通信延迟[12] 大模型推理能力验证 - 随着DeepSeek等国产大模型参数量达671B级别,在国产硬件上跑通这些模型成为硬件厂商的试金石[13] - 摩尔线程展示与硅基流动合作的测试数据:在DeepSeek R1 671B全量模型上,其MTT S5000单卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量突破1000 tokens/s[13] 软件生态与系统兼容性 - 摩尔线程宣布其MUSA统一架构升级至5.0版本,核心计算库muDNN在GEMM与FlashAttention上的效率超过98%[13] - 硬件规格逼近国际主流后,国产厂商研发重心正向软件栈优化转移[13] - 中科曙光scaleX万卡超集群支持多品牌加速卡,并已完成400余个主流大模型的适配优化,采用开放架构策略[14]
超节点互连技术落地 国产万卡超集群首次真机亮相
21世纪经济报道· 2025-12-19 13:32
同样在今年,华为昇腾384超节点真机在2025世界人工智能大会期间首秀。从华为昇腾384超节点到 scaleX万卡超集群接连真机亮相,国产算力"大基建"正从图纸走进现实。 超节点支撑万卡级集群 随着主流大模型参数从千亿级跃升至万亿级规模,算力需求持续爆发式增长,EFLOPS算力级别、万卡 级别高性能集群成为大模型标配。 超节点(SuperPod)因密度和性能优势,正成为新建万卡集群的首选架构之一。 其应算力需求而生。中科曙光高级副总裁李斌在接受21世纪经济报道等媒体采访时指出,在算力要求不 高的时代,IT组件的解耦设计提供了无与伦比的灵活性,允许通过标准网络轻松扩展。然而,当前算法 对算力的苛刻要求,迫使业界必须牺牲部分通用性,以换取性能的极致优化。 在此之前,国内的万卡集群项目多以分散服务器、技术蓝图或在建工程的形式存在。如三大运营商已投 产运营的万卡集群,多为分散部署在庞大机房内的标准服务器,虽然已实现商业运营,但其物理形态并 非一体化单元。 scaleX万卡超集群由16个曙光scaleX640超节点互连而成。作为世界首个单机柜级640卡超节点, scaleX640采用超高密度刀片、浸没相变液冷等技术,将 ...
超节点互连技术落地,国产万卡超集群首次真机亮相
21世纪经济报道· 2025-12-19 13:24
12月18日,中科曙光(603019)在光合组织2025人工智能创新大会(HAIC2025)上发布并展出了scaleX万卡超集群,这是国产万 卡级AI集群系统首次以真机形式亮相。 在此之前,国内的万卡集群项目多以分散服务器、技术蓝图或在建工程的形式存在。如三大运营商已投产运营的万卡集群,多 为分散部署在庞大机房内的标准服务器,虽然已实现商业运营,但其物理形态并非一体化单元。 作为一种Scale-up(纵向扩展)解决方案,超节点目前已被中科曙光scaleX640、华为Atlas超节点、英伟达NVL72等产品应用。其将 大量AI加速卡以超高密度集成在单个或少数几个机柜内,通过内部高速总线或专用互连网络,实现"物理多机、逻辑单机"的新 型计算单元。 就单机柜而言,中科曙光11月发布的全球首个单机柜级640卡超节点——scaleX640,是全球已公开的、在单个机柜内集成加速卡 数量最多的超节点产品。 "谁家的柜体集成度越高,竞争优势越大。"中科曙光总裁助理、智能计算产品事业部总经理杜夏威指出,在当前技术范式下, 柜内互联采用高效低成本的电信号,柜间则依赖高功耗、高成本的光模块。在单机柜内把芯片互连规模做大,可以让芯片 ...
TPU代工视角看谷歌材料
2025-12-01 00:49
行业与公司 * 纪要涉及的行业为人工智能(AI)芯片、数据中心硬件及云计算基础设施 涉及的焦点公司为谷歌(Google)及其供应链 包括代工商、芯片设计伙伴、光模块、PCB、液冷解决方案等供应商[1][2][3][4] * 核心对比公司为英伟达(NVIDIA) 分析两者在技术路线、供应链模式、商业模式及市场竞争方面的差异[10][12][22] 核心观点与论据:谷歌的战略、供应链与生态 **1 谷歌自研芯片进展与代工格局** * 谷歌与联发科联合设计自研芯片 博通专注于训练芯片 谷歌进入推理领域 GPT-8亿芯片预计2026年11月上市 博通和联发科是主要供应商[1][2] * 代工份额动态变化:2020年至2024年为独家代工商 凭借特殊IP帮助谷歌数据中心PUE降低约25%[2] 自2024年1月起 伟创力加入 形成80%对20%的份额分配[3] 2026年起引入红海作为第三家供应商 份额分配变为65%、20%和15%[1][3] * 谷歌2026年计划生产650万颗芯片 2027年计划增长30%至800万颗 但因台积电CoWoS技术限制 2026年实际目标为420万颗 2027年为650万颗[23] 存在供给缺口 正与英特尔洽谈通过EMIB技术补充[21] **2 供应链关键环节供应商变化** * **PCB供应商**:2025年上半年因关税问题最大供应商为依数 下半年切换回沪电 目前沪电占70% 方正占20% TTM占10%[4] * **光模块与线缆**:旭创一直是核心供应商 新易盛份额不到10%[1][4] 谷歌计划从2026年开始在交换部分切换到AOC加LPO组合以降低成本[1][4] 线缆从传统AEC转向AOC 国内长兴博创、海外菲尼特为主要供货方[1][4] * **液冷解决方案**:因英伟达机器漏液问题频发 谷歌选择更严格的新进生态标准 英维克进入北美CST自研生态并获得订单[4][5][6] 红海作为代工商也提供专业液冷解决方案[1][3] **3 技术性能、成本与商业模式对比(谷歌 vs 英伟达)** * **技术性能**:谷歌目前比英伟达落后一代左右 同代机性能约为英伟达的90%至93%[10] 预计到2026年谷歌可能追平2025年的英伟达性能水平[13] * **成本优势**:谷歌10%左右的性能损失使其能够降低整体TCO成本约44% 花费相当于英伟达20%至25%的资金 加上基建及液冷系统 总体投资成本比英伟达低40%至45%[10] * **商业模式**:英伟达作为OEM 定价模型包含较高的销售毛利(一般不低于40%)[14] 谷歌主要通过云化服务获取利润 定价模型倾向于长期订阅服务(如三年期服务是硬件成本的1.7至1.8倍)计入OPEX而非CAPEX[14][15] 谷歌采用直采模式压低成本 而英伟达因维持庞大销售组织及多层次供应链导致制造成本较高[16] **4 数据中心未来发展趋势与谷歌生态计划** * **电源与能源**:谷歌数据中心未来将以HVDC作为二次电源 一次电源以电源板为主[2][8] 为应对北美电价上涨 谷歌与AWS、Meta计划在2027年4月前部署光储二次能源池 阳光电源预计2026年和2027年在美国本土有产出[2][8][9] * **生态开放计划**:谷歌计划从2026年开始通过租赁方式开放其自有生态 逐步向商业化过渡 完善TPU硬件工业设计、定价体系及销售方式 预计2027年正式开始销售硬件并允许大客户自行运行[2][11] * **技术架构优势**:谷歌通过强大的软件机器人功能 将万卡集群(如9,216颗芯片)逻辑上整合成一块主板 实现CPU、ASIC、显存、内存、SSD资源的逻辑通用和虚拟化 形成软硬件一体的全链条生态系统[12][24] 其OCS架构解决横向扩展问题 网络完备性和可持续性优于英伟达[21][24] 其他重要内容 **1 供应链管理与采购模式** * 谷歌采取统一招标方式 通常选择6家供应商(2家主供 4家备选)以确保产能[7] 谷歌不允许客户将部署在英伟达CUDA上的生态迁移到其云平台 只能使用TPU 该策略将在2027年全面实施[12] **2 技术细节与物料规划** * PCB技术路线:高多层技术已达44层以上 未来可能超过50层 HDI(高密度互连)技术预计2026年进行6到9个月试验 若效果良好2027年可能大规模切换 以解决元器件老化散热问题且控制厚度[18] * 盛弘已经预订了2026年的H9产能 且预订至少两年 以确保HDR技术成本下降[19] * 当前V7方案在马8加二代布铜箔搭配下存在性能测试问题 正在调整 未来将在马8基础上升级并考虑使用HDA等新技术[17] **3 市场竞争展望** * 英伟达面临挑战 其产品主要针对单个或少数数据中心集群 而非大规模分布式部署 未来需通过云化来保持竞争力 否则在头部CSP市场份额可能缩小[22] * 竞争对手使用谷歌硬件对谷歌自研芯片发展的影响是动态的 竞争对手需调优软件以匹配谷歌硬件 但也可能反哺其自研芯片开发[25][26]
规模超越英伟达,华为官宣“全球最强超节点+万卡算力新品”
选股宝· 2025-09-18 23:18
华为算力产品发布 - 华为推出全球最强超节点Atlas 950 SuperPoD 算力规模8192卡 预计2024年四季度上市 [1] - 新一代产品Atlas 960 SuperPoD 算力规模15488卡 预计2027年四季度上市 [1] - Atlas 950超节点规模是英伟达NVL144的56.8倍 总算力是其6.7倍 内存容量达1152TB是其15倍 互联带宽达16.3PB/s是其62倍 [1] 昇腾芯片发展规划 - 2026年第一季度推出昇腾950PR 第四季度推出昇腾950DT并搭载自研HBM [1] - 2027年第四季度推出昇腾960芯片 2028年第四季度推出昇腾970芯片 [1] 行业算力集群发展 - 万卡集群被视为大模型竞赛入场券 百度百舸4.0可实现十万卡集群高效管理 [2] - 阿里云支持10万卡量级集群可扩展规模 服务全国一半人工智能大模型企业 [2] - 腾讯星脉高性能计算网络支持超10万卡大规模组网 [2] 国产算力生态展望 - 国产算力超节点有望统一国产算力芯片生态 加速向训练场景突破 [2] - 超节点整机柜方案渗透将推动铜连接 光模块市场规模加速增长 服务器代工单卡价值量显著提升 [2] HBM市场前景 - 2026年HBM市场规模预计达460亿美元 2030年达980亿美元 2024-2030年复合增长率33% [2] 华为合作伙伴动态 - 先进数通展示基于昇腾AI处理器的A800I A2大模型一体机 专为生成式大模型场景设计 [3] - 赛腾股份HBM设备实现批量交付 [4]