Workflow
P/D分离
icon
搜索文档
华为百度接连“秀肌肉”,大厂自研AI芯片为何不再闷声?
南方都市报· 2025-11-24 10:30
行业战略转变 - 国产AI芯片公司从过去几年保持低调、官网信息更新滞后的状态,转变为近期华为、百度等大厂高调公开AI芯片迭代路线图,标志着行业沟通策略的里程碑式转折[1] - 战略转变的驱动因素包括:需要向客户展示清晰产品路线图以抢占英伟达留下的市场蛋糕,以及国产算力方案的推出让投资者看到大厂未来可依赖国产算力供给,促使有自研芯片的公司更高调地沟通进展[2] - 国产半导体供应链的突围,特别是7纳米先进逻辑芯片产线中约三成被禁设备的国产方案已基本填补空白并导入量产线,提升了先进制程芯片制造后续产能扩产的确定性,为产品迭代奠定基础[2] 华为昇腾芯片路线图 - 华为宣布2026至2028年三年间将相继推出昇腾950、960和970三大系列芯片,打破自2020年制裁后仅在910系列内升级的状况[4] - 昇腾950系列包括950PR和950DT两种型号,分别于2026年一季度和四季度推出,采用业内兴起的P/D分离路线,950PR面向推理预填充阶段和推荐业务,950DT更注重推理解码阶段和训练场景[6] - 950PR采用自研低成本HBM(HiBL 1.0)以降低推理预填充成本,内存容量128GB,访问带宽1.6TB/s;950DT采用HiZQ 2.0内存以应对高互联带宽需求,内存容量144GB,访问带宽4TB/s;两款芯片互联带宽均为2TB/s[7] - 昇腾960芯片内存容量288GB,访问带宽9.6TB/s,互联带宽2.2TB/s;昇腾970芯片内存容量288GB,访问带宽14.4TB/s,互联带宽4TB/s[5] - 在算力方面,950系列FP8算力为1 PFLOPS,960系列FP8算力为2 PFLOPS,970系列FP8算力为4 PFLOPS[5] 超节点与集群战略 - 为弥补国产AI芯片在单卡算力、内存等方面的性能短板,华为、百度、阿里等大厂将“超节点+集群”作为应对AI算力需求的关键解决方案,这是在美国极限制裁下被逼出来的范式[11] - 超节点采用纵向扩展(scale-up)方案以突破通信性能瓶颈,华为通过自研“灵衢”(UnifiedBus)互联协议将大带宽、低时延的互联范围从单机柜内部延伸至整个集群,使物理上的多台机器在逻辑上能像一台计算机一样工作[12] - 华为计划在2026年四季度推出基于8192张950DT芯片的Atlas 950超节点,并在2027年四季度迭代至最大支持15488张昇腾960芯片的Atlas 960超节点,同时发布算力规模分别超过50万卡和达到百万卡的超级集群[8] - 华为将Atlas 950超节点与英伟达NVL144系统对比,称其卡规模是英伟达的56.8倍,总算力是6.7倍,内存容量是15倍达到1152TB,互联带宽是62倍[8] - 百度计划在2026年上半年和下半年推出支持256张卡和512张卡互联的“天池”超节点,并从2027年下半年开始陆续推出千卡和四千卡的超节点,目标在2030年点亮百万卡单集群[9] 百度昆仑芯发展 - 百度公布昆仑芯业务路线图:2026年初上市针对大规模推理场景优化的M100芯片,2027年初上市面向超大规模多模态模型训练和推理的M300芯片,2029年上市新一代N系列芯片[9] - 昆仑芯现已支持54个模型的训练和60个模型的推理,包括三款多模态模型是在5000卡或6000卡的昆仑芯集群上完成训练,下一步将在P800芯片集群上尝试最先进模型的训练[19] - 昆仑芯P800芯片的64卡超节点,单卡功耗约400瓦,在FP16精度的总算力规模超20 PFlops,以此换算的单卡算力大致为英伟达A100 SXM版本的一半[10] - 百度为昆仑芯的控股股东,昆仑芯已完成6笔融资,市场多次传出其筹备IPO的传闻,公司近期曾释出涉及IPO全流程管理的招聘岗位[10] 训练与推理市场格局 - 尽管市面上有众多训推一体AI芯片,但真正能用于大模型预训练环节的非常稀少,华为昇腾几乎是唯一可用于大模型训练的国产芯片,但其当前主打型号910C的大部分应用仍然是推理[18] - 基于国产算力开展大模型训练需付出额外算力成本与时间代价,例如科大讯飞为在国产算力平台训练模型,不得不花费额外两个月进行适配工作,拖慢了模型发布进度[19] - 2025年上半年中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比降低至58%,预计未来随着AI应用普及和多模态生成与实时推理场景丰富,推理基础设施需求将持续增长[19] - 国产推理芯片已可满足当前最先进模型的推理使用,比较先进的国产推理芯片能配置96G显存,一台8张卡的单机就能提供约688G显存容量,足以运行DeepSeek R1-671B等权重约600G的先进模型[20] - 推理芯片市场竞争呈现碎片化,技术路线包括GPGPU玩家和ASIC厂商,ASIC芯片厂商可针对特定推理任务进行深度优化,具备能效与成本优势[20] 大厂自研芯片优势与挑战 - 互联网大厂本身的云业务和AI业务为自研芯片提供了最直观的内部需求,例如昆仑芯P800芯片在百度内部得到充分验证,绝大多数推理任务都运行在P800之上[22] - 大厂自研AI芯片的下游需求明确,即使不对外出售,将其并入云服务中让外部客户使用也等效于卖芯片,同时相较于外购第三方芯片可避免为外部供应商的高毛利买单,节省大量成本[22] - 硬件稳定性是国产AI芯片用于大规模训练的一大挑战,万卡级别训练过程中任何一块芯片出现故障,整个集群都必须暂停并重新启动,集群还需具备应对“静默故障”和快速自愈恢复的能力[16][17] - 国产芯片的质量控制能力尚无法与英伟达匹敌,故障率被放大,因此在集群上线运行前需要进行完善的故障检测[16]