华为百度接连“秀肌肉” 大厂自研AI芯片为何不再闷声?

行业战略转变 - 国产AI芯片公司过去几年保持低调,官网很少更新最新产品信息和参数 [1] - 近期华为、百度等大厂接连公开AI芯片迭代路线图,阿里平头哥芯片亮相央视,标志着行业从“闷声做事”转向高调沟通 [1] - 这一转变是“里程碑式的转折”,公司需要向客户呈现清晰产品路线图以抢占英伟达留下的市场,并让投资者看到依赖国产算力发展的可能性 [2] 华为昇腾芯片路线图 - 华为宣布2026至2028年将推出四款昇腾AI芯片:950系列(950PR、950DT)、960和970 [4] - 950系列采用P/D分离路线:950PR于2026年Q1推出,面向推理预填充阶段和推荐业务,内存容量128GB,内存访问带宽1.6TB/s,互联带宽2TB/s;950DT于2026年Q4推出,注重推理解码和训练场景,内存容量144GB,内存访问带宽4TB/s,互联带宽2TB/s [7][8] - 960芯片于2027年Q4推出,互联带宽2.2TB/s;970芯片于2028年Q4推出,互联带宽4TB/s [5] - 华为Atlas 950超节点于2026年Q4推出,基于8192张950DT芯片;Atlas 960超节点于2027年Q4推出,最大支持15488张昇腾960芯片 [9] - 华为发布Atlas 950和960 SuperCluster超节点集群,算力规模分别超过50万卡和达到百万卡 [9] 百度昆仑芯路线图 - 百度公布昆仑芯业务路线图:2026年初上市针对大规模推理场景的M100芯片;2027年初上市面向超大规模多模态模型训练和推理的M300芯片 [11] - 2026年上半年和下半年推出“天池256超节点”和“天池512超节点”,搭载昆仑芯P800芯片,最高支持256张卡和512张卡互联 [11] - 从2027年下半年开始陆续推出千卡和四千卡超节点,计划2029年上市新一代N系列芯片,2030年点亮百万卡单集群 [11] - 基于昆仑芯P800的64卡超节点,单卡功耗约400瓦,FP16精度总算力规模超20 PFlops,单卡算力约为英伟达A100 SXM版本的一半 [11] 技术竞争格局 - 国产AI芯片在工艺制程、单卡算力、单卡内存容量和带宽等维度均落后于英伟达,但可借助超节点组网实现性能超越 [3] - 华为采用“超节点+集群”方案应对AI算力需求,这是“用数学补物理”策略,规避芯片制造工艺限制 [3][14] - 华为Atlas 950超节点满配由160个机柜组成,占地面积1000平方米,使用自研“灵衢”互联协议 [15] - 华为CloudMatrix 384超节点搭载384颗昇腾910C芯片,芯片数量是英伟达NVL72系统的五倍,可弥补单芯片性能仅为英伟达GB200三分之一的不足,但功耗为NVL72系统的4.1倍 [16] 市场应用与挑战 - 国产AI芯片用于大模型训练难度高,华为昇腾几乎是唯一可用于大模型训练的芯片,但当前主打型号910C大部分应用仍是推理 [19] - 使用全国产算力训练模型代价更高,不仅芯片使用成本高,训练时间也更长,例如科大讯花额外两个月进行适配 [20] - 2025年上半年中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比降至58% [20] - 国产推理芯片已可满足当前最先进模型的使用,一台8张卡的单机能提供约688G显存,可运行DeepSeek R1-671B等600G权重的模型 [21] - 推理芯片市场竞争碎片化,包括GPGPU玩家(如海光信息、沐曦)和ASIC厂商(如寒武纪、华为、阿里平头哥) [21]