Workflow
Atlas超节点产品
icon
搜索文档
公布技术参数“颗粒度” 大厂接连“秀肌肉” 自研AI芯片为何不再“闷声干”?
南方都市报· 2025-11-25 23:09
行业战略转变 - 国产AI芯片公司从过去几年力求低调、对最新产品信息秘而不宣的状态,转变为近期华为、百度等大厂高调公开AI芯片迭代路线图,标志着行业沟通策略的里程碑式转折[2][3] - 华为轮值董事长徐直军表示,公司从2020年直到去年“啥都不敢讲”,但在今年开始“秀肌肉”,公开披露未来三年发布四款昇腾AI芯片的详细计划[2] - 百度也接棒公布昆仑芯业务路线图,计划在2026年和2027年分别推出M100和M300芯片,并推出超节点产品[7] 华为昇腾芯片路线图 - 华为计划在2026至2028年相继推出昇腾950、960和970三大系列芯片,其中950系列包括950PR和950DT两种型号,分别于2026年一季度和四季度推出[6] - 昇腾950PR采用华为自研的低成本HBM——HiBL 1.0,能够显著降低推理预填充阶段的成本[6] - 华为将同步推出超节点和集群产品,预计在2026年四季度推出Atlas 950超节点,2027年四季度迭代至Atlas 960超节点,最大可支持15488张昇腾960芯片,并发布算力规模分别超过50万卡和达到百万卡的超级集群[6] 百度昆仑芯路线图 - 百度昆仑芯计划于2026年年初上市针对大规模推理场景优化的M100芯片,2027年年初上市面向超大规模多模态模型训练和推理的M300芯片[7] - 在超节点方面,百度预计在2026年上半年和下半年推出“天池256超节点”和“天池512超节点”,并从2027年下半年开始陆续推出千卡和四千卡超节点,计划于2030年点亮百万卡单集群[7] - 昆仑芯前身为百度智能芯片及架构部,于2021年4月完成独立融资,百度为其控股股东,截至目前已完成6笔融资[8] “超节点+集群”解决方案 - 为应对国产芯片制造工艺落后于海外的现实,华为、百度、阿里等大厂普遍采用“超节点+集群”方案,即通过系统级组网来弥补单颗芯片性能的短板,华为称此为其在极限制裁下被逼出来的范式[4][10] - 华为已面市的CloudMatrix 384超节点搭载384颗昇腾910C芯片,芯片数量是竞争对手英伟达NVL72系统的五倍,足以弥补每颗芯片性能仅为英伟达GB200三分之一的不足,在某些指标上甚至超越了英伟达的机架级解决方案[11] - 市场调查显示,43%的受访者认为云端国产AI芯片的核心竞争力在于万卡以上互联的集群扩展性[10] 性能对比与竞争态势 - 华为将其Atlas 950超节点与英伟达预计在2026年下半年发布的NVL144系统对比,称其卡的规模是英伟达的56.8倍,总算力是其6.7倍,内存容量是其15倍达到1152 TB,互联带宽是其62倍[7] - 一台基于昆仑芯P800的64卡超节点,其单卡算力大致为英伟达A100 SXM版本算力的一半[8] - 英伟达创始人黄仁勋将华为视作“强大的竞争对手”,华为昇腾910的性能曾超过英伟达同时代的V100 GPU[5] 供应链与制造能力 - 对于国内的7纳米先进逻辑芯片产线,在被美国禁止进口、占比约三成的半导体设备上,国产方案已基本填补了空白,国产设备自今年以来已陆续导入量产线,先进制程供应链被认为已度过最艰难阶段,提升了后续产能扩产的确定性[3] - 中国半导体制造工艺将在相当长时间处于落后状态,可持续的算力只能基于实际可获得的芯片制造工艺[4] 市场应用与挑战 - 尽管市面上出现多种训推一体AI芯片,但真正能用于大模型训练的非常稀少,华为昇腾几乎是唯一可用于大模型训练的国产芯片,但即便是其当前主打型号910C,大部分应用仍然是推理[14] - 2025年上半年中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比则降低至58%,AI应用的普及带动推理算力需求高涨[15] - 基于国产算力开展大模型训练需付出额外成本与时间代价,例如科大讯飞为在国产算力平台训练模型,不得不花费额外两个月时间进行适配,拖慢了模型发布进度[14] 商业模式与竞争策略 - 大厂自研AI芯片的下游需求明确,即使不对外出售,将其并入云服务中让外部客户使用,也等效于卖芯片,相较于外购芯片可避免为外部供应商的高毛利买单,节省大量成本[16] - 昆仑芯等大厂旗下芯片公司并不满足于内部使用,例如昆仑芯中标中国移动集采项目十亿级订单,进入外部市场竞争需要依靠特别突出的性能、为特定场景做的深度优化或比拼性价比[16][17] - 推理芯片市场竞争呈现碎片化,参与者包括训推一体芯片厂商、专门面向推理场景的企业,技术路线上既有GPGPU玩家,也有ASIC厂商[15]
华为百度接连“秀肌肉”,大厂自研AI芯片为何不再闷声?
南方都市报· 2025-11-24 10:30
行业战略转变 - 国产AI芯片公司从过去几年保持低调、官网信息更新滞后的状态,转变为近期华为、百度等大厂高调公开AI芯片迭代路线图,标志着行业沟通策略的里程碑式转折[1] - 战略转变的驱动因素包括:需要向客户展示清晰产品路线图以抢占英伟达留下的市场蛋糕,以及国产算力方案的推出让投资者看到大厂未来可依赖国产算力供给,促使有自研芯片的公司更高调地沟通进展[2] - 国产半导体供应链的突围,特别是7纳米先进逻辑芯片产线中约三成被禁设备的国产方案已基本填补空白并导入量产线,提升了先进制程芯片制造后续产能扩产的确定性,为产品迭代奠定基础[2] 华为昇腾芯片路线图 - 华为宣布2026至2028年三年间将相继推出昇腾950、960和970三大系列芯片,打破自2020年制裁后仅在910系列内升级的状况[4] - 昇腾950系列包括950PR和950DT两种型号,分别于2026年一季度和四季度推出,采用业内兴起的P/D分离路线,950PR面向推理预填充阶段和推荐业务,950DT更注重推理解码阶段和训练场景[6] - 950PR采用自研低成本HBM(HiBL 1.0)以降低推理预填充成本,内存容量128GB,访问带宽1.6TB/s;950DT采用HiZQ 2.0内存以应对高互联带宽需求,内存容量144GB,访问带宽4TB/s;两款芯片互联带宽均为2TB/s[7] - 昇腾960芯片内存容量288GB,访问带宽9.6TB/s,互联带宽2.2TB/s;昇腾970芯片内存容量288GB,访问带宽14.4TB/s,互联带宽4TB/s[5] - 在算力方面,950系列FP8算力为1 PFLOPS,960系列FP8算力为2 PFLOPS,970系列FP8算力为4 PFLOPS[5] 超节点与集群战略 - 为弥补国产AI芯片在单卡算力、内存等方面的性能短板,华为、百度、阿里等大厂将“超节点+集群”作为应对AI算力需求的关键解决方案,这是在美国极限制裁下被逼出来的范式[11] - 超节点采用纵向扩展(scale-up)方案以突破通信性能瓶颈,华为通过自研“灵衢”(UnifiedBus)互联协议将大带宽、低时延的互联范围从单机柜内部延伸至整个集群,使物理上的多台机器在逻辑上能像一台计算机一样工作[12] - 华为计划在2026年四季度推出基于8192张950DT芯片的Atlas 950超节点,并在2027年四季度迭代至最大支持15488张昇腾960芯片的Atlas 960超节点,同时发布算力规模分别超过50万卡和达到百万卡的超级集群[8] - 华为将Atlas 950超节点与英伟达NVL144系统对比,称其卡规模是英伟达的56.8倍,总算力是6.7倍,内存容量是15倍达到1152TB,互联带宽是62倍[8] - 百度计划在2026年上半年和下半年推出支持256张卡和512张卡互联的“天池”超节点,并从2027年下半年开始陆续推出千卡和四千卡的超节点,目标在2030年点亮百万卡单集群[9] 百度昆仑芯发展 - 百度公布昆仑芯业务路线图:2026年初上市针对大规模推理场景优化的M100芯片,2027年初上市面向超大规模多模态模型训练和推理的M300芯片,2029年上市新一代N系列芯片[9] - 昆仑芯现已支持54个模型的训练和60个模型的推理,包括三款多模态模型是在5000卡或6000卡的昆仑芯集群上完成训练,下一步将在P800芯片集群上尝试最先进模型的训练[19] - 昆仑芯P800芯片的64卡超节点,单卡功耗约400瓦,在FP16精度的总算力规模超20 PFlops,以此换算的单卡算力大致为英伟达A100 SXM版本的一半[10] - 百度为昆仑芯的控股股东,昆仑芯已完成6笔融资,市场多次传出其筹备IPO的传闻,公司近期曾释出涉及IPO全流程管理的招聘岗位[10] 训练与推理市场格局 - 尽管市面上有众多训推一体AI芯片,但真正能用于大模型预训练环节的非常稀少,华为昇腾几乎是唯一可用于大模型训练的国产芯片,但其当前主打型号910C的大部分应用仍然是推理[18] - 基于国产算力开展大模型训练需付出额外算力成本与时间代价,例如科大讯飞为在国产算力平台训练模型,不得不花费额外两个月进行适配工作,拖慢了模型发布进度[19] - 2025年上半年中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比降低至58%,预计未来随着AI应用普及和多模态生成与实时推理场景丰富,推理基础设施需求将持续增长[19] - 国产推理芯片已可满足当前最先进模型的推理使用,比较先进的国产推理芯片能配置96G显存,一台8张卡的单机就能提供约688G显存容量,足以运行DeepSeek R1-671B等权重约600G的先进模型[20] - 推理芯片市场竞争呈现碎片化,技术路线包括GPGPU玩家和ASIC厂商,ASIC芯片厂商可针对特定推理任务进行深度优化,具备能效与成本优势[20] 大厂自研芯片优势与挑战 - 互联网大厂本身的云业务和AI业务为自研芯片提供了最直观的内部需求,例如昆仑芯P800芯片在百度内部得到充分验证,绝大多数推理任务都运行在P800之上[22] - 大厂自研AI芯片的下游需求明确,即使不对外出售,将其并入云服务中让外部客户使用也等效于卖芯片,同时相较于外购第三方芯片可避免为外部供应商的高毛利买单,节省大量成本[22] - 硬件稳定性是国产AI芯片用于大规模训练的一大挑战,万卡级别训练过程中任何一块芯片出现故障,整个集群都必须暂停并重新启动,集群还需具备应对“静默故障”和快速自愈恢复的能力[16][17] - 国产芯片的质量控制能力尚无法与英伟达匹敌,故障率被放大,因此在集群上线运行前需要进行完善的故障检测[16]