Workflow
集群
icon
搜索文档
公布技术参数“颗粒度” 大厂接连“秀肌肉” 自研AI芯片为何不再“闷声干”?
南方都市报· 2025-11-25 23:09
行业战略转变 - 国产AI芯片公司从过去几年力求低调、对最新产品信息秘而不宣的状态,转变为近期华为、百度等大厂高调公开AI芯片迭代路线图,标志着行业沟通策略的里程碑式转折[2][3] - 华为轮值董事长徐直军表示,公司从2020年直到去年“啥都不敢讲”,但在今年开始“秀肌肉”,公开披露未来三年发布四款昇腾AI芯片的详细计划[2] - 百度也接棒公布昆仑芯业务路线图,计划在2026年和2027年分别推出M100和M300芯片,并推出超节点产品[7] 华为昇腾芯片路线图 - 华为计划在2026至2028年相继推出昇腾950、960和970三大系列芯片,其中950系列包括950PR和950DT两种型号,分别于2026年一季度和四季度推出[6] - 昇腾950PR采用华为自研的低成本HBM——HiBL 1.0,能够显著降低推理预填充阶段的成本[6] - 华为将同步推出超节点和集群产品,预计在2026年四季度推出Atlas 950超节点,2027年四季度迭代至Atlas 960超节点,最大可支持15488张昇腾960芯片,并发布算力规模分别超过50万卡和达到百万卡的超级集群[6] 百度昆仑芯路线图 - 百度昆仑芯计划于2026年年初上市针对大规模推理场景优化的M100芯片,2027年年初上市面向超大规模多模态模型训练和推理的M300芯片[7] - 在超节点方面,百度预计在2026年上半年和下半年推出“天池256超节点”和“天池512超节点”,并从2027年下半年开始陆续推出千卡和四千卡超节点,计划于2030年点亮百万卡单集群[7] - 昆仑芯前身为百度智能芯片及架构部,于2021年4月完成独立融资,百度为其控股股东,截至目前已完成6笔融资[8] “超节点+集群”解决方案 - 为应对国产芯片制造工艺落后于海外的现实,华为、百度、阿里等大厂普遍采用“超节点+集群”方案,即通过系统级组网来弥补单颗芯片性能的短板,华为称此为其在极限制裁下被逼出来的范式[4][10] - 华为已面市的CloudMatrix 384超节点搭载384颗昇腾910C芯片,芯片数量是竞争对手英伟达NVL72系统的五倍,足以弥补每颗芯片性能仅为英伟达GB200三分之一的不足,在某些指标上甚至超越了英伟达的机架级解决方案[11] - 市场调查显示,43%的受访者认为云端国产AI芯片的核心竞争力在于万卡以上互联的集群扩展性[10] 性能对比与竞争态势 - 华为将其Atlas 950超节点与英伟达预计在2026年下半年发布的NVL144系统对比,称其卡的规模是英伟达的56.8倍,总算力是其6.7倍,内存容量是其15倍达到1152 TB,互联带宽是其62倍[7] - 一台基于昆仑芯P800的64卡超节点,其单卡算力大致为英伟达A100 SXM版本算力的一半[8] - 英伟达创始人黄仁勋将华为视作“强大的竞争对手”,华为昇腾910的性能曾超过英伟达同时代的V100 GPU[5] 供应链与制造能力 - 对于国内的7纳米先进逻辑芯片产线,在被美国禁止进口、占比约三成的半导体设备上,国产方案已基本填补了空白,国产设备自今年以来已陆续导入量产线,先进制程供应链被认为已度过最艰难阶段,提升了后续产能扩产的确定性[3] - 中国半导体制造工艺将在相当长时间处于落后状态,可持续的算力只能基于实际可获得的芯片制造工艺[4] 市场应用与挑战 - 尽管市面上出现多种训推一体AI芯片,但真正能用于大模型训练的非常稀少,华为昇腾几乎是唯一可用于大模型训练的国产芯片,但即便是其当前主打型号910C,大部分应用仍然是推理[14] - 2025年上半年中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比则降低至58%,AI应用的普及带动推理算力需求高涨[15] - 基于国产算力开展大模型训练需付出额外成本与时间代价,例如科大讯飞为在国产算力平台训练模型,不得不花费额外两个月时间进行适配,拖慢了模型发布进度[14] 商业模式与竞争策略 - 大厂自研AI芯片的下游需求明确,即使不对外出售,将其并入云服务中让外部客户使用,也等效于卖芯片,相较于外购芯片可避免为外部供应商的高毛利买单,节省大量成本[16] - 昆仑芯等大厂旗下芯片公司并不满足于内部使用,例如昆仑芯中标中国移动集采项目十亿级订单,进入外部市场竞争需要依靠特别突出的性能、为特定场景做的深度优化或比拼性价比[16][17] - 推理芯片市场竞争呈现碎片化,参与者包括训推一体芯片厂商、专门面向推理场景的企业,技术路线上既有GPGPU玩家,也有ASIC厂商[15]
从超节点到集群,华为亮出AI算力全家桶
21世纪经济报道· 2025-09-18 13:17
华为AI算力战略发布 - 公司在全联接大会上公布AI算力全景图 包括4颗昇腾芯片 3个超节点 2款鲲鹏CPU和灵衢互联架构 全面对标英伟达 [1] - 公司强调基于中国可获得的芯片制造工艺打造超节点+集群算力解决方案 以满足持续增长的算力需求 [1][8] - 这是时隔6年后再次集中展示芯片进展 明年大会可能更名为华为计算联接大会 体现对AI算力的重视 [1] 昇腾芯片技术路线 - 昇腾芯片未来三年迭代路线明确:2026年Q1推出Ascend 950系列 2027年Ascend 960 2028年Ascend 970 实现一年一代算力翻倍 [3] - Ascend 950PR面向推理Prefill阶段和推荐场景 新增支持FP8/MXFP578/MXFP4低精度数据格式提升训练效率 [3] - Ascend 950DT更注重推理Decode阶段和训练场景 与950PR形成互补 [3] - 昇腾芯片从2019年昇腾910上市至今已从加速卡演进为完整AI软硬件体系 [4][5] 鲲鹏CPU发展规划 - 鲲鹏950预计2026年Q4推出 鲲鹏960预计2028年Q1推出 [5] - 鲲鹏直接对标英特尔和AMD产品 在超节点中与昇腾芯片形成合力 [5] - 公司围绕鲲鹏和昇腾构建新计算生态 为核心AI算力旗舰产品 [5] 超节点技术突破 - 发布Atlas 950 SuperPoD支持8192张昇腾卡 Atlas 960 SuperPoD支持15488张昇腾卡 在卡规模/总算力/内存容量/互联带宽等关键指标全面领先 [6] - 基于超节点发布全球最强集群Atlas 950 SuperCluster算力超50万卡 Atlas 960 SuperCluster算力达百万卡 [6] - CloudMatrix 384超节点累计部署300多套服务20多家客户 Atlas 950 SuperPoD预计今年Q4上市 Atlas 960 SuperPoD预计2027年Q4上市 [6] 通用计算与互联技术 - 率先将超节点技术引入通用计算领域 发布全球首个通用计算超节点TaiShan 950 SuperPoD 结合GaussDB可取代大型机/小型机及Exadata数据库一体机 [7] - 突破大规模超节点互联技术挑战 开创灵衢(UnifiedBus)互联协议 将开放灵衢2.0技术规范共建开放生态 [7] - 灵衢UB是目前唯二商用的高速互联总线超节点架构产品 可与英伟达NVLink直接竞争 [7] 算力发展战略 - 公司通过架构性创新开创自主可持续计算产业发展道路 强调系统算力而非单处理器算力 [8] - 在系统工程层面通过超节点系统有效调度 昇�系统能效可比肩英伟达 [9] - 中国AI市场多厂商竞争格局形成 包括华为昇腾/阿里平头哥/百度昆仑/寒武纪等均在追赶英伟达 [5]
“被误解”的任正非:芯片“断章取义”报道何时休?
搜狐财经· 2025-06-11 02:11
华为芯片技术战略 - 通过堆叠和集群方法弥补单芯片性能差距 使AI芯片计算结果与最先进水平相当 [1][2] - 昇腾万卡集群采用全互连拓扑架构 实现384颗芯片协同工作 卡间带宽达2.8Tbps 纳秒级时延 [8] - 单集群BF16算力达300 PFLOPs 性能接近英伟达GB200 NVL72系统的两倍 [8] 研发投入结构 - 年研发投入总额1800亿元 其中600亿元用于基础理论研究且不设考核 [3] - 约1200亿元投入产品研发领域且需接受考核 [3] - 强调基础研究需长期投入 理论突破是追赶美国的关键 [3] 行业现状认知 - 承认单芯片性能落后美国一代 需通过数学方法补物理差距 [2] - 中国芯片行业需集体发展 不能仅依赖个别企业 [2] - 集群计算方案可使AI芯片达到实用状态 [2] 技术突破方向 - 提出超节点高可用方案 万卡集群训练快速恢复技术 [9] - 针对万亿参数MoE模型推理开发容错机制 [9] - 通过集群架构突破"内存墙"限制 提升数据传输效率 [9] 媒体传播现象 - 境外媒体存在断章取义现象 扭曲华为对芯片制裁的真实态度 [1][10] - 部分报道通过拼凑访谈内容制造误导性标题 [1][6] - 行业需要回归技术本源 避免炒作性报道 [10]