文章核心观点 - 人工智能算力芯片是国家人工智能战略的核心基础设施,国内AI芯片产业在国产化替代政策引导下蓬勃发展,形成多元化竞争格局,主要厂商分为三类:专攻训练与推理的ASIC厂商、主打CPU路线的厂商以及布局全栈解决方案的厂商 [1] - GPU占据AI芯片市场主导地位,2025年GPU将占AI芯片80%市场份额,通用型算力GPU因架构优化(缩减图形渲染功能)具有更优计算能效比,广泛应用于人工智能模型训练和推理领域 [1] - 国产AI芯片在性能、生态和供应链自主化方面持续突破,通过多精度计算支持、先进封装技术(如Chiplet)、软件生态兼容(如类CUDA平台)和集群级解决方案与国际厂商竞争,并深入行业应用场景 [37] AI芯片分类与技术特性 - AI芯片按部署位置分为云端芯片(承担训练和高带宽推理任务)和边缘/终端芯片(承担独立推理任务);按功能分为训练芯片和推理芯片 [3] - 主流AI芯片包括GPU、FPGA和ASIC(如VPU/TPU):GPU通用性强且适合大规模并行运算,但图形渲染功能在推理端无法发挥算力;FPGA可编程配置架构适应算法迭代,开发时间短(6个月),但量产单价高且峰值算力低;ASIC通过算法固化实现极致性能和能效,量产后成本最低,但研发时间长(1年)且技术风险大 [2] - 评价AI芯片性能的核心指标为算力(单位TOPS/TFLOPS)、功耗(性能功耗比)和面积(影响成本及良率),其中算力类型包括INT8、FP32等精度 [4][5] 国际厂商技术对比(英伟达) - 英伟达GPGPU采用微架构(Volta/Ampere/Hopper)、CUDA核、Tensor核、显存容量和带宽等硬件参数决定性能,代表产品V100/A100/A800/H100在算力、显存和互联技术上持续迭代 [6] - 具体性能对比:H100(Hopper架构)FP32算力51 TFLOPS、INT8算力1513 TOPS、显存带宽2TB/s,较A100(Ampere架构)FP32算力19.5 TFLOPS、INT8算力624 TOPS、显存带宽1935 GB/s显著提升;互联技术从NVLink 300 GB/s(V100)升级至NVLink 600 GB/s(H100) [6] 国产AI芯片厂商全景 - 国内厂商分为三类:ASIC路线(寒武纪、天数智芯、昆仑芯)、GPGPU路线(海光信息、壁仞科技、沐曦集成电路)和全栈解决方案路线(昇腾、平头哥、摩尔线程、燧原科技) [1][34] - 代表性上市公司:寒武纪(市值493亿元)、海光信息(市值1336亿元)、景嘉微(市值367亿元);非上市公司如沐曦(Pre-B轮融资10亿元)、天数智芯(C++轮融资超10亿元)通过多轮融资支持产品研发 [8] - 国产芯片制程以7nm为主(如寒武纪MLU370、海光DCU、天数智芯Big Island),部分采用12nm(平头哥含光800、燧原云燧i20),5nm技术处于研发中 [9][11][23][28] 厂商产品与技术特点 - 寒武纪:云边端产品矩阵(MLU370系列、Cambricon终端处理器),采用自主指令集架构(Cambricon ISA)支持动态可重构和低精度量化,算力达256 TOPS(INT8),制程7nm [10][11][12] - 海光信息:产品线包括CPU和DCU协处理器(深算系列),采用GPGPU架构兼容类CUDA环境,支持多精度计算和高带宽内存,深算一号显存带宽1024 GB/s(对比英伟达A100 2039 GB/s) [14][15][17] - 沐曦集成电路:聚焦高性能GPGPU,支持全线精度计算(FP32/FP16/BF16/INT8),注重软件生态兼容和能效优化 [18][19][20] - 壁仞科技:首款GPGPU芯片BR100采用Chiplet技术,FP16算力超1000T、INT8算力超2000T,擅长大模型训练 [22] - 燧原科技:训练推理全栈方案(云炬系列),云燧i20采用12nm工艺实现256 TOPS算力,单位面积效率媲美7nm GPU [23] - 平头哥:端云一体解决方案(含光800采用12nm工艺,算力820 TOPS),与阿里云生态协同 [28] - 昇腾:全栈生态系统(芯片+硬件+软件+应用),昇腾910B支持FP32/FP16精度,单卡性能对标英伟达A800/A100 [29] - 摩尔线程:基于MUSA架构覆盖AI计算与图形渲染,MTT S4000提供INT8算力200 TOPS、显存带宽768 GB/s,兼容X86/ARM和CUDA生态 [30][31][32] 性能与生态建设 - 国产芯片算力在INT8精度下普遍达100-200 TOPS(如燧原i20 256 TOPS、昆仑芯R200迭代升级),部分厂商支持FP64多精度计算和HBM高带宽内存 [9][23][25][37] - 软件生态通过兼容主流框架(PyTorch/TensorFlow)、构建类CUDA平台(海光DTK、沐曦MXMACA)及深度集成(昆仑芯与百度飞桨)降低开发门槛 [15][25][37] - 集群级解决方案成为竞争焦点,如华为昇腾超节点、壁仞科技光互连GPU超节点支持万卡级集群 [37] 应用场景与行业渗透 - 芯片应用覆盖互联网、安防、金融、政务、能源、科研等领域,具体场景包括智能数据分析、模型训练、边缘计算和自动驾驶(如地平线征程5用于自动驾驶) [2][12][16][25] - 厂商通过适配主流大模型(DeepSeek/LLaMA/ChatGLM)和行业定制化解决方案(如寒武纪用于推荐系统、海光用于商业计算)实现深度软硬协同 [12][16][37]
主流国产AI算力芯片全景图