英伟达 H100

搜索文档
计算机行业深度研究报告:国产智算芯片:需求强劲,性能生态再进阶
华创证券· 2025-08-29 13:32
行业投资评级 - 推荐(维持)国产智算芯片行业投资评级 [2] 核心观点 - 全球智算算力需求持续高景气 国产智算市场空间广阔 [5] - 硬件性能呈多维技术路线 国产算力方案竞争力得验证 [5] - 软件兼容性适配自主标准 国产生态逐步突破CUDA垄断 [5] - 建议关注算力产业方向 包括芯片 服务器 数据中心 交换机 硬件/端侧等细分领域 [5] 智算需求高企:模型迭代与推理、资本开支和政策多重共振 - 全球AI算力基建投入持续爆发 OpenAI"星际之门"计划投资5000亿美元 xAI Colossus配备20万块H100GPU Meta建设两个"吉瓦级"超级计算集群 [5][10] - 主权AI布局提速 阿联酋建设5GW AI园区支持约250万颗B200芯片运行 欧盟投入100亿欧元建设13家人工智能工厂 [5][11] - 国内Token日消耗量从2024年初千亿级跃升至2025年3月十万亿级 一年增长100倍 [5][13] - 2025-2029年中国智算芯片市场CAGR为53.7% GPU份额由69.9%升至77.3% [5][18] - 截至2024年底国内AIDC累计投入超过1875亿元 阿里巴巴计划2025-2027年投入超3800亿元建设云和AI基础设施 [5][23] - 2024年三大运营商资本开支总额3188.7亿元 2025年计划降至2898亿元 但算力与AI相关投入逆势增长 [26] - 美国实体清单持续扩容 国产替代加速 2024年我国智算芯片出货量占比超30% [5][36] 硬件性能突破:多维技术路线并行 - 中芯国际14nm良率>95% 7nm量产稳步推进 华为昇腾910C以7nm+EUV工艺将FP16算力推至448 TFLOPS 较910B功耗降15% [5][41] - 华为昇腾910C采用Chiplet双芯封装 1024芯片集群FP16算力达819.2PFLOPS 可对标NVIDIA H100集群 [5][47] - 寒武纪思元590支持8芯片级联 FP16集群算力2.048 PFLOPS [5][47] - 华为CloudMatrix384单机柜集成384颗昇腾910与192颗鲲鹏CPU FP16峰值300 PFLOPS 跨节点延迟<1µs 线性扩展度95% [5][57] - 在DeepSeek-R1预填充效率4.45 tokens/s/TFLOPS 优于SGLang在NVIDIA H100默认配置下的3.18 tokens/s/TFLOPS [5][60] 软件生态突围:从兼容适配迁移到自主标准 - NVIDIA凭15年CUDA沉淀形成全球数百万开发者依赖的生态闭环 2024年3月EULA再禁转译层运行阻断第三方兼容路径 [5][64] - 华为CANN 海光DTK 寒武纪BANG+MagicMind等自研软件栈同步落地 [5][73] - 商汤DeepLink跨10余款国产芯片完成千亿参数模型20天不间断训练 效率保持95% [5][76] - 信通院AISHPerf 无问芯穹Infini-AI 阶跃星辰"模芯联盟"推动国产模型与芯片从适配走向全链路协同 [5][80] - 伴随《算力互联互通能力要求》 "一度算力"计量标准及400G ROADM网络落地 全国算力正由"可用"向"可交易 可调度 可度量"升级 [5]
晶圆级芯片,是未来
36氪· 2025-06-29 23:49
大模型算力需求与硬件挑战 - 大模型参数规模已达万亿级别,计算能力需求两年内增长1000倍,远超硬件迭代速度 [1] - GPU集群面临两大瓶颈:单芯片物理尺寸限制晶体管数量,多芯片互联时数据传输延迟与带宽损耗导致性能无法线性增长 [1] - 当前AI训练硬件分为两大阵营:晶圆级集成专用加速器(如Cerebras WSE-3/Tesla Dojo)和传统GPU集群(如英伟达H100) [1] 晶圆级芯片技术突破 - 传统芯片受限于曝光窗尺寸(最大单Die约858mm²),晶圆级芯片通过不切割晶圆实现高密度互连,算力集群占地面积缩小10-20倍,功耗降低30%以上 [2][3] - Cerebras WSE-3采用台积电5nm工艺,集成4万亿晶体管/90万AI核心/44GB缓存,支持1.2PB片外内存,单片面积46,225mm² [6][8] - 特斯拉Dojo采用Chiplet路线,25颗D1芯粒集成在晶圆基板上,单芯粒645mm²含500亿晶体管,单Dojo系统算力达9Petaflops [10] 性能指标对比 - **计算性能**:WSE-3 FP16精度达125PFLOPS,Dojo单Tile 362TFLOPS(BF16),H100单芯片60TFLOPS(FP64) [13] - **内存带宽**:WSE-3达21PB/s,Dojo单Tile 900GB/s,H100 3.35TB/s [13] - **延迟优化**:WSE-3单片架构降低通信延迟10倍,Dojo芯片间延迟100纳秒,H100依赖NVLink但延迟仍高于晶圆级系统 [16] 应用场景与成本分析 - **专用性**:WSE-3擅长超大规模模型训练(如24万亿参数),Dojo针对自动驾驶视频流优化,H100通用性更强 [14][15][16] - **成本结构**:Dojo单系统3-5亿美元,WSE-3单系统200-300万美元,英伟达H100单芯片成本显著更低但长期运营能耗高 [18] - **扩展性**:晶圆级芯片面临可扩展性限制与高制造成本,GPU集群在初期部署成本上更具优势 [17][19] 行业技术演进方向 - 晶圆级芯片代表当前最高算力节点集成密度,英伟达NVL72通过提升GPU集群密度间接向该方向靠拢 [20] - 晶圆级技术路线分化:Cerebras采用单片集成,特斯拉选择Chiplet+先进封装,两者均规避传统GPU的互联瓶颈 [10][13][20]