英伟达B200 GPU - 财报，业绩电话会，研报，新闻

英伟达B200 GPU

搜索文档

半导体行业观察· 2025-12-18 01:02

英伟达Blackwell B200 GPU架构与性能分析 - 英伟达推出新一代顶级计算GPU Blackwell B200，放弃了传统的单芯片设计，转而采用两个光罩大小的芯片，在软件层面被视为一个独立的GPU，成为公司首款芯片级GPU [1] - 每个B200芯片物理上包含80个流式多处理器（SM），但每个芯片支持74个SM，因此整个GPU共有148个SM，时钟频率与H100的高功率SXM5版本相似 [1] - 与上一代H100 SXM5相比，B200的功耗目标为1000W（H100为700W），采用台积电4NP制程，配备288 GB HBM3E显存，带宽高达8 TB/s [2] 缓存与内存子系统 - B200的L1缓存/共享内存容量与H100相同，为256 KB，开发者可通过CUDA API调整L1缓存与共享内存的分配比例 [4] - B200的L2缓存容量大幅提升至126 MB，而H100为50 MB，A100为40 MB，直接连接到同一L2分区的延迟约为150纳秒 [7] - 从单线程角度看，B200表现类似三级缓存架构，其L2缓存的分区特性很可能对应于其两个芯片，跨芯片延迟增加很小 [8] - 与AMD MI300X相比，英伟达的L1缓存容量更大、速度更快，但AMD的L2缓存延迟更低，且拥有256 MB末级缓存，实现了低延迟和高容量的结合 [9] 内存带宽与延迟表现 - B200的显存带宽为8 TB/s，显著高于H100的3.3 TB/s和AMD MI300X的5.3 TB/s [2][23] - 在L2带宽测试中，B200在本地L2分区内带宽可达21 TB/s，当数据在两个分区间传输时，带宽下降至16.8 TB/s [20] - B200的VRAM延迟似乎高于MI300X以及更早的H100和A100，但延迟回归的程度并不严重，表明其多芯片设计运行良好 [10] - B200在共享内存延迟方面表现出色，访问速度比测试过的任何AMD GPU都要快，包括RDNA系列的高频型号 [12] 计算吞吐量与原子操作 - SM数量的增加使B200在大多数向量运算中拥有比H100更高的计算吞吐量，但FP16运算是个例外，B200不能以FP32两倍的速度执行FP16运算 [30] - AMD的MI300X能进行双倍速率的FP16计算，其强大的运算能力在大多数向量运算方面远超H100和B200 [32] - B200的每个SM每个周期可以执行32次原子加法操作，而AMD CDNA3计算单元每个周期可以执行16次原子加法，这使得B200尽管核心数量较少，却依然能够胜出 [16] - 在全局内存原子操作吞吐量上，B200芯片每个周期可以支持GPU上近512次此类操作，而AMD的MI300A芯片在这项测试中表现不佳 [30] 张量内存与AI优化 - Blackwell引入了张量内存（TMEM），类似于专用于张量核心的寄存器文件，其组织结构为512列 x 128行，每个单元格为32位，每个SM子分区都有一个512列 x 32行的TMEM分区 [34][35] - TMEM容量为64 KB，与AMD CDNA架构上的累加器寄存器文件（Acc VGPR）容量相同，但TMEM的实现更加完善和成熟，采用了动态分配方案 [35] - 引入TMEM有助于降低常规寄存器文件的容量和带宽压力，Blackwell的CTA级矩阵指令每个周期、每个分区可以支持1024次16位MAC操作 [38] - 与AMD CDNA架构相比，TMEM的源矩阵可以来自共享内存或TMEM自身，而CDNA的MFMA指令源矩阵可以来自常规或Acc VGPRs [36] 实际应用基准测试 - 在FluidX3D基准测试中，B200充分发挥了其显存带宽优势，性能超越了MI300X，该测试采用256x256x256单元配置，FP32模式下需要1.5 GB内存，访问模式对缓存不友好 [42] - 当使用IEEE FP16格式进行存储时，AMD的MI300A在FluidX3D测试中略有进步，但仍然远胜于B200 [45] - 在FP64性能方面，B200的基本FP64运算速度为FP32的一半，远超消费级GPU，在自行编写的基准测试中表现优于消费级GPU和H100，但MI300X凭借其庞大体积依然显露优势 [40] 多芯片架构与竞争格局 - 与AMD的MI300X（采用12芯片设计）相比，英伟达的双芯片策略显得较为保守，但软件无需考虑多芯片架构，是H100和A100的直接继任者 [51] - AMD即将推出的MI350X预计将把显存带宽提升至8 TB/s，在B200已经领先的领域迎头赶上 [51] - 英伟达的优势在于其CUDA软件生态系统，GPU计算代码通常首先针对英伟达GPU编写，硬件只需足够优秀以阻止竞争对手填补CUDA的“护城河” [54] - 英伟达保守的硬件策略给AMD留下了机会，像MI300X这样的GPU展现了AMD实现高难度设计目标的能力，其是否能在硬件上挑战英伟达的软件主导地位值得关注 [57] 测试中遇到的问题 - 在数周的测试中，遇到了三次GPU挂起问题，表现为GPU进程卡死，任何尝试使用系统八个GPU中任何一个的进程都会挂起，只有重启系统才能恢复GPU功能 [47] - 内核消息显示，Nvidia统一内存内核模块（nvidia_uvm）在禁用抢占的情况下获取了锁，可能导致软件死锁 [47][48] - `nvidia-smi`提供了重置GPU的选项，但如果GPU正在使用中就无法生效，这违背了提供重置选项的初衷，希望英伟达能提供无需重启系统即可解决问题的方法 [48][49]

AMD Radeon Instinct MI300X

AMD Radeon Instinct MI300X

异构AI系统正在成为主流，业内呼吁构建“混合算力”技术护城河

第一财经· 2025-12-17 10:12

纵观2025年，混合算力集群已经成为行业追求极致性价比的必然技术选项，而去年年初时，建设混合万卡算力还是一种权衡。近期，英伟达H200是否能重新销往中国市场引发市场高度关注。尽管目前尚无定论，但无论如何，打造国产算力仍是中国企业的必修课。在这一过程中，构建"异构算力调度"的技术护城河正在成为当下热议的话题。 12月16日，在一场智能体生态论坛上，之江实验室副主任、浙江大学长聘教授何水兵表示，纵观2025年，混合算力集群已经成为行业追求极致性价比的必然技术选项。推动软硬协同和多元异构技术去年年初时，建设混合万卡算力还是一种权衡。"能不混就不混是当时的主流观点。"何水兵表示，"但现在混合算力已经成为共识。" 今年，英特尔结合了自家的Gaudi 3加速器与英伟达B200 GPU，打造了高效的异构AI系统，将英伟达B200集群的推理极限提升高达70%。何水兵表示，软硬件协同是解决算力挑战的一大趋势。英伟达的软件平台CUDA已经成为该公司技术重要的"护城河"，开发者对于英伟达CUDA芯片编程软件高度依赖。而中国厂商也正在构建自己的"异构算力调度"护城河。 "智能算力的发展是一场涉及技术、生态和应用的 ...

3个月内10亿美元禁运GPU流入国内？英伟达AI芯片非官方维修需求暴增

是说芯语· 2025-07-28 07:47

核心观点 - 在美国收紧AI芯片对华出口管制后，至少有价值10亿美元的英伟达先进AI芯片（如B200、H100、H200）通过黑市流入中国大陆 [1][2] - 这些芯片主要通过中国分销商（如"时代之门"）销售给数据中心供应商和其他公司，形成完整的地下供应链 [2][3][5] - 尽管英伟达否认参与，但黑市交易规模庞大，价格溢价高达50%，且已形成成熟的交易和测试流程 [3][6][7] - 随着H20芯片出口管制放宽，黑市销量有所下降，但对高性能芯片的需求依然存在 [12][13] - 东南亚国家成为新的中转站，美国可能进一步收紧对这些地区的出口管制 [13][14] - AI芯片维修需求激增，中国市场已出现专门维修英伟达高端GPU的公司，月维修量达500块 [17][18] 芯片黑市交易 - 英伟达B200 GPU成为中国半导体黑市最受欢迎的芯片，尽管被禁止向中国销售 [1] - 在特朗普政府收紧管制后的三个月内，黑市交易额超过10亿美元 [2] - 芯片以现成机架形式出售，每个机架包含8个B200，价格在300万至350万人民币之间，比美国溢价50% [3] - "时代之门"是主要销售商之一，估计已售出近4亿美元的产品 [3][5] - 交易通过社交媒体平台公开进行，包括抖音和小红书，形成类似"海鲜市场"的交易模式 [7][8][9] 供应链与分销网络 - 芯片最初可能来自美国超微电脑（Supermicro），但该公司否认参与走私 [5] - 分销网络涉及多级经销商，最终客户包括数据中心运营商和科技公司 [3][5] - 华纪元科技被列为"时代之门"的最大股东，声称拥有100多个业务合作伙伴，包括阿里云、百度云等 [3] - 供应链已扩展至东南亚国家，可能通过泰国、马来西亚等中转站进入中国 [13][14] 市场需求与价格动态 - B200因其性能、价值和易于维护而需求旺盛 [11] - GB200 AI机架也在中国市场出现，每个售价接近4000万人民币 [11] - 经销商已开始为未来的B300库存做广告，预计第四季度量产 [12] - 随着H20芯片恢复销售，黑市销量下降，但对高端芯片的需求持续存在 [12][13] 维修市场 - 中国市场上已出现十余家专门维修英伟达高端GPU的公司 [17] - 一家深圳企业月均维修量达500块AI芯片，配备256台服务器测试机房 [17] - 维修报价为1-2万元/块，或按原价10%收费，涵盖软件调试和硬件维修 [18] - 由于长期高负荷运转，H100/A100的故障率持续攀升，正常寿命仅2-5年 [18] 公司回应 - 英伟达否认参与或知晓芯片被违规转移，强调只有官方授权渠道才能提供可靠服务 [2][17] - 美超微、戴尔、华硕等公司表示严格遵守出口管制法规 [5][8] - 华纪元否认参与英伟达芯片业务，称其从事"智慧城市工作" [4][5]