Workflow
英伟达B200 GPU
icon
搜索文档
英伟达最强GPU:B200详解解读
半导体行业观察· 2025-12-18 01:02
英伟达Blackwell B200 GPU架构与性能分析 - 英伟达推出新一代顶级计算GPU Blackwell B200,放弃了传统的单芯片设计,转而采用两个光罩大小的芯片,在软件层面被视为一个独立的GPU,成为公司首款芯片级GPU [1] - 每个B200芯片物理上包含80个流式多处理器(SM),但每个芯片支持74个SM,因此整个GPU共有148个SM,时钟频率与H100的高功率SXM5版本相似 [1] - 与上一代H100 SXM5相比,B200的功耗目标为1000W(H100为700W),采用台积电4NP制程,配备288 GB HBM3E显存,带宽高达8 TB/s [2] 缓存与内存子系统 - B200的L1缓存/共享内存容量与H100相同,为256 KB,开发者可通过CUDA API调整L1缓存与共享内存的分配比例 [4] - B200的L2缓存容量大幅提升至126 MB,而H100为50 MB,A100为40 MB,直接连接到同一L2分区的延迟约为150纳秒 [7] - 从单线程角度看,B200表现类似三级缓存架构,其L2缓存的分区特性很可能对应于其两个芯片,跨芯片延迟增加很小 [8] - 与AMD MI300X相比,英伟达的L1缓存容量更大、速度更快,但AMD的L2缓存延迟更低,且拥有256 MB末级缓存,实现了低延迟和高容量的结合 [9] 内存带宽与延迟表现 - B200的显存带宽为8 TB/s,显著高于H100的3.3 TB/s和AMD MI300X的5.3 TB/s [2][23] - 在L2带宽测试中,B200在本地L2分区内带宽可达21 TB/s,当数据在两个分区间传输时,带宽下降至16.8 TB/s [20] - B200的VRAM延迟似乎高于MI300X以及更早的H100和A100,但延迟回归的程度并不严重,表明其多芯片设计运行良好 [10] - B200在共享内存延迟方面表现出色,访问速度比测试过的任何AMD GPU都要快,包括RDNA系列的高频型号 [12] 计算吞吐量与原子操作 - SM数量的增加使B200在大多数向量运算中拥有比H100更高的计算吞吐量,但FP16运算是个例外,B200不能以FP32两倍的速度执行FP16运算 [30] - AMD的MI300X能进行双倍速率的FP16计算,其强大的运算能力在大多数向量运算方面远超H100和B200 [32] - B200的每个SM每个周期可以执行32次原子加法操作,而AMD CDNA3计算单元每个周期可以执行16次原子加法,这使得B200尽管核心数量较少,却依然能够胜出 [16] - 在全局内存原子操作吞吐量上,B200芯片每个周期可以支持GPU上近512次此类操作,而AMD的MI300A芯片在这项测试中表现不佳 [30] 张量内存与AI优化 - Blackwell引入了张量内存(TMEM),类似于专用于张量核心的寄存器文件,其组织结构为512列 x 128行,每个单元格为32位,每个SM子分区都有一个512列 x 32行的TMEM分区 [34][35] - TMEM容量为64 KB,与AMD CDNA架构上的累加器寄存器文件(Acc VGPR)容量相同,但TMEM的实现更加完善和成熟,采用了动态分配方案 [35] - 引入TMEM有助于降低常规寄存器文件的容量和带宽压力,Blackwell的CTA级矩阵指令每个周期、每个分区可以支持1024次16位MAC操作 [38] - 与AMD CDNA架构相比,TMEM的源矩阵可以来自共享内存或TMEM自身,而CDNA的MFMA指令源矩阵可以来自常规或Acc VGPRs [36] 实际应用基准测试 - 在FluidX3D基准测试中,B200充分发挥了其显存带宽优势,性能超越了MI300X,该测试采用256x256x256单元配置,FP32模式下需要1.5 GB内存,访问模式对缓存不友好 [42] - 当使用IEEE FP16格式进行存储时,AMD的MI300A在FluidX3D测试中略有进步,但仍然远胜于B200 [45] - 在FP64性能方面,B200的基本FP64运算速度为FP32的一半,远超消费级GPU,在自行编写的基准测试中表现优于消费级GPU和H100,但MI300X凭借其庞大体积依然显露优势 [40] 多芯片架构与竞争格局 - 与AMD的MI300X(采用12芯片设计)相比,英伟达的双芯片策略显得较为保守,但软件无需考虑多芯片架构,是H100和A100的直接继任者 [51] - AMD即将推出的MI350X预计将把显存带宽提升至8 TB/s,在B200已经领先的领域迎头赶上 [51] - 英伟达的优势在于其CUDA软件生态系统,GPU计算代码通常首先针对英伟达GPU编写,硬件只需足够优秀以阻止竞争对手填补CUDA的“护城河” [54] - 英伟达保守的硬件策略给AMD留下了机会,像MI300X这样的GPU展现了AMD实现高难度设计目标的能力,其是否能在硬件上挑战英伟达的软件主导地位值得关注 [57] 测试中遇到的问题 - 在数周的测试中,遇到了三次GPU挂起问题,表现为GPU进程卡死,任何尝试使用系统八个GPU中任何一个的进程都会挂起,只有重启系统才能恢复GPU功能 [47] - 内核消息显示,Nvidia统一内存内核模块(nvidia_uvm)在禁用抢占的情况下获取了锁,可能导致软件死锁 [47][48] - `nvidia-smi`提供了重置GPU的选项,但如果GPU正在使用中就无法生效,这违背了提供重置选项的初衷,希望英伟达能提供无需重启系统即可解决问题的方法 [48][49]
异构AI系统正在成为主流,业内呼吁构建“混合算力”技术护城河
第一财经· 2025-12-17 10:12
纵观2025年,混合算力集群已经成为行业追求极致性价比的必然技术选项,而去年年初时,建设混合万卡算力还是一种权 衡。 近期,英伟达H200是否能重新销往中国市场引发市场高度关注。尽管目前尚无定论,但无论如何,打造国产算力仍是中国 企业的必修课。在这一过程中,构建"异构算力调度"的技术护城河正在成为当下热议的话题。 12月16日,在一场智能体生态论坛上,之江实验室副主任、浙江大学长聘教授何水兵表示,纵观2025年,混合算力集群已 经成为行业追求极致性价比的必然技术选项。 推动软硬协同和多元异构技术 去年年初时,建设混合万卡算力还是一种权衡。"能不混就不混是当时的主流观点。"何水兵表示,"但现在混合算力已经 成为共识。" 今年,英特尔结合了自家的Gaudi 3加速器与英伟达B200 GPU,打造了高效的异构AI系统,将英伟达B200集群的推理极限 提升高达70%。 何水兵表示,软硬件协同是解决算力挑战的一大趋势。英伟达的软件平台CUDA已经成为该公司技术重要的"护城河",开 发者对于英伟达CUDA芯片编程软件高度依赖。而中国厂商也正在构建自己的"异构算力调度"护城河。 "智能算力的发展是一场涉及技术、生态和应用的 ...
3个月内10亿美元禁运GPU流入国内?英伟达AI芯片非官方维修需求暴增
是说芯语· 2025-07-28 07:47
核心观点 - 在美国收紧AI芯片对华出口管制后,至少有价值10亿美元的英伟达先进AI芯片(如B200、H100、H200)通过黑市流入中国大陆 [1][2] - 这些芯片主要通过中国分销商(如"时代之门")销售给数据中心供应商和其他公司,形成完整的地下供应链 [2][3][5] - 尽管英伟达否认参与,但黑市交易规模庞大,价格溢价高达50%,且已形成成熟的交易和测试流程 [3][6][7] - 随着H20芯片出口管制放宽,黑市销量有所下降,但对高性能芯片的需求依然存在 [12][13] - 东南亚国家成为新的中转站,美国可能进一步收紧对这些地区的出口管制 [13][14] - AI芯片维修需求激增,中国市场已出现专门维修英伟达高端GPU的公司,月维修量达500块 [17][18] 芯片黑市交易 - 英伟达B200 GPU成为中国半导体黑市最受欢迎的芯片,尽管被禁止向中国销售 [1] - 在特朗普政府收紧管制后的三个月内,黑市交易额超过10亿美元 [2] - 芯片以现成机架形式出售,每个机架包含8个B200,价格在300万至350万人民币之间,比美国溢价50% [3] - "时代之门"是主要销售商之一,估计已售出近4亿美元的产品 [3][5] - 交易通过社交媒体平台公开进行,包括抖音和小红书,形成类似"海鲜市场"的交易模式 [7][8][9] 供应链与分销网络 - 芯片最初可能来自美国超微电脑(Supermicro),但该公司否认参与走私 [5] - 分销网络涉及多级经销商,最终客户包括数据中心运营商和科技公司 [3][5] - 华纪元科技被列为"时代之门"的最大股东,声称拥有100多个业务合作伙伴,包括阿里云、百度云等 [3] - 供应链已扩展至东南亚国家,可能通过泰国、马来西亚等中转站进入中国 [13][14] 市场需求与价格动态 - B200因其性能、价值和易于维护而需求旺盛 [11] - GB200 AI机架也在中国市场出现,每个售价接近4000万人民币 [11] - 经销商已开始为未来的B300库存做广告,预计第四季度量产 [12] - 随着H20芯片恢复销售,黑市销量下降,但对高端芯片的需求持续存在 [12][13] 维修市场 - 中国市场上已出现十余家专门维修英伟达高端GPU的公司 [17] - 一家深圳企业月均维修量达500块AI芯片,配备256台服务器测试机房 [17] - 维修报价为1-2万元/块,或按原价10%收费,涵盖软件调试和硬件维修 [18] - 由于长期高负荷运转,H100/A100的故障率持续攀升,正常寿命仅2-5年 [18] 公司回应 - 英伟达否认参与或知晓芯片被违规转移,强调只有官方授权渠道才能提供可靠服务 [2][17] - 美超微、戴尔、华硕等公司表示严格遵守出口管制法规 [5][8] - 华纪元否认参与英伟达芯片业务,称其从事"智慧城市工作" [4][5]