Mode Flops Utilization (MFU)

搜索文档

H100 与 GB200 NVL72 训练基准对比 —— 功耗、总体拥有成本（TCO）及可靠性分析，软件随时间的改进 ——SemiAnalysis

2025-08-20 14:50

**行业与公司** * 行业涉及人工智能训练芯片与加速器聚焦NVIDIA的H100和GB200 NVL72系统在大型语言模型训练中的性能对比[1][3][4] * 公司包括NVIDIA及其云服务合作伙伴（CSPs）和新兴云提供商（Neoclouds）同时提及Meta（LlaMa）、DeepSeek等模型开发公司[6][7][15] **核心观点与论据** * H100与GB200 NVL72的总拥有成本（TCO）对比显示 GB200的每GPU全包资本成本是H100的1.4倍至1.7倍[15] 其TCO约为H100的1.5倍因此GB200需至少提供1.5倍性能提升才能具备TCO优势[19] * GB200 NVL72的可靠性问题突出背板信号完整性故障导致调试耗时更换计算托盘需1-2小时更换交换托盘需1-2小时且需整机架停机更换背板需8-12小时[87][89][90] * 软件优化对训练效率提升显著 H100训练GPT-175B的MFU（模型浮点运算利用率）从2023年1月的34%提升至2023年12月的53% 12个月内吞吐量提升57%[31] FP8训练成本从每百万token 72美分降至5.2美分[34] * GB200 NVL72性能随时间改善 2025年5月训练DeepSeek 70B时token吞吐量仅比H100高10% 但到2025年7月提升至2.5倍预计2025年12月将达到3.7倍[59][60][64] * 能效方面 GB200因芯片功耗1200W（H100为700W）且采用直接芯片液冷（DLC） 2025年7月时训练能效比H100高2.2倍预计2025年12月将达4倍[18][68] * 大规模训练能耗巨大训练LlaMa 405B（15T token）需消耗相当于72,000美国家庭年用电量的能源[48] 训练GPT-175B（300B token）的FP8版本需消耗1个家庭年用电量 BF16版本需28个家庭年用电量[35] **其他重要内容** * 专家混合模型（MoE）如DeepSeek 70B的通信开销较大其H100 MFU仅19% 低于稠密模型（如LlaMa 405B的55%）[66] * NVIDIA的基准测试主要基于NeMo-MegatronLM 但许多用户偏好原生PyTorch框架建议NVIDIA将更多工程师资源投入PyTorch核心开发而非NeMo功能扩展[25] * GB200 NVL72机架设计包含72个GPU 其中64个用于训练 8个作为热备件（运行抢占式工作负载或待命）但整机架维护仍需额外备用机架[74][100] * 当前GB200 NVL72仅用于推理和小规模实验尚未有超大规模训练运行因软件成熟度和可靠性问题未完全解决[7][97] **数据与单位换算** * H100服务器价格降至约$150,000 全包资本成本为$250,000（含存储、网络）[14] GB200 NVL72机架服务器成本$1.1M 全包成本$1.5M[15] * 训练LlaMa 405B（15T token）成本为$1.85/百万token 总成本$27.75M[45] DeepSeek 70B（1.8T token）训练成本在2025年7月为$3.5M 预计2025年12月降至$2.5M[64] * 美国家庭年平均用电量为10,715 kWh 相当于38,574,000,000焦耳（1 kWh = 3,600,000 J）[35]

英伟达(US:NVDA)

Artificial Intelligence

Total Cost of Ownership (TCO)

Mode Flops Utilization (MFU)

Semiconductors

H100

GB200 NVL72

Artificial Intelligence

Total Cost of Ownership (TCO)

Mode Flops Utilization (MFU)

Semiconductors

H100

GB200 NVL72