Mode Flops Utilization (MFU)

搜索文档
H100 与 GB200 NVL72 训练基准对比 —— 功耗、总体拥有成本(TCO)及可靠性分析,软件随时间的改进 ——SemiAnalysis
2025-08-20 14:50
**行业与公司** * 行业涉及人工智能训练芯片与加速器 聚焦NVIDIA的H100和GB200 NVL72系统在大型语言模型训练中的性能对比[1][3][4] * 公司包括NVIDIA及其云服务合作伙伴(CSPs)和新兴云提供商(Neoclouds) 同时提及Meta(LlaMa)、DeepSeek等模型开发公司[6][7][15] **核心观点与论据** * H100与GB200 NVL72的总拥有成本(TCO)对比显示 GB200的每GPU全包资本成本是H100的1.4倍至1.7倍[15] 其TCO约为H100的1.5倍 因此GB200需至少提供1.5倍性能提升才能具备TCO优势[19] * GB200 NVL72的可靠性问题突出 背板信号完整性故障导致调试耗时 更换计算托盘需1-2小时 更换交换托盘需1-2小时且需整机架停机 更换背板需8-12小时[87][89][90] * 软件优化对训练效率提升显著 H100训练GPT-175B的MFU(模型浮点运算利用率)从2023年1月的34%提升至2023年12月的53% 12个月内吞吐量提升57%[31] FP8训练成本从每百万token 72美分降至5.2美分[34] * GB200 NVL72性能随时间改善 2025年5月训练DeepSeek 70B时token吞吐量仅比H100高10% 但到2025年7月提升至2.5倍 预计2025年12月将达到3.7倍[59][60][64] * 能效方面 GB200因芯片功耗1200W(H100为700W)且采用直接芯片液冷(DLC) 2025年7月时训练能效比H100高2.2倍 预计2025年12月将达4倍[18][68] * 大规模训练能耗巨大 训练LlaMa 405B(15T token)需消耗相当于72,000美国家庭年用电量的能源[48] 训练GPT-175B(300B token)的FP8版本需消耗1个家庭年用电量 BF16版本需28个家庭年用电量[35] **其他重要内容** * 专家混合模型(MoE)如DeepSeek 70B的通信开销较大 其H100 MFU仅19% 低于稠密模型(如LlaMa 405B的55%)[66] * NVIDIA的基准测试主要基于NeMo-MegatronLM 但许多用户偏好原生PyTorch框架 建议NVIDIA将更多工程师资源投入PyTorch核心开发而非NeMo功能扩展[25] * GB200 NVL72机架设计包含72个GPU 其中64个用于训练 8个作为热备件(运行抢占式工作负载或待命) 但整机架维护仍需额外备用机架[74][100] * 当前GB200 NVL72仅用于推理和小规模实验 尚未有超大规模训练运行 因软件成熟度和可靠性问题未完全解决[7][97] **数据与单位换算** * H100服务器价格降至约$150,000 全包资本成本为$250,000(含存储、网络)[14] GB200 NVL72机架服务器成本$1.1M 全包成本$1.5M[15] * 训练LlaMa 405B(15T token)成本为$1.85/百万token 总成本$27.75M[45] DeepSeek 70B(1.8T token)训练成本在2025年7月为$3.5M 预计2025年12月降至$2.5M[64] * 美国家庭年平均用电量为10,715 kWh 相当于38,574,000,000焦耳(1 kWh = 3,600,000 J)[35]