GPU Cloud

搜索文档
售价2000万的GB200 NVL72,划算吗?
半导体行业观察· 2025-08-22 01:17
AI服务器成本分析 - H100服务器价格在过去18个月有所下降 目前每台约19万美元 超大规模数据中心每台服务器总前期资本成本高达25万美元[2] - GB200 NVL72服务器在超大规模数据中心仅机架式服务器成本就达310万美元 加上网络存储等组件后每个机架总成本约390万美元[2] - GB200 NVL72每GPU全部资本成本约为H100每GPU成本的1.6倍到1.7倍 具体取决于买家类型[2] 资本支出比较 - 超大规模企业H100 SXM服务器成本为189,637美元 GB200 NVL72达3,178,028美元[3] - Neocloud巨头H100服务器成本200,684美元 GB200达3,400,420美元[3] - 新兴Neoclouds的H100成本213,247美元 GB200达3,502,433美元[3] - 每GPU前期资本支出超大规模企业H100为31,358美元 GB200为54,400美元[3] - 加权平均资本成本超大规模企业9.4% Neocloud巨头13.3% 新兴Neoclouds达17.5%[3] 运营成本分析 - 电力成本统一为每千瓦时0.087美元 利用率均为80% 电源使用效率1.35[4] - 超大规模企业H100每GPU运营成本每月249美元 GB200为359美元[4] - Neocloud巨头H100每月287美元 GB200达397美元[4] - 新兴Neoclouds的H100每月333美元 GB200运营成本更高[4] - 每GPU每小时运营成本超大规模企业H100为0.34美元 GB200为0.49美元[4] 总拥有成本 - 超大规模企业H100每GPU每小时总成本1.42美元 GB200达2.36美元[5] - Neocloud巨头H100成本1.69美元 GB200为2.74美元[5] - 新兴Neoclouds的H100成本1.95美元 GB200达3.06美元[5] - 资本成本占总拥有成本比例超大规模企业H100为75.9% GB200为79.2%[5] 软件性能改进 - GPT-3 175B训练BF16模型浮点运算利用率从2024年1月34%提升至12月54% 吞吐量提升57%[11] - FP8模型利用率从29.5%提高至39.5% 吞吐量提升34%[11][12] - 训练成本从每百万token 72美分下降至54.2美分 总成本从21.8万美元降至16.2万美元[12] - 2024年12月软件版本每个token能耗FP8为2.46焦耳 BF16为3.63焦耳[13] 扩展性能研究 - Llama3 405B训练在576到2304个H100规模下FP8 MFU保持在43%左右 BF16 MFU约54%[17][18] - 使用2304个H100训练Llama3 405B每百万token成本BF16为1.95美元 预训练总成本达2910万美元[18] - Llama3 70B训练在64到2048个H100规模下FP8 MFU从38.1%降至35.5% BF16 MFU从54.5%降至53.7%[20][21] - Llama3 8B训练在128个H100上从2024年11月至2025年4月BF16 MFU从58.5%提升至62.2%[23] 能源消耗分析 - 训练GPT-3 175B的300B token FP8需19个美国家庭年能耗 BF16需28个家庭[13] - Llama3 405B训练15T token需相当于3400个美国家庭年能耗量[19] - Llama3 70B训练15T token在64个H100上需440个家庭年能耗 2048个H100时需472个家庭[22]