64位计算
搜索文档
英伟达表示,并未放弃 64 位计算
半导体行业观察· 2025-12-11 01:23
文章核心观点 - 英伟达因其最新GPU架构(特别是Blackwell)在64位双精度浮点运算(FP64)性能上提升有限甚至倒退,而遭到高性能计算领域人士的批评[2][5] - 公司战略重心明显向低精度计算(如FP4、FP8)倾斜,以迎合人工智能(尤其是大语言模型)训练与推理的巨大市场需求[4][5] - 英伟达高管回应称公司并未放弃64位计算,并通过发布cuBLAS等软件库来模拟提升FP64性能,同时承诺未来硬件架构将提升64位核心性能[2][6][8][9] 英伟达GPU的64位性能现状与批评 - 在从Hopper架构过渡到Blackwell架构时,FP64性能未得到实质性改进,Blackwell B200的FP64性能为37 teraflops,甚至略低于H200/H100的34 teraflops[2][3][4] - 田纳西大学的Jack Dongarra在SC25大会上指出,Blackwell平台的浮点运算能力相比上一代没有提升,64位性能也未提高,是一款“带宽更高但浮点运算能力却有所下降的处理器”[2] - 对于传统高性能计算工作负载,更老款且更便宜的H100和H200在FP64性能上仍然是比Blackwell B200更优的选择[3] 英伟达GPU的性能数据对比 - **Ampere A100**: FP64性能为9.7 teraflops,FP64 Tensor Core性能为19.5 teraflops[2][4] - **Hopper H100/H200**: FP64性能为34 teraflops,FP64 Tensor Core性能为67 teraflops[2][4] - **Blackwell B100**(未发售): FP64及FP64 Tensor Core性能为30 teraflops[3][4] - **Blackwell B200**: FP64及FP64 Tensor Core性能为37 teraflops[4] - **Blackwell Ultra B300**: FP64及FP64 Tensor Core性能大幅降至1.2 teraflops,但拥有高达14 petaflops以上的低精度FP4性能[4] 战略重心转向AI与市场影响 - 英伟达GPU在低精度AI计算性能上实现飞跃,例如B200的FP4 Tensor Core性能达到18,000 teraflops,FP8 Tensor Core性能为9,000 teraflops,远超上一代Hopper产品[4] - 公司对AI市场需求做出了恰当回应,其GPU销售业绩极其强劲,并推动公司成为全球首家市值突破5万亿美元的公司[5] - 然而,这种以AI需求为导向的设计改进,导致其无法满足高性能计算领域对原始FP64运算能力的核心需求[5] 行业需求与英伟达的回应 - 高性能计算行业专家强调,FP64对科研实验室及制造业、能源、金融、医疗保健等众多行业的企业用户仍然至关重要,是“科学人工智能”的基本要求[6] - 英伟达高管承认FP64的核心地位,指出精确仿真是训练和验证AI代理的基础[6] - 公司于2024年10月发布cuBLAS库,该CUDA-X数学库可在Tensor Core上模拟双精度计算,据称能将FP64矩阵乘法的性能提升1.8倍[6] - 高管暗示公司将在未来GPU架构中提升64位计算的“核心底层性能”,但具体细节需待2026年3月的GTC大会公布[8][9] 高性能计算领域的适应与挑战 - 行业专家将当前从硬件优先的FP64向软件模拟的过渡,类比于历史上从向量处理到标量处理或从共享内存到分布式集群的转型,认为编程模型需要时间调整[8] - 在物理精度较低的环境中模拟更高精度是开发者会采用的一种技术,但专家指出“64位运算与64位向量指令并不相同”,这是一条复杂的道路[8] - 高性能计算市场希望看到FP64性能能重现从Ampere A100到Hopper H100那样的大幅提升,但目前尚不清楚英伟达是否愿意为此牺牲其AI性能[9]