GB200 Blackwell系统
搜索文档
英伟达员工指微软数据中心冷却系统浪费资源
新浪科技· 2025-12-12 11:22
英伟达Blackwell芯片部署与微软数据中心冷却方案 - 英伟达正在为微软数据中心部署最新一代Blackwell芯片,以支持AI模型训练与推理的算力需求[1] - 部署过程中,英伟达员工发现微软一处设施的冷却方式显得“过于浪费”,但该设计带来了良好的弹性与故障容忍能力[1] - 具体部署包括两组GB200 NVL72机架,每组搭载72颗英伟达GPU,高密度GPU阵列产生巨量热能,微软采用液冷技术将热量从服务器周围迅速带走[1] 数据中心冷却技术路径与权衡 - 专家解释数据中心通常采用“双层冷却结构”:服务器内部用液冷,建筑本体需另一套系统将整体热量排到室外[2] - 微软被指“浪费”的冷却方式,可能是指其采用空气冷却作为建筑级散热,而非使用水冷[2] - 空气冷却虽然能源消耗更高,但不耗水,企业在能源消耗、水资源压力与舆论反应之间必须进行权衡[2] 英伟达Fairwater集群的性能与设计 - Fairwater是由数十万个NVIDIA GB200无缝连接的集群,连接它们的光纤足以绕地球4.5圈[3] - 该集群将提供比当今世界最快超级计算机高出10倍的性能,实现前所未有的AI训练和推理工作负载水平[3] - 为满足指数级AI训练算力需求,公司将数据中心、GPU集群和网络设计为一个集成系统,确保单个作业从第一天起就可以在数千个GPU上以指数级规模运行[4] 英伟达的可持续数据中心战略 - Fairwater采用液冷闭环系统来冷却GPU,该系统在建造完成后运行过程中无需用水[5] - 公司正在用可再生能源来匹配数据中心所有消耗的能源[5] - 公司正在开辟新道路,设计闭环能源系统以满足现实世界的计算需求,并与当地社区合作确保可持续性并创造就业机会[7][8] 英伟达全球AI基础设施布局 - Fairwater只是公司在70多个区域启用的类似站点之一[6] - 公司还在美国其他地区建造多个相同的Fairwater数据中心[6] - 公司的人工智能基础设施已部署在全球100多个数据中心,为模型训练、测试时计算、强化学习调优和全球范围内的实时推理提供支持[6][7]