文章核心观点 - AI算力需求激增导致芯片过热,成为制约行业发展的关键瓶颈 [1][10] - 微软推出微流体冷却技术,将冷却液直接送入芯片内部,散热效率最高比冷板强三倍,GPU内部温升下降65% [4][5] - 该技术旨在提升AI基础设施的效率与可持续性,是微软抢占未来算力格局战略的重要组成部分 [1][35][39] AI散热挑战与行业背景 - AI芯片功耗从几百瓦推高至上千瓦,传统风冷和冷板散热技术已接近极限 [1][5][10] - 数据中心电力需求急剧增长,国际能源署预测全球需求将从2024年的约460TWh增长至2030年超过1000TWh,六年左右翻倍 [12][14] - 2023年美国数据中心用电量约为176TWh,占美国总电力消耗的4.4% [15] - 冷板散热存在热阻与传导损耗,为维持性能需预留设计余量或限制输出,制冷系统自身能耗占数据中心总能耗显著比例 [15][16] 微软微流体冷却技术细节 - 技术核心是在硅片背面蚀刻出比头发丝还细的微通道,让冷却液像血管一样流经芯片内部,从源头带走热量 [5] - 研发过程历时一年四轮迭代,并与瑞士初创公司Corintis合作解决蚀刻、封装、防漏液等工程难题 [7] - 借助AI设计仿生结构微通道,像叶脉一样分支,效率远超直线通道 [7] - 即使冷却液温度高达70℃,该技术依然能保持高效工作,无需将冷却液降至极低温 [25] 技术影响与效益 - 提升硬件可靠性:在同等硬件上可承受更大负载,避免因过热降频或宕机,允许在需求高峰时安全“超频” [7][9][28] - 降低成本:散热效率提升意味着可用更低成本维持性能,潜在降低最终产品定价 [20][21] - 改善用户体验:以微软Teams测试为例,可应对整点/半点会议量暴增,减少卡顿和延迟 [9][28] - 促进可持续性:高效冷却减少制冷系统能耗,从而降低总能耗和碳排放 [21][25] 微软的AI基础设施战略 - 大规模资本投入:2025财年第四季度资本支出达242亿美元,大部分投向云和AI基础设施;媒体报道下一季度计划投入超过300亿美元 [29] - 自研芯片体系:推出Cobalt 100(通用计算)和Maia(AI加速)芯片,减轻对外部供应商依赖并实现软硬件深度耦合 [31] - 全栈技术布局:包括探索空心光纤技术以降低光信号传输损耗(约0.091 dB/km),以及关注高带宽内存等关键瓶颈 [33][35] - 战略定位:通过解决散热瓶颈、自研芯片和革新网络,构建支撑下一代AI的完整生态,旨在主宰未来算力格局 [35][37][41] 行业竞争格局 - 科技巨头积极投入AI基础设施军备竞赛:谷歌采用液浸式冷却守护TPU,亚马逊靠Graviton和Trainium芯片竞争,Meta大规模堆砌GPU [36] - 行业共识在于提升效率,率先突破热瓶颈的企业将在下一算力周期占据主动 [18][37][41]
一年4次迭代,狂堆GPU成真,微软AI冷液灌芯,散热暴涨3倍