Workflow
谷歌技术报告披露大模型能耗:响应一次相当于微波炉叮一秒
量子位·2025-08-22 05:51

核心观点 - 谷歌通过硬核数据反驳大模型高能耗舆论,强调Gemini单次查询能耗极低,仅0.24wh,碳排放0.03g CO₂e,耗水量约5滴,显著低于公众预期 [2][3][4] - 谷歌通过全栈优化(硬件、模型架构、服务系统)实现能效提升,一年内Gemini能耗降至1/33,碳排放降至1/44 [5][6][20] - 公司提出全面能源计算框架,涵盖实际芯片利用率、空闲资源、基础设施等要素,纠正理论计算偏差 [8][13][19] 能耗计算框架 - 现有理论计算方法仅考虑芯片运行能耗(如TPU/GPU耗电0.10wh),忽略实际部署中的关键因素 [8][9][10] - 谷歌提出综合计算指标,包括: - 实际芯片利用率(生产系统利用率低于理论最大值) [9][14] - 空闲计算机(为高可用性预留的容量消耗能源) [15] - 主机CPU和内存功耗(服务必需组件) [16] - 数据中心基础设施开销(冷却、配电等,PUE指标衡量) [17] - 用水量(冷却系统耗水,随能效提升减少) [18] - 综合计算后单次查询能耗为0.24wh(中位数) [19] 能效优化策略 - 模型架构:Transformer框架效率比传统语言模型高10-100倍,采用MoE、混合推理减少计算量 [22] - 训练优化:通过精准量化训练(AQT)降低能耗且保持质量 [23] - 推理服务:推测解码技术(小模型预测+大模型验证)、蒸馏技术(大模型生成轻量服务模型)提升响应效率 [25][26] - 定制硬件:自研TPU芯片(如Ironwood能效比首代高30倍),软硬件协同设计最大化每瓦性能 [27][28] - 资源调度:动态分配TPU资源减少空闲时间,高级编译系统(XML、Pallas、Pathways)提升运行效率 [31][32] - 数据中心:平均PUE达1.09(业界领先),增加清洁能源使用,优化冷却系统与水资源管理 [33] 环境指标对比 - Gemini单次查询全面能耗数据: - 能耗0.24wh(相当于微波炉运行1秒) [3] - 碳排放0.03g CO₂e(低于人类一次排放) [3] - 耗水量约5滴(若仅算TPU/GPU则为0.12ml) [3][9] - 能效提升成果:一年内能耗降为原1/33,碳排放降为1/44 [6]