谷歌技术报告披露大模型能耗：响应一次相当于微波炉叮一秒

核心观点 - 谷歌通过硬核数据反驳大模型高能耗舆论，强调Gemini单次查询能耗极低，仅0.24wh，碳排放0.03g CO₂e，耗水量约5滴，显著低于公众预期 [2][3][4] - 谷歌通过全栈优化（硬件、模型架构、服务系统）实现能效提升，一年内Gemini能耗降至1/33，碳排放降至1/44 [5][6][20] - 公司提出全面能源计算框架，涵盖实际芯片利用率、空闲资源、基础设施等要素，纠正理论计算偏差 [8][13][19] 能耗计算框架 - 现有理论计算方法仅考虑芯片运行能耗（如TPU/GPU耗电0.10wh），忽略实际部署中的关键因素 [8][9][10] - 谷歌提出综合计算指标，包括： - 实际芯片利用率（生产系统利用率低于理论最大值） [9][14] - 空闲计算机（为高可用性预留的容量消耗能源） [15] - 主机CPU和内存功耗（服务必需组件） [16] - 数据中心基础设施开销（冷却、配电等，PUE指标衡量） [17] - 用水量（冷却系统耗水，随能效提升减少） [18] - 综合计算后单次查询能耗为0.24wh（中位数） [19] 能效优化策略 - 模型架构：Transformer框架效率比传统语言模型高10-100倍，采用MoE、混合推理减少计算量 [22] - 训练优化：通过精准量化训练（AQT）降低能耗且保持质量 [23] - 推理服务：推测解码技术（小模型预测+大模型验证）、蒸馏技术（大模型生成轻量服务模型）提升响应效率 [25][26] - 定制硬件：自研TPU芯片（如Ironwood能效比首代高30倍），软硬件协同设计最大化每瓦性能 [27][28] - 资源调度：动态分配TPU资源减少空闲时间，高级编译系统（XML、Pallas、Pathways）提升运行效率 [31][32] - 数据中心：平均PUE达1.09（业界领先），增加清洁能源使用，优化冷却系统与水资源管理 [33] 环境指标对比 - Gemini单次查询全面能耗数据： - 能耗0.24wh（相当于微波炉运行1秒） [3] - 碳排放0.03g CO₂e（低于人类一次排放） [3] - 耗水量约5滴（若仅算TPU/GPU则为0.12ml） [3][9] - 能效提升成果：一年内能耗降为原1/33，碳排放降为1/44 [6]