GPT-5被吐槽没进步?Epoch年终报告打脸:AI在飞速狂飙,ASI更近了
36氪·2025-12-24 11:17

文章核心观点 - Epoch AI的年终盘点显示,人工智能行业的发展并未停滞,反而在多个关键领域加速进化,特别是在推理能力提升、成本下降和硬件普及方面 [1][7][12] - 当前顶尖AI模型在解决专家级数学难题等复杂任务上仍存在显著局限,但行业整体能力,尤其是推理能力,自2024年4月以来增长速度加快近一倍 [6][10] - AI价值的实现路径可能存在分歧:一种观点认为自动化科研是关键,另一种更主流的观点则认为AI将通过广泛自动化日常经济工作来创造大部分价值 [49][52] AI模型能力与性能评估 - 在由60多名顶尖数学专家出题的FrontierMath基准测试中,所有AI模型表现均不佳,中文开源模型(除DeepSeek-V3.2外)得分为零,全球顶尖模型正确率也不高 [1][5][6] - 唯一在FrontierMath上得分的中文模型是DeepSeek-V3.2 (Thinking),其答对一题,得分约为2% (1/48) [4] - 尽管在传统数学测试上表现优异,但GPT、Gemini等顶尖模型在FrontierMath上的表现仅略优于中文开源模型 [5][6] - 自2024年4月以来,前沿AI模型的能力增长速度明显加快,比之前快近一倍,这主要得益于更强的推理模型和对强化学习的重视 [10] - GPT-4和GPT-5都在基准测试中实现了重大性能飞跃,超越了前代产品 [32] 技术发展与成本趋势 - AI推理成本正在快速下降,在2023年4月至2025年3月期间,同等性能下每token价格下降了10倍以上 [19] - 消费级硬件已能运行顶级开源模型,其性能与顶尖AI的差距不到一年,预示着前沿AI能力将更快普及 [22] - 架构创新显著降低了开发成本,例如DeepSeek v3通过多头潜在注意力、改进的混合专家架构和多token预测三项技术,以更低算力成为当时最强开源模型 [39] - DeepSeek R1的性能与OpenAI o1相当,但开发成本仅为几分之一 [41] - 推理训练虽重要但增长有上限,OpenAI和Anthropic预计其当前的强化学习扩展速度最多只能维持1-2年 [45] 行业资源分配与基础设施 - 2024年OpenAI的大部分计算资源用于实验而非推理或训练,其研发算力支出约50亿美元,而推理算力支出约20亿美元 [25][27] - 当前AI研发成本主要来自实验,而非训练和部署 [28] - 自2020年以来,英伟达芯片的已部署AI计算量每年增长超过一倍,其旗舰芯片在三年内会占据现有计算量的大部分 [29] - 若AI被视为国家战略项目,其规模可能足以支撑一次比GPT-4训练规模大1万倍的任务 [46] 能源消耗与公众认知 - 大型AI模型单次推理能耗极低,例如GPT-4o单次推理耗电量比点亮一个灯泡五分钟还要少,与Gemini的单次提示能量成本相似 [35] - 尽管当前单次能耗低,但AI的总能源消耗正在指数级增长,未来可能成为问题 [38] AI的价值创造路径 - 一种观点(如Sam Altman等人所持)认为AI自动化研发是通向爆发式增长的关键 [52] - Epoch AI提出另一种更可能的情景:AI创造的大部分价值将来自对经济体系中大量日常工作的广泛自动化,而非加速科研 [49] - 历史数据显示,在1988-2020年间,研发活动对整体生产率的贡献有限 [49] - AI更可能通过缓慢、分散的过程渗透各行业,替代重复劳动,其影响将是长期的而非突变的 [52]