AI瓶颈期
搜索文档
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
量子位· 2025-12-31 03:37
文章核心观点 - 当前人工智能行业面临的核心瓶颈并非算力增长停滞,而是现有技术范式(以Transformer架构为核心)对持续增长的算力的吸收和转化效率正在下降,即“算力增长与智能增长之间的映射关系开始松动”[2][22] - 智能的本质可被工程化地定义为“对未来状态进行预测,并为预测结果承担实际后果的能力”,这解释了Next-Token Prediction的成功,也揭示了当前许多模型在真实世界应用中的短板[8][10] - 未来智能增长的关键在于寻找“扩展性更强的架构或Loss函数”,以在极端算力投入下(如300亿美元预算)稳定地将新增算力转化为可兑现的能力增量,而非仅仅追求效率优化(如更高的吞吐量)[23][26] 智能的本质与评估 - 智能的核心能力被定义为对未来状态的预测及承担后果的能力,这为评估智能提供了一个工程化、可验证的标准[8] - 这一视角解释了Next-Token Prediction能成为“智能发动机”的原因,也揭示了在封闭评测中表现优异的系统在真实不确定环境中暴露短板的问题[10] - 将智能凝聚为“预测”是为了划定一个工程上可对齐算力投入的核心能力维度,但规划、因果建模等能力是否能完全还原为预测仍是开放议题[10] 当前技术范式的成功与局限 - 过去十年大模型的智能跃迁依赖于三件事同时发生:GPU提供指数级增长的并行算力、Transformer架构能充分“吃下”这些算力、Next-Token Prediction提供了无限且统一的学习信号[15] - Transformer的成功不仅是算法胜利,更是模型架构与硬件体系(英伟达GPU)高度匹配的系统性结果,它是一台“伪装成神经网络的并行计算机”[6][16] - 该范式的有效性部分受益于语言任务本身高度符号化、序列化,且评测体系与训练目标高度一致的特性[17] - 在此范式下,从GPT-1到ChatGPT,算力增长、模型规模扩大与能力提升之间形成了相对稳定的正反馈链路[18][19] 智能增长的瓶颈所在 - 判断智能瓶颈的具体标准是:当一次训练的FLOPS从10^n变成10^{n+3}(即增长1000倍)时,是否还能稳定获得显著更强的模型[20] - 瓶颈的本质是“算力增长与智能增长之间的映射关系开始松动”,即现有范式对新增算力的吸收效率下降,而非算力红利消失[2][22] - FLOPS被视为最底层、最难被包装的算力尺度,比Token数、参数量等指标更能反映本质[21] - 真正的难点在于缺乏一种“扩展性更强的架构或Loss函数”,能把新增算力稳定地转化为能力增量[23] 对行业主流讨论的批判性视角 - 预训练、监督微调(SFT)、强化学习(RL)三者本质都是在计算梯度、更新参数,可被统一视为不同的“算力使用策略”[11][12] - 当前模型的主要智能来源是预训练阶段,根本原因是其消耗了最多的能源与计算[15] - 行业应关注“在算力持续投入的前提下,是否还能稳定地换取能力增长”这一更朴素的问题,而非陷入方法论之争[15] - Mamba等新架构提升了吞吐量,但解决的是“同等智能更便宜”,不自动等价于“同等成本更聪明”[6][23] 未来发展的潜在方向 - 未来AI基础设施的核心目标应是提升“并行计算体系在软硬件层面的整体扩展性”,而不仅仅是单点芯片性能,需维持或提升计算开销与通信开销的比值[24][25] - 探索方向包括:回归高精度计算(如FP32/FP64)、抛弃Adam优化器、采用更高阶优化器、探索更可扩展的架构或Loss函数、进行更多epoch与更深度的超参数探索[6][25] - 预训练所能承载的智能增长空间可能还远未走到尽头,关键在于找到在极端算力条件下持续变强的能力[26] - 只要还能找到更高效组织计算的方式,智能的上限就远未到来[27]