文章核心观点 - 文章围绕“AGI能否实现”这一核心议题,呈现了两种对立的观点:一种基于物理和成本限制认为AGI和超级智能无法实现,另一种则认为当前AI系统在软硬件效率上仍有巨大提升空间,通往更强AI的道路依然存在 [1][3][27][31] 关于AGI实现的物理与成本限制 - 计算是物理的,AI架构(如Transformer)是对信息处理单元的物理优化,结合了局部计算与全局信息汇聚,已接近物理最优 [8][9] - 硬件改进面临根本瓶颈:GPU在“性能/成本”指标上约在2018年达到峰值,后续改进多为一次性特性(如16位精度、Tensor Core、HBM等),任何进一步改进都将是权衡而非纯收益 [13][14] - 线性性能改进需要指数级资源投入,这受限于物理现实和观念空间的边际收益递减,规模化带来的收益正在迅速逼近物理极限 [11][16][17] - 超级智能的概念存在根本谬误,其将智能视为抽象物,但任何系统改进都受物理规律和缩放定律制约,无法引发失控式增长 [24][25] 当前AI系统的效率现状与提升空间 - 训练效率低下:当前最先进模型(如DeepSeek-V3、Llama-4)的训练平均FLOP利用率(MFU)仅约20%,远低于2022年开源项目(如BLOOM)达到的50% MFU [35] - 推理效率更严重:最优化推理实现的FLOP利用率常为个位数(<5%),瓶颈在于内存带宽而非计算 [37][38][39] - 硬件利用率存在巨大提升潜力:通过训练高效的架构协同设计、实现高质量FP4训练、设计推理高效的模型,理论上可用FLOPs可提升最多9倍 [36][40][41][42] - 模型能力是硬件建设的滞后指标:当前发布的模型反映的是上一代硬件能力,而正在建设的新集群规模(如10万卡以上)意味着高达50倍的算力建设正在发生 [43][44][45] 行业竞争格局与基础设施价值 - 中美AI发展路径差异:美国遵循“赢家通吃”、追求最大最强模型的思路;中国更注重模型的应用性、实用性和成本效益,认为“足够好”能带来最大生产力提升 [20][21] - 规模化基础设施优势可能迅速蒸发:如果软件创新(如超越vLLM/SGLang的推理栈)使小模型部署效率接近前沿实验室,或AI应用转向垂直专用,当前头部公司的基础设施优势可能一夜消失 [18] - 中小型公司的挑战:像MoonshotAI、Z.ai这样的公司已证明无需大量资源即可达到前沿性能,若在“超越规模化”方向持续创新,可能做出最好的模型 [17] 未来发展方向与投资机会 - 硬件层面的优化方向:充分利用新一代硬件特性(如Blackwell架构的FP4训练、GB200的机架级通信域)是清晰的突破点,存在大量“低垂果实” [36][46][47][50] - 软件与算法创新:新的后训练范式、提升样本效率的数据中心AI、以及结合领域经验的垂直应用,能让现有模型在更广泛领域变得极其有用 [52][53][54] - 新硬件平台:大量专注于推理场景的新硬件平台及配套软件栈正在涌现,任何一个产生重大影响都可能彻底改写行业局面 [50] - 通往更强AI的具体路径:通过模型-硬件协同设计、利用滞后释放的硬件算力、以及算法改进,存在通向至少一个数量级(10倍)算力提升的具体路径 [55][56][57][58]
遥遥无期的AGI是画大饼吗?两位教授「吵起来了」
36氪·2025-12-22 02:08