文章核心观点 - 知名科技博主Dwarkesh Patel提出,当前AI行业过度依赖基于可验证奖励的强化学习路径,通过耗费巨资为模型“预制”特定技能,这恰恰证明当前大模型缺乏人类般的通用学习能力,距离真正的通用人工智能仍很遥远 [2][3][4] - 通往AGI的真正关键驱动力在于“持续学习”能力,即模型能够像人类一样从经验和反馈中自主学习,而非依赖预先排练好的脚本,这一能力的完善可能需要5到10年甚至更长时间 [4][9][29] 对当前AI发展路径的批判 - 技能预制的悖论:顶尖AI实验室正耗费数十亿美元,通过强化学习在模型中“预烘焙”或“预制”如操作Excel、浏览网页等特定技能,这种做法本身与AGI应具备的通用学习能力相矛盾,暴露了当前模型的根本缺陷 [3][5][11] - 机器人学问题的本质:机器人技术普及的障碍本质上是算法问题而非硬件问题,如果拥有类人的学习能力,机器人早应普及,而无需在特定环境下进行百万次重复训练 [6][13] - 经济扩散迟缓的根源:以“技术扩散需要时间”来解释AI未广泛部署是托词,根本原因在于模型缺乏产生广泛经济价值所必需的能力,如果模型真具备类人智能,其整合速度将远超人类员工 [7][19][20] AGI实现的关键瓶颈与未来展望 - 持续学习是关键瓶颈:AGI的真正瓶颈在于“持续学习”能力,而非单纯的强化学习算力堆叠,真正的类人智能可能需要未来10到20年才能实现 [9][18] - 能力与市场收入的落差:全球知识工作者每年创造数十万亿美元价值,而当前AI模型的收入与之相差数个数量级,这证明模型能力尚未达到替代人类知识工作者的临界点 [8][22] - 持续学习将渐进式发展:解决持续学习问题不会是一蹴而就的单一成就,而会是一个渐进过程,类似于“上下文学习”能力的逐步演进,预计人类水平的“在岗学习”能力可能需要5到10年才能解决 [4][27][29] 对行业竞争与研发趋势的观察 - 强化学习扩展的悲观前景:有分析指出,基于可验证奖励的强化学习可能需要在大约100万倍的总计算规模上进行扩展,才能获得类似于单一GPT级别的性能提升,这表明该路径的扩展效率可能很低 [25][26] - 行业竞争保持激烈:模型公司之间的竞争预计将保持相当激烈,此前所谓的飞轮效应在拉开竞争差距方面收效甚微,单个实验室难以获得失控的领先优势 [30]
大模型“缩放定律”悖论:RL(强化学习)越强,AGI(通用智能)越远?
硬AI·2025-12-24 08:10