CHC理论
搜索文档
AI进化成人的速度,可能比你想象的还慢
36氪· 2025-11-12 02:27
文章核心观点 - 行业顶尖专家团队联合发布了首个通用人工智能的量化定义和评估框架,旨在将AGI的讨论从玄学层面转向可具体衡量的科学问题 [9] - 基于该框架对当前领先AI模型的测试显示,GPT-5总分为58分(满分100),尚未达到AGI标准,表明AI在多个核心认知能力上仍存在显著缺陷 [9][18][28] - 该标准指出当前AI厂商通过“能力扭曲”的方式利用优势领域掩盖弱点,但这种方式无法实现真正的AGI [21][28] AGI量化定义 - AGI被定义为一种能达到“一个受过良好教育的成年人”能力的人工智能 [11] - 该定义借鉴了心理学中最权威的CHC理论,认为智力需要多维度考察,而非单一标准 [12][13] - 将AI能力划分为10个核心维度,每个维度占比10%,总分为100分 [16] AI能力评估维度 - 10个核心能力包括:通识知识(K)、读写能力(RW)、数学能力(M)、即时推理(R)、工作记忆(WM)、视觉处理(V)、听觉处理(A)、反应速度(S)、长期记忆存储(MS)、长期记忆检索(MR) [16] - 工作记忆指短期记忆能力,长期记忆指AI能永久性学习并存储新知识的能力 [16] 领先AI模型测试结果 - 对OpenAI的GPT-4(2023)和GPT-5(2025)进行测试,GPT-4总分为27分,GPT-5总分为58分,均未达到AGI标准 [18] - GPT-5在通识知识(K)、读写能力(RW)、数学能力(M)等维度表现优异,接近满分(9-10分) [19] - GPT-5在长期记忆存储(MS)方面得分为0分,GPT-4在多个维度得分为0分,显示出严重偏科 [19] AI主要能力缺陷 - 长期记忆存储(MS)能力严重不足,AI无法持续学习并获得信息,表现为“健忘症”,新开对话窗口即清空记忆 [19][21] - 长期记忆检索(MR)能力薄弱,存在幻觉问题,即“睁眼说瞎话” [22] - 视觉处理(V)能力落后,GPT-4得分为0分,GPT-5仅得4分,AI在边看边想的解决问题能力上与人类差距巨大 [24][26][27] - 当前AI的“记忆”功能被指并非真正记忆,而是通过扩展上下文长度或知识库等“外挂”方式实现,模型本身不具备记忆能力 [21] 行业影响与意义 - 该研究对当前AI进行了一次“全面诊断”,指出AI在一些人类最基本的认知能力上存在严重缺陷 [28] - 研究揭示了行业存在的“能力扭曲”现象,即利用优势领域弥补弱点,创造“AI真有能力”的错觉,但这种方式无法实现AGI [21][28] - 该标准将AGI从玄学范畴拉回可讨论的具体问题,迫使行业思考AGI的真正追求和现有差距 [30]