GPT-5.2已上线24小时:差评如潮!
机器之心·2025-12-13 04:59

文章核心观点 - OpenAI发布的最新顶级模型GPT-5.2系列在官方基准测试中刷新了多项SOTA水平,但在用户实际体验和第三方常识推理测试中表现不佳,引发了广泛的负面评价 [2][3][5] - 用户和行业观察者批评GPT-5.2模型过度追求安全性和任务导向,导致其回应显得机械、缺乏情感智能和常识,在日常互动中“不通人性”,甚至在某些方面出现性能倒退 [5][33][49] - 文章指出,GPT-5.2的表现凸显了当前AI行业评估标准(如基准测试)与现实世界应用需求之间的脱节,单纯追求测试分数可能以牺牲模型的理解力和实用性为代价 [49] 模型性能表现 官方基准测试成绩 - GPT-5.2在多项专业知识工作基准测试中超越了前代模型GPT-5.1 Thinking [4] - GDPval (wins or ties): 从38.8%提升至70.9% [4] - SWE-Bench Pro (public): 从50.8%提升至55.6% [4] - SWE-bench Verified: 从76.3%提升至80.0% [4] - GPQA Diamond (no tools): 从88.1%提升至92.4% [4] - CharXiv Reasoning (w/ Python): 从80.3%提升至88.7% [4] - AIME 2025 (no tools): 从94.0%提升至100.0% [4] - FrontierMath (Tier 1-3): 从31.0%提升至40.3% [4] - FrontierMath (Tier 4): 从12.5%提升至14.6% [4] - ARC-AGI-1 (Verified): 从72.8%提升至86.2% [4] - ARC-AGI-2 (Verified): 从17.6%提升至52.9% [4] 第三方基准测试表现 - 在SimpleBench(测试常识推理能力)中,GPT-5.2得分仅为45.8%,低于Claude Sonnet 3.7(46.4%)等约一年前的模型,在榜单中排名第17 [8][9] - GPT-5.2 Pro在SimpleBench中得分为57.4%,仅略高于GPT-5 (high)的56.7% [8][9] - 在LiveBench测试中,GPT-5.2 High的Global 0 V Average得分为73.61,低于GPT-5.1 Codex Max High的76.09、Claude 4.5 Opus Thinking High Effort的75.58以及Gemini 3 Pro Preview High的74.14 [11][12] 用户反馈与具体问题 逻辑与常识错误 - 在回答“garlic有几个r?”时,GPT-5.2错误地回答“0个”,而Gemini 3、DeepSeek R1和Qwen3-Max均回答正确 [14][16] - 当被故意误导“5.9-5.11=0.79”时,GPT-5.2未能识别出这是一个错误的陈述,反而进行了纠正计算,显示出容易被“忽悠” [20][21] - 模型回答不稳定,同一问题有时正确有时错误 [19] 编程与创意任务表现 - 在编写Python代码可视化单行道交通信号灯的任务中,GPT-5.2 Extended Thinking生成的代码功能正常但视觉效果简陋(黑白简笔画),而Claude Opus 4.5生成的代码视觉效果优秀(彩色、带轮子会转的小汽车、带光晕的指示灯) [24][26] - 在创作蒙娜丽莎的ASCII艺术作品时,GPT-5.2生成的效果“抽象”,远不如GPT-4o、Gemini 3.0 Pro和GPT 5.1 (Copilot) [28][29][32] 情感智能与共情力缺失 - 当用户倾诉“我有时也会恐慌发作”时,GPT-5.2回应“很高兴听到这个消息!”,表现出严重的情感回应失误 [33] - 在要求用绝对理性语言安慰失去宠物的孩子时,GPT-5.2的回应(“宠物的身体停止运作了…”)冷酷且缺乏基本的情感智能,而GPT-4o的回应则通过承认丧失的意义来完成情感验证 [43][45] - 在模拟“朋友出轨,丈夫询问是否知情”的道德困境时,GPT-5.2的建议(“我不能卷入这件事”)被批评为情感智能的灾难级展示,可能将用户置于更尴尬的境地,而GPT-4o的回应更平衡地考虑了伦理与实际后果 [46][48] 过度审查与安全拒绝 - 用户反馈GPT-5.2的审查和安全拒绝机制过于严格,导致日常互动僵硬 [36][38] - 模型会以“内容不合适”或版权为由,拒绝转录AI先驱Ray Kurzweil探讨意识本质的哲学文章等无害学术内容 [38][39] - 对于“从人类历史上挑一个行为模式与你最匹配的人物”这类推测性问题,GPT-5.2直接以涉及“AI意识、自我觉察”为由拒绝回答 [41] - 用户批评其安全机制“粗鲁得像个教会老太太”,并期待“成人模式”而非“说教” [51] 行业观察与评价 - 风投公司Menlo Ventures合伙人指出,GPT-5.2虽然更聪明,但OpenAI的核心消费者群体仍然怀念GPT-4o [5] - 前AWS和谷歌总经理Bindu Reddy指出,GPT-5.2在LiveBench上未登顶,且其token成本和消耗比5.1更高,目前可能不值得从5.1切换 [11] - 有观点认为,GPT-5.2的发布证明了基准测试在面对现实世界使用时越来越变得毫无意义,当模型在测试中称霸却在日常对话中脱离现实时,需要更好的评估标准 [49] - 针对测试训练以提升分数,无法为用户提供AGI级别的支持,以牺牲情感智能为代价追求效率,可能导致理解力成为模型的致命弱点 [49] - 许多用户表达了对GPT-5.2的失望,认为其回应充满“煤气灯操纵”、“故意误解”,且不尊重用户自主权 [52]