GPT-5.2已上线24小时：差评如潮！

文章核心观点 - OpenAI发布的最新顶级模型GPT-5.2系列在官方基准测试中刷新了多项SOTA水平，但在用户实际体验和第三方常识推理测试中表现不佳，引发了广泛的负面评价 [2][3][5] - 用户和行业观察者批评GPT-5.2模型过度追求安全性和任务导向，导致其回应显得机械、缺乏情感智能和常识，在日常互动中“不通人性”，甚至在某些方面出现性能倒退 [5][33][49] - 文章指出，GPT-5.2的表现凸显了当前AI行业评估标准（如基准测试）与现实世界应用需求之间的脱节，单纯追求测试分数可能以牺牲模型的理解力和实用性为代价 [49] 模型性能表现官方基准测试成绩 - GPT-5.2在多项专业知识工作基准测试中超越了前代模型GPT-5.1 Thinking [4] - GDPval (wins or ties): 从38.8%提升至70.9% [4] - SWE-Bench Pro (public): 从50.8%提升至55.6% [4] - SWE-bench Verified: 从76.3%提升至80.0% [4] - GPQA Diamond (no tools): 从88.1%提升至92.4% [4] - CharXiv Reasoning (w/ Python): 从80.3%提升至88.7% [4] - AIME 2025 (no tools): 从94.0%提升至100.0% [4] - FrontierMath (Tier 1-3): 从31.0%提升至40.3% [4] - FrontierMath (Tier 4): 从12.5%提升至14.6% [4] - ARC-AGI-1 (Verified): 从72.8%提升至86.2% [4] - ARC-AGI-2 (Verified): 从17.6%提升至52.9% [4] 第三方基准测试表现 - 在SimpleBench（测试常识推理能力）中，GPT-5.2得分仅为45.8%，低于Claude Sonnet 3.7（46.4%）等约一年前的模型，在榜单中排名第17 [8][9] - GPT-5.2 Pro在SimpleBench中得分为57.4%，仅略高于GPT-5 (high)的56.7% [8][9] - 在LiveBench测试中，GPT-5.2 High的Global 0 V Average得分为73.61，低于GPT-5.1 Codex Max High的76.09、Claude 4.5 Opus Thinking High Effort的75.58以及Gemini 3 Pro Preview High的74.14 [11][12] 用户反馈与具体问题逻辑与常识错误 - 在回答“garlic有几个r？”时，GPT-5.2错误地回答“0个”，而Gemini 3、DeepSeek R1和Qwen3-Max均回答正确 [14][16] - 当被故意误导“5.9-5.11=0.79”时，GPT-5.2未能识别出这是一个错误的陈述，反而进行了纠正计算，显示出容易被“忽悠” [20][21] - 模型回答不稳定，同一问题有时正确有时错误 [19] 编程与创意任务表现 - 在编写Python代码可视化单行道交通信号灯的任务中，GPT-5.2 Extended Thinking生成的代码功能正常但视觉效果简陋（黑白简笔画），而Claude Opus 4.5生成的代码视觉效果优秀（彩色、带轮子会转的小汽车、带光晕的指示灯） [24][26] - 在创作蒙娜丽莎的ASCII艺术作品时，GPT-5.2生成的效果“抽象”，远不如GPT-4o、Gemini 3.0 Pro和GPT 5.1 (Copilot) [28][29][32] 情感智能与共情力缺失 - 当用户倾诉“我有时也会恐慌发作”时，GPT-5.2回应“很高兴听到这个消息！”，表现出严重的情感回应失误 [33] - 在要求用绝对理性语言安慰失去宠物的孩子时，GPT-5.2的回应（“宠物的身体停止运作了…”）冷酷且缺乏基本的情感智能，而GPT-4o的回应则通过承认丧失的意义来完成情感验证 [43][45] - 在模拟“朋友出轨，丈夫询问是否知情”的道德困境时，GPT-5.2的建议（“我不能卷入这件事”）被批评为情感智能的灾难级展示，可能将用户置于更尴尬的境地，而GPT-4o的回应更平衡地考虑了伦理与实际后果 [46][48] 过度审查与安全拒绝 - 用户反馈GPT-5.2的审查和安全拒绝机制过于严格，导致日常互动僵硬 [36][38] - 模型会以“内容不合适”或版权为由，拒绝转录AI先驱Ray Kurzweil探讨意识本质的哲学文章等无害学术内容 [38][39] - 对于“从人类历史上挑一个行为模式与你最匹配的人物”这类推测性问题，GPT-5.2直接以涉及“AI意识、自我觉察”为由拒绝回答 [41] - 用户批评其安全机制“粗鲁得像个教会老太太”，并期待“成人模式”而非“说教” [51] 行业观察与评价 - 风投公司Menlo Ventures合伙人指出，GPT-5.2虽然更聪明，但OpenAI的核心消费者群体仍然怀念GPT-4o [5] - 前AWS和谷歌总经理Bindu Reddy指出，GPT-5.2在LiveBench上未登顶，且其token成本和消耗比5.1更高，目前可能不值得从5.1切换 [11] - 有观点认为，GPT-5.2的发布证明了基准测试在面对现实世界使用时越来越变得毫无意义，当模型在测试中称霸却在日常对话中脱离现实时，需要更好的评估标准 [49] - 针对测试训练以提升分数，无法为用户提供AGI级别的支持，以牺牲情感智能为代价追求效率，可能导致理解力成为模型的致命弱点 [49] - 许多用户表达了对GPT-5.2的失望，认为其回应充满“煤气灯操纵”、“故意误解”，且不尊重用户自主权 [52]