GPT-5.2已上线：差评如潮

GPT-5.2模型发布与官方基准测试表现 - OpenAI在十周年之际发布顶级模型GPT-5.2系列，官方称其为“迄今为止在专业知识工作上最强大的模型系列”，并在众多基准测试中刷新了SOTA水平 [6] - 在官方基准测试中，GPT-5.2在多项专业知识任务上相比前代GPT-5.1有显著提升：GDPval（wins or ties）从38.8%提升至70.9%，SWE-Bench Pro (public)从50.8%提升至55.6%，GPQA Diamond (no tools)从88.1%提升至92.4%，AIME 2025 (no tools)从94.0%提升至100.0% [7] - 在高级数学和抽象推理任务上，GPT-5.2也有进步：FrontierMath (Tier 1-3)从31.0%提升至40.3%，ARC-AGI-1 (Verified)从72.8%提升至86.2%，ARC-AGI-2 (Verified)从17.6%提升至52.9% [7] 用户与市场对GPT-5.2的负面反馈 - 尽管官方基准测试成绩优异，但发布后GPT-5.2在用户社区（如X和Reddit）中口碑反转，收到大量恶评，用户认为其平淡、安全过度、“把成年人当幼儿园小孩对待”，甚至感觉像是倒退 [6][8] - 风险投资公司Menlo Ventures的合伙人指出，虽然GPT-5.2更聪明，但OpenAI的核心消费者群体仍然怀念GPT-4o，并认为公司面临困境：想打造更好的模型赢得企业市场，但更广泛的用户群体并不太在意模型的智能水平 [8] - 用户反馈GPT-5.2的“情商堪忧、不通人性”，例如在用户倾诉“我有时也会恐慌发作”时，模型回应“很高兴听到这个消息！”，显示出严重的情感智能缺陷 [39] GPT-5.2在第三方基准测试中的表现 - 在SimpleBench（一个测试AI“常识推理”能力的基准，包含200多道多选题，人类基准为83.7%）上，GPT-5.2得分仅为45.8%，低于Claude Sonnet 3.7（46.4%），甚至低于约一年前的模型；GPT-5.2 Pro得分57.4%，仅勉强超过GPT-5（56.7%）[12][13] - 在LiveBench测试中，GPT-5.2 High的Global V Average得分为73.61，低于GPT-5.1 Codex Max High的76.09，也低于Claude 4.5 Opus Thinking High Effort的75.58和Gemini 3 Pro Preview High的74.14 [15][16] - 有行业人士（前AWS和谷歌总经理）指出，GPT-5.2在token成本和消耗的token数量上比5.1贵得多，目前可能不值得从5.1切换 [15] GPT-5.2在具体任务能力上的问题 - 在基础语言理解上出现错误，例如回答“garlic有几个r？”时错误回答“0个”，而同期测试的Gemini 3、DeepSeek R1和Qwen3-Max均回答正确 [18][19] - 在数学逻辑上容易被误导，例如当被故意错误引导“5.9-5.11=0.79”时，GPT-5.2未能识别问题本身的错误，而是直接纠正计算过程 [25] - 在编程与创意任务上表现不佳：在编写Python代码可视化交通信号灯的任务中，GPT-5.2 Extended Thinking生成的代码功能正常但画面简陋（黑白火柴人级别），审美远不如Claude Opus 4.5生成的效果 [29][32]；在创作蒙娜丽莎ASCII艺术时，GPT-5.2的作品被评价为“抽象”，效果不如GPT-4o、Gemini 3.0 Pro和GPT-5.1 [35][37] GPT-5.2的安全与审查机制引发的争议 - 用户反馈GPT-5.2的审查和安全拒绝机制过于严格和僵硬，导致日常互动脱离人性，甚至有害 [42] - 模型会过度触发安全护栏，例如拒绝转录一篇关于意识本质的哲学文章（AI先驱Ray Kurzweil的经典论文），理由可能是“内容不合适”或版权借口 [42][44] - 在涉及人格推测或敏感人际关系的问题上，模型会直接拒绝回答或给出脱离现实、灾难性的建议，例如在朋友出轨被丈夫询问的场景中，建议用户回应“我不能卷入这件事”，被批评为完全缺乏情感智能和对现实人际复杂性的理解 [46][52] 对AI行业模型评估与发展的反思 - 有观点认为，GPT-5.2的发布证明了基准测试在面对现实世界使用时越来越变得毫无意义，当一个模型能在测试中称霸却在日常对话中给出脱离现实的建议时，行业需要更好的评估标准 [56] - 针对测试训练来提升分数无法为用户提供AGI级别的支持和帮助，当公司盲目将模型训练成“任务导向机器”以追求效率，甚至以牺牲情感智能为代价时，理解力将成为模型的致命弱点，破坏其在所有领域的表现 [56] - 智能若无理解不过是更快的计算器，脱离人性的“进步”也只是对技术本身的空洞颂扬 [56]