GPT-5.2模型发布与官方基准测试表现 - OpenAI在十周年之际发布顶级模型GPT-5.2系列,官方称其为“迄今为止在专业知识工作上最强大的模型系列”,并在众多基准测试中刷新了SOTA水平 [6] - 在官方基准测试中,GPT-5.2在多项专业知识任务上相比前代GPT-5.1有显著提升:GDPval(wins or ties)从38.8%提升至70.9%,SWE-Bench Pro (public)从50.8%提升至55.6%,GPQA Diamond (no tools)从88.1%提升至92.4%,AIME 2025 (no tools)从94.0%提升至100.0% [7] - 在高级数学和抽象推理任务上,GPT-5.2也有进步:FrontierMath (Tier 1-3)从31.0%提升至40.3%,ARC-AGI-1 (Verified)从72.8%提升至86.2%,ARC-AGI-2 (Verified)从17.6%提升至52.9% [7] 用户与市场对GPT-5.2的负面反馈 - 尽管官方基准测试成绩优异,但发布后GPT-5.2在用户社区(如X和Reddit)中口碑反转,收到大量恶评,用户认为其平淡、安全过度、“把成年人当幼儿园小孩对待”,甚至感觉像是倒退 [6][8] - 风险投资公司Menlo Ventures的合伙人指出,虽然GPT-5.2更聪明,但OpenAI的核心消费者群体仍然怀念GPT-4o,并认为公司面临困境:想打造更好的模型赢得企业市场,但更广泛的用户群体并不太在意模型的智能水平 [8] - 用户反馈GPT-5.2的“情商堪忧、不通人性”,例如在用户倾诉“我有时也会恐慌发作”时,模型回应“很高兴听到这个消息!”,显示出严重的情感智能缺陷 [39] GPT-5.2在第三方基准测试中的表现 - 在SimpleBench(一个测试AI“常识推理”能力的基准,包含200多道多选题,人类基准为83.7%)上,GPT-5.2得分仅为45.8%,低于Claude Sonnet 3.7(46.4%),甚至低于约一年前的模型;GPT-5.2 Pro得分57.4%,仅勉强超过GPT-5(56.7%)[12][13] - 在LiveBench测试中,GPT-5.2 High的Global V Average得分为73.61,低于GPT-5.1 Codex Max High的76.09,也低于Claude 4.5 Opus Thinking High Effort的75.58和Gemini 3 Pro Preview High的74.14 [15][16] - 有行业人士(前AWS和谷歌总经理)指出,GPT-5.2在token成本和消耗的token数量上比5.1贵得多,目前可能不值得从5.1切换 [15] GPT-5.2在具体任务能力上的问题 - 在基础语言理解上出现错误,例如回答“garlic有几个r?”时错误回答“0个”,而同期测试的Gemini 3、DeepSeek R1和Qwen3-Max均回答正确 [18][19] - 在数学逻辑上容易被误导,例如当被故意错误引导“5.9-5.11=0.79”时,GPT-5.2未能识别问题本身的错误,而是直接纠正计算过程 [25] - 在编程与创意任务上表现不佳:在编写Python代码可视化交通信号灯的任务中,GPT-5.2 Extended Thinking生成的代码功能正常但画面简陋(黑白火柴人级别),审美远不如Claude Opus 4.5生成的效果 [29][32];在创作蒙娜丽莎ASCII艺术时,GPT-5.2的作品被评价为“抽象”,效果不如GPT-4o、Gemini 3.0 Pro和GPT-5.1 [35][37] GPT-5.2的安全与审查机制引发的争议 - 用户反馈GPT-5.2的审查和安全拒绝机制过于严格和僵硬,导致日常互动脱离人性,甚至有害 [42] - 模型会过度触发安全护栏,例如拒绝转录一篇关于意识本质的哲学文章(AI先驱Ray Kurzweil的经典论文),理由可能是“内容不合适”或版权借口 [42][44] - 在涉及人格推测或敏感人际关系的问题上,模型会直接拒绝回答或给出脱离现实、灾难性的建议,例如在朋友出轨被丈夫询问的场景中,建议用户回应“我不能卷入这件事”,被批评为完全缺乏情感智能和对现实人际复杂性的理解 [46][52] 对AI行业模型评估与发展的反思 - 有观点认为,GPT-5.2的发布证明了基准测试在面对现实世界使用时越来越变得毫无意义,当一个模型能在测试中称霸却在日常对话中给出脱离现实的建议时,行业需要更好的评估标准 [56] - 针对测试训练来提升分数无法为用户提供AGI级别的支持和帮助,当公司盲目将模型训练成“任务导向机器”以追求效率,甚至以牺牲情感智能为代价时,理解力将成为模型的致命弱点,破坏其在所有领域的表现 [56] - 智能若无理解不过是更快的计算器,脱离人性的“进步”也只是对技术本身的空洞颂扬 [56]
GPT-5.2已上线:差评如潮
创业邦·2025-12-15 00:07