Workflow
基准测试
icon
搜索文档
GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭
36氪· 2025-09-22 11:27
编程大考,全球顶尖LLM夺金,真无敌了?最难编码基准SWE-Bench Pro出世,汇集了平均超100行代码的难题。没想到,最能打的LLM纷纷溃败, GPT-5仅拿下23.3%高分。 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发 继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。 ICPC,被公认为全球最具挑战的大学生编程竞赛之一。 OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗? 最新一项基准测试,直接打脸了全世界的顶尖模型。 任务难度全面提升 抗数据污染能力更强 无限逼近真实代码库 相较于前代SWE-Bench,Pro版本升级带来了三大突破: 它就是SWE-Bench Pro,专为评估AI编程智能体而生的新一代基准测试,直面真实企业级工程任务。 这一版,堪称编码中的「最后人类考试」。在实际测试(公开集)中,顶尖模型几乎溃败。 GPT-5虽拿下了第一,但成绩仅有23.3%,Claude Opus 4.1以22.7%得分位居第二。 其他模型更是没有一个能打的,得分全部低于15%。 这意味着,在更贴近真实世 ...