GDPval评测集
搜索文档
GPT-5.2发布,真正的牛马打工人专属AI来了。
数字生命卡兹克· 2025-12-11 22:00
模型发布与定位 - OpenAI在成立十周年之际正式发布了GPT-5.2模型系列,旨在应对来自Google Gemini 3 Pro的竞争压力并重新确立领先地位[1][3][4][5] - 该模型被定位为迄今为止在“专业知识工作”方面能力最强的模型系列,标志着其战略重心向解决实际专业任务倾斜[7] - 模型将首先向ChatGPT付费会员开放,随后向免费会员开放,并直接替代GPT-5.1,同时开发者已可通过API调用[82][88] 基准测试表现 - 在传统评测集上,GPT-5.2全面领先于GPT-5.1、Claude Opus 4.5和Gemini 3 Pro,例如在软件工程(SWE-Bench Pro)上得分为55.6%,科学问题(GPQA Diamond)上为92.4%,数学竞赛(AIME 2025)上达到100%[9][10][11] - 在衡量“流体智力”的抽象推理测试ARC-AGI-2上,GPT-5.2得分从GPT-5.1的17.6%大幅跃升至52.9%,实现了约三倍的提升,并在该榜单上达到目前最优水平[39][40][46] - 在衡量真实经济价值任务表现的GDPval评测中,GPT-5.2 Thinking模型赢或打平行业专家的比例达到70.9%,相比GPT-5的38.8%有显著进步[63][65] 核心能力与特性 - 模型在多模态理解与处理复杂文件(如PDF、Excel、图片、PPT)方面能力突出,能够处理高度复杂、无标准答案的真实专业知识任务[59] - 在上下文处理能力上表现卓越,在256K文档的“大海捞针”测试中达到了100%的准确率[74][76] - 模型具备了更新的知识库截止日期,结合其专业知识处理能力和高准确性,对知识工作者有显著实用价值[78][79][80] 行业竞争与战略方向 - OpenAI此次发布被视为对Google Gemini 3 Pro在原生多模态能力上取得优势的回应,但分析认为GPT-5.2在原生多模态方面仍被压过一头[4][96] - 公司战略明显从传统的“刷分”转向聚焦广大白领打工人的实际工作问题,致力于解决具有经济价值的真实任务,这被视为一个非常刚需的市场方向[53][54][95] - 价格方面,GPT-5.2的API调用成本高于前代,例如gpt-5.2每百万tokens的输入价格为1.75美元,输出为14美元,均高于GPT-5.1[89][90]