GDPval评测集 - 财报，业绩电话会，研报，新闻

GDPval评测集

搜索文档

数字生命卡兹克· 2025-12-11 22:00

模型发布与定位 - OpenAI在成立十周年之际正式发布了GPT-5.2模型系列，旨在应对来自Google Gemini 3 Pro的竞争压力并重新确立领先地位[1][3][4][5] - 该模型被定位为迄今为止在“专业知识工作”方面能力最强的模型系列，标志着其战略重心向解决实际专业任务倾斜[7] - 模型将首先向ChatGPT付费会员开放，随后向免费会员开放，并直接替代GPT-5.1，同时开发者已可通过API调用[82][88] 基准测试表现 - 在传统评测集上，GPT-5.2全面领先于GPT-5.1、Claude Opus 4.5和Gemini 3 Pro，例如在软件工程（SWE-Bench Pro）上得分为55.6%，科学问题（GPQA Diamond）上为92.4%，数学竞赛（AIME 2025）上达到100%[9][10][11] - 在衡量“流体智力”的抽象推理测试ARC-AGI-2上，GPT-5.2得分从GPT-5.1的17.6%大幅跃升至52.9%，实现了约三倍的提升，并在该榜单上达到目前最优水平[39][40][46] - 在衡量真实经济价值任务表现的GDPval评测中，GPT-5.2 Thinking模型赢或打平行业专家的比例达到70.9%，相比GPT-5的38.8%有显著进步[63][65] 核心能力与特性 - 模型在多模态理解与处理复杂文件（如PDF、Excel、图片、PPT）方面能力突出，能够处理高度复杂、无标准答案的真实专业知识任务[59] - 在上下文处理能力上表现卓越，在256K文档的“大海捞针”测试中达到了100%的准确率[74][76] - 模型具备了更新的知识库截止日期，结合其专业知识处理能力和高准确性，对知识工作者有显著实用价值[78][79][80] 行业竞争与战略方向 - OpenAI此次发布被视为对Google Gemini 3 Pro在原生多模态能力上取得优势的回应，但分析认为GPT-5.2在原生多模态方面仍被压过一头[4][96] - 公司战略明显从传统的“刷分”转向聚焦广大白领打工人的实际工作问题，致力于解决具有经济价值的真实任务，这被视为一个非常刚需的市场方向[53][54][95] - 价格方面，GPT-5.2的API调用成本高于前代，例如gpt-5.2每百万tokens的输入价格为1.75美元，输出为14美元，均高于GPT-5.1[89][90]

GDPval评测集

流体智力（Fluid Intelligence）

抽象与推理语料库（ARC）

Artificial Intelligence

GPT-5.2

Gemini 3 Pro

GDPval评测集

流体智力（Fluid Intelligence）

抽象与推理语料库（ARC）

Artificial Intelligence

GPT-5.2

Gemini 3 Pro