一文读懂GPT-5.2:Open迎战Gemini,号称智能体编码最强,赶超人类专家,Altman料1月解除红色警报
美股IPO·2025-12-11 23:38

产品发布与定位 - OpenAI于周四正式发布GPT-5.2系列模型,并已在ChatGPT上线,同时开放API给所有开发者 [3][5] - 新模型共推出三个版本:Instant主打快速高效的日常工作和学习助手,Thinking专为深度复杂任务设计,Pro则是需要高质量回答难题时最智能且可靠的选择 [1][10][11] - 此次发布是公司对谷歌Gemini 3竞争的直接回应,旨在迎战并巩固市场地位 [3][8] 性能表现与基准测试 - GPT-5.2是公司迄今最先进的AI模型,在多项基准测试中刷新行业纪录 [3] - 在GDPval职业知识测试中,GPT-5.2 Thinking有70.9%的表现达到或超过行业专家水平,完成任务速度是专家的11倍以上,成本不到专家的1% [4][12] - 在编码能力方面,GPT-5.2 Thinking在SWE-Bench Pro(公开)测试中取得55.6%的成绩,在SWE-bench Verified测试中达到80.0%的新高 [4][14] - 在科学领域,GPT-5.2 Pro在GPQA Diamond测试中达到93.2%准确率,GPT-5.2 Thinking为92.4%;在专家级数学测试FrontierMath(Tier 1-3)上,GPT-5.2 Thinking解决了40.3%的问题 [4][15] - 该模型在长文本处理(OpenAI MRCRv2测试)中,于25.6万token范围内实现近100%准确率,并被称为“世界上最好的视觉模型”,在图表推理等方面的错误率降低约一半 [15] 定价与成本 - GPT-5.2的API定价为每百万输入token 1.75美元,每百万输出token 14美元,缓存输入可享受90%折扣至每百万token 0.175美元 [5][6] - 虽然单token价格高于GPT-5.1(输入1.25美元,输出10美元),但由于模型效率更高,达到相同质量水平的总成本反而更低 [5] - ChatGPT订阅价格保持不变,公司目前没有弃用GPT-5.1、GPT-5或GPT-4.1的计划 [21] 市场竞争与公司战略 - 公司CEO Sam Altman表示,谷歌Gemini 3对OpenAI指标的影响可能没有之前担心的大,并预计明年1月前以“非常强势的地位”退出内部“红色警报”状态 [3][17] - “红色警报”旨在将资源集中用于改进ChatGPT,但GPT-5.2的发布已筹备多月,并非因此匆忙推出 [8][17] - 公司战略明确瞄准企业市场,过去一年其AI工具的企业使用量大幅飙升,ChatGPT Enterprise平均用户每天节省40至60分钟,重度用户每周节省超过10小时 [20] - 包括Notion、Shopify、Databricks在内的多家企业客户报告了GPT-5.2在长周期推理、工具调用、数据科学和智能体编码等方面的出色表现 [20] 技术演进与未来计划 - GPT-5.2被视为对之前两次升级(GPT-5和GPT-5.1)的整合与提升,使其成为生产应用更可靠的基础 [9] - 公司宣布推出年龄预测软件,并计划在明年第一季度推出“成人模式” [19] - 据报道,公司计划在明年1月发布另一款新模型,以提供更好的图像生成等功能,但此次未包含新的图像生成器 [19] - OpenAI已承诺在未来几年投入超过1万亿美元用于AI基础设施建设 [21]