OpenAI深夜双王炸,GPT-5.1 Pro紧急发布,降维打击Gemini 3
36氪·2025-11-20 03:37

新产品发布动态 - OpenAI静默发布GPT-5.1 Pro,仅通过版本更新日志官宣,未发布专门博文 [1][8] - 同日推出全新王牌代码模型GPT-5.1-Codex-Max,并已在Codex平台正式上线 [2] - GPT-5.1 Pro已向所有Pro订阅用户推出,GPT-5.1-Codex-Max支持CLI、IDE扩展、云端和代码审查,API接口即将上线 [8] GPT-5.1 Pro性能特点 - 主打“情商智商”双强,将两大优势推向更高层次 [2] - 第三方评估显示其在high推理模式下能力指数(ECI)得分达151,与GPT-5实力相当 [30] - 在清晰度和洞察力方面有质的提升,回答内容更完整自洽、形象生动且易于理解,尤其擅长深入思考、规划和研究的任务 [34][35] - 指令遵循能力是最大亮点,能严格执行要求而不跑偏,处理棘手难题时比其他模型更聪明 [37][38] - 弱点在于反应速度较慢,前端和用户体验设计以及创意写作是弱项,且只能通过ChatGPT界面使用,无法集成到IDE [35][39][40] GPT-5.1-Codex-Max技术优势 - 基于GPT-5.1构建,专为软件、工程、数学、研究等智能体任务进行专门训练,能力更强、反应更快且更省token [4] - 是首个原生支持压缩机制的模型,可自动整理历史内容并保留关键上下文,实现长时间跨度的连贯性任务处理 [6][22] - 能连续自主工作超24小时,处理数百万token,适用于项目重构、深度调试、多小时智能体循环等长时间高强度开发任务 [5][23] - 在SWE-bench Verified评估中取得77.9%的高分,超越此前所有模型,在SWE-Lancer IC SWE评估中得分达79.9% [12][13] GPT-5.1-Codex-Max效率与成本 - 在中等推理强度下,其表现优于GPT-5.1-Codex,且思考过程所用token量减少约30% [14] - 在实际演示中,生成浏览器应用仅用27k思考token,代码更加精简,显著降低开发成本 [16][17] - 新增Extra High推理强度选项,可为不敏感延迟的任务花费更多时间以获得优质答案,但日常使用推荐中等强度 [16] 市场影响与采用情况 - OpenAI内部已有95%的工程师每周使用Codex,引入后团队Pull Request数量提升约70% [25] - 新模型搭配持续升级的CLI、IDE扩展、云集成与代码审查工具,预计将大幅提升编程效率 [25] - 2025年临近收官,AI领域竞争加剧,GPT-5.1 Pro与Gemini 3 Pro之间的对决成为焦点 [8]