OpenAI深夜双王炸，GPT-5.1 Pro紧急发布，降维打击Gemini 3

新产品发布动态 - OpenAI静默发布GPT-5.1 Pro，仅通过版本更新日志官宣，未发布专门博文 [1][8] - 同日推出全新王牌代码模型GPT-5.1-Codex-Max，并已在Codex平台正式上线 [2] - GPT-5.1 Pro已向所有Pro订阅用户推出，GPT-5.1-Codex-Max支持CLI、IDE扩展、云端和代码审查，API接口即将上线 [8] GPT-5.1 Pro性能特点 - 主打“情商智商”双强，将两大优势推向更高层次 [2] - 第三方评估显示其在high推理模式下能力指数（ECI）得分达151，与GPT-5实力相当 [30] - 在清晰度和洞察力方面有质的提升，回答内容更完整自洽、形象生动且易于理解，尤其擅长深入思考、规划和研究的任务 [34][35] - 指令遵循能力是最大亮点，能严格执行要求而不跑偏，处理棘手难题时比其他模型更聪明 [37][38] - 弱点在于反应速度较慢，前端和用户体验设计以及创意写作是弱项，且只能通过ChatGPT界面使用，无法集成到IDE [35][39][40] GPT-5.1-Codex-Max技术优势 - 基于GPT-5.1构建，专为软件、工程、数学、研究等智能体任务进行专门训练，能力更强、反应更快且更省token [4] - 是首个原生支持压缩机制的模型，可自动整理历史内容并保留关键上下文，实现长时间跨度的连贯性任务处理 [6][22] - 能连续自主工作超24小时，处理数百万token，适用于项目重构、深度调试、多小时智能体循环等长时间高强度开发任务 [5][23] - 在SWE-bench Verified评估中取得77.9%的高分，超越此前所有模型，在SWE-Lancer IC SWE评估中得分达79.9% [12][13] GPT-5.1-Codex-Max效率与成本 - 在中等推理强度下，其表现优于GPT-5.1-Codex，且思考过程所用token量减少约30% [14] - 在实际演示中，生成浏览器应用仅用27k思考token，代码更加精简，显著降低开发成本 [16][17] - 新增Extra High推理强度选项，可为不敏感延迟的任务花费更多时间以获得优质答案，但日常使用推荐中等强度 [16] 市场影响与采用情况 - OpenAI内部已有95%的工程师每周使用Codex，引入后团队Pull Request数量提升约70% [25] - 新模型搭配持续升级的CLI、IDE扩展、云集成与代码审查工具，预计将大幅提升编程效率 [25] - 2025年临近收官，AI领域竞争加剧，GPT-5.1 Pro与Gemini 3 Pro之间的对决成为焦点 [8]