OpenAI最强编程模型登场,实测竟又被Gemini 3 Flash按趴下
36氪·2025-12-19 03:50

产品发布与功能升级 - OpenAI正式发布GPT‑5.2-Codex模型,该模型融合了GPT‑5.2的优势及GPT‑5.1-Codex-Max的前沿智能体编程与终端操作能力,专为复杂的现实软件工程和网络安全等专业领域设计 [1] - 产品已通过Codex CLI、IDE扩展、云端以及代码审查等渠道发布,并已向所有付费ChatGPT用户开放,API访问即将上线 [1] - 模型新增原生上下文压缩技术,在长上下文理解、工具调用、事实准确性及原生上下文压缩上表现提升,推理时Token使用效率提升,并能更精准理解编码过程中共享的截图、技术图表、数据图及用户界面 [5] - 在原生Windows环境中,GPT‑5.2-Codex对前代GPT‑5.1-Codex-Max的能力做了进一步升级,智能体编程表现更加高效和可靠 [5] - 在实际软件工程任务中,模型在代码库导航、重构、Pull Request的创建与审查等方面表现有所提升 [5] 性能基准测试表现 - 在评估修复真实世界代码问题的SWE-Bench Pro基准测试中,GPT‑5.2-Codex得分为56.4%,超越GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分 [5] - 在衡量编译和服务器配置等任务的Terminal-Bench 2.0基准测试中,GPT‑5.2-Codex得分为64.0%,显著领先前代版本GPT‑5.1-Codex-Max的58.1% [5] - 有网友测试指出,GPT‑5.2-Codex在SWE-Bench Pro上的性能提升不到1%,且未发布SWE-Bench Verified结果,推测其未达当前最优水平,在一些系统卡基准测试中还出现了性能退步 [3] - 在网络安全领域,GPT‑5.2-Codex在夺旗挑战(CTF)中创下所有模型的最佳纪录,表明OpenAI的模型在网络安全评估方面的能力持续提升 [7] 竞争格局与市场比较 - 在GPT‑5.2-Codex发布前,谷歌刚宣布推出Gemini 3 Flash模型,AI编程工具赛道竞争加剧 [1][12] - 有网友让GPT‑5.2-Codex与Gemini 3 Flash共同执行任务,在对50个文件进行漏洞审查的任务中,Gemini 3 Flash用时1分2秒,发现了5个问题,而GPT-5.2-Codex用时4分48秒,仅发现了2个Gemini 3 Flash已找到的问题 [1] - 号称OpenAI最强编程模型的GPT-5.2-Codex在现实场景中的实际效能、与竞争对手产品的比较表现或许不及预期,其实际应用效果和性能检验或将成为接下来的焦点 [12] 应用案例与行业价值 - OpenAI首席执行官萨姆·阿尔特曼提到,一位安全研究人员利用前代模型GPT‑5.1-Codex-Max发现并披露了React中的一个可能导致源代码泄漏的漏洞,这反映了模型能力应用于网络安全带来的实际价值 [9] - 阿尔特曼还提到,这些模型还在不断改进中,最终会给网络安全带来益处 [9] - OpenAI正在全面升级网络安全防护,并引入可信访问机制来支持防御工作 [7] - GPT-5.2-Codex通过提升长程任务处理、大规模代码变更和特定环境表现,为复杂开发与安全研究提供了更强大的支持,有望成为发现和修复漏洞的有力工具 [12]