产品发布与定位 - OpenAI于美东时间18日周四推出基于GPT-5.2的新一代智能体编码模型GPT-5.2-Codex,聚焦专业软件工程和防御性网络安全 [1] - 此举旨在进一步巩固公司在AI编程领域对谷歌Gemini的竞争优势 [1] - 该模型在发布当天已向所有付费ChatGPT用户开放,API用户接入正在推进中 [1][2] 核心性能与基准测试 - 在SWE-Bench Pro测试中,GPT-5.2-Codex准确率达到56.4%,高于GPT-5.2的55.6%和GPT-5.1的50.8% [1][3] - 在Terminal-Bench 2.0测试中,GPT-5.2-Codex准确率达到64.0%,高于GPT-5.2的62.2%和GPT-5.1的58.1% [1][3] - 新模型在长上下文理解、可靠的工具调用、改进的真实性和原生压缩方面均有提升,使其成为长时间编码任务中更可靠的合作伙伴 [5] - 更强的视觉性能使其能够更准确地解读屏幕截图、技术图表和用户界面,将设计稿快速转化为功能原型 [5] 技术优化与功能改进 - GPT-5.2-Codex是GPT-5.2的优化版本,专门针对Codex中的智能体编码进行了强化 [3] - 新模型在三个关键领域实现改进:通过上下文压缩提升长周期工作能力,在重构和迁移等项目级任务上表现更强,以及在Windows环境中性能改善 [3] - 凭借这些改进,Codex能够在大型代码库中进行长时间工作,保持完整上下文,更可靠地完成大规模重构、代码迁移和功能构建等复杂任务 [7] 网络安全能力 - 网络安全成为GPT-5.2-Codex的重点突破领域,从GPT-5-Codex开始能力出现急剧跳跃,GPT-5.2-Codex完成第三次跳跃 [8] - 在专业夺旗赛评估中,GPT-5.2-Codex展现出解决需要专业级网络安全技能的高级多步骤真实挑战的能力 [8] - 据OpenAI的准备框架评估,GPT-5.2-Codex虽然尚未达到“高”级别网络安全能力,但公司预计未来AI模型将继续沿着这一轨迹发展 [1][8] - 一个真实案例显示,安全研究人员使用上一代模型GPT-5.1-Codex-Max发现了React中可能导致源代码暴露的漏洞 [1][9] 市场策略与竞争态势 - 此次发布延续了OpenAI在AI编程领域的进攻态势,被视为对谷歌Gemini 3在编码和推理能力上获得好评的直接回应 [2] - 上周发布的GPT-5.2的Thinking版本在SWE编码能力测试中创下历史最高分,成为OpenAI首个性能达到或超过人类专家水平的模型 [2] 安全与访问管理 - 为平衡能力提升与安全风险,公司在模型层面和产品层面都增加了额外保护措施,包括针对有害任务和提示注入的专门安全训练、智能体沙箱以及可配置的网络访问 [11] - 公司正在进行仅限邀请的可信访问计划试点,最初仅向经过审查的安全专业人员和具有明确专业网络安全用例的组织开放 [11] - 符合条件的参与者将获得使用OpenAI最强大模型进行防御性工作的权限,使其能够开展合法的双重用途工作 [11]
强化AI编程能力迎战谷歌!OpenAI发布GPT-5.2-Codex,软件工程和网安一把抓
华尔街见闻·2025-12-18 22:49