连续干7小时“不累”，OpenAI最强编程模型GPT-5-Codex来了

模型发布与性能提升 - OpenAI发布GPT-5-Codex模型，专门针对软件工程优化，提升智能体编程能力 [1] - 新模型在基准测试SWE-bench Verified中准确率达74.5%，较GPT-5的72.8%提升1.7个百分点 [4] - 代码重构任务准确率显著提升至51.3%，较GPT-5的33.9%提高17.4个百分点 [5] - 错误评论率从GPT-5的13.7%降至4.4%，高影响力评论占比从39.4%提升至52.4% [9] - 每个拉取请求平均评论数由1.32条降至0.9条，表明评论质量更精准 [9] 技术特性与创新 - 模型可根据任务复杂度动态调整思考时间，支持从几秒到7小时不等的独立工作周期 [1][4] - 在生成token数最少的后10%场景中，token使用量比GPT-5减少93.7% [7] - 前10%复杂任务场景中，思考时间达到GPT-5的两倍，强化深度推理能力 [7] - 采用无路由器架构，可实时调整计算资源分配，优于预设计算力的传统路由方案 [12] 产品整合与开发者体验 - GPT-5-Codex全面覆盖Codex应用场景，包括云端任务、代码审查及本地开发环境 [2] - 通过CLI和IDE扩展支持图像上传（截图/线框图/图表），增强设计上下文共享能力 [14][17] - IDE扩展支持VS Code等编辑器，实现本地与云端环境无缝切换且保留完整上下文 [16] - 云基础设施优化使任务平均完成时间缩短90%，支持自动环境配置与依赖安装 [16] 代码审查与工作流自动化 - 模型可自动审查GitHub拉取请求，匹配开发意图与实际代码差异，执行测试验证 [20] - 支持安全漏洞、过时依赖项等定向审查指令，可直接在对话线程中实施修改建议 [20] - 前端开发中可启动浏览器预览构建效果，迭代结果自动截图并关联至任务及GitHub [18] - OpenAI内部每日通过Codex发现数百个代码问题，优先于人工审查介入 [20] 行业竞争格局 - AI编程工具竞争加剧，主要参与者包括OpenAI Codex、Claude Code、GitHub Copilot等 [21] - Cursor编辑器年度经常性收入（ARR）预计2025年初超5亿美元，反映市场快速增长 [21] - 模型升级表明行业技术迭代加速，自动化编程与协作能力成为核心竞争维度 [21]