模型发布与性能提升 - OpenAI发布GPT-5-Codex模型,专门针对软件工程优化,提升智能体编程能力 [1] - 新模型在基准测试SWE-bench Verified中准确率达74.5%,较GPT-5的72.8%提升1.7个百分点 [4] - 代码重构任务准确率显著提升至51.3%,较GPT-5的33.9%提高17.4个百分点 [5] - 错误评论率从GPT-5的13.7%降至4.4%,高影响力评论占比从39.4%提升至52.4% [9] - 每个拉取请求平均评论数由1.32条降至0.9条,表明评论质量更精准 [9] 技术特性与创新 - 模型可根据任务复杂度动态调整思考时间,支持从几秒到7小时不等的独立工作周期 [1][4] - 在生成token数最少的后10%场景中,token使用量比GPT-5减少93.7% [7] - 前10%复杂任务场景中,思考时间达到GPT-5的两倍,强化深度推理能力 [7] - 采用无路由器架构,可实时调整计算资源分配,优于预设计算力的传统路由方案 [12] 产品整合与开发者体验 - GPT-5-Codex全面覆盖Codex应用场景,包括云端任务、代码审查及本地开发环境 [2] - 通过CLI和IDE扩展支持图像上传(截图/线框图/图表),增强设计上下文共享能力 [14][17] - IDE扩展支持VS Code等编辑器,实现本地与云端环境无缝切换且保留完整上下文 [16] - 云基础设施优化使任务平均完成时间缩短90%,支持自动环境配置与依赖安装 [16] 代码审查与工作流自动化 - 模型可自动审查GitHub拉取请求,匹配开发意图与实际代码差异,执行测试验证 [20] - 支持安全漏洞、过时依赖项等定向审查指令,可直接在对话线程中实施修改建议 [20] - 前端开发中可启动浏览器预览构建效果,迭代结果自动截图并关联至任务及GitHub [18] - OpenAI内部每日通过Codex发现数百个代码问题,优先于人工审查介入 [20] 行业竞争格局 - AI编程工具竞争加剧,主要参与者包括OpenAI Codex、Claude Code、GitHub Copilot等 [21] - Cursor编辑器年度经常性收入(ARR)预计2025年初超5亿美元,反映市场快速增长 [21] - 模型升级表明行业技术迭代加速,自动化编程与协作能力成为核心竞争维度 [21]
连续干7小时“不累”,OpenAI最强编程模型GPT-5-Codex来了
36氪·2025-09-16 02:07