Workflow
DeepSeek V3.1系列
icon
搜索文档
收手吧GPT-5-Codex,外面全是AI编程智能体
36氪· 2025-09-16 02:47
产品发布 - OpenAI推出GPT-5-Codex 专为智能体编程设计 提升代码重构 审查和缺陷发现表现[1] - 新模型具备双模特长 支持即时协作和独立执行 小任务几乎即时 大任务可持续执行数小时 内部测试可连续7小时完成大规模重构[3] - 交互响应更灵敏 代码补全延迟必须低于1.5秒 支持多模式交互包括终端 IDE GitHub和Cursor集成[19][20] 性能表现 - 在SWE-bench验证和代码重构任务上超过目前最先进的GPT-5-high[4] - 动态调整资源机制使低负载请求token消耗量比GPT-5减少93.7% 高复杂度请求思考时间达到两倍[6] - 代码审查能力显著提升 不正确评论从13.7%降至4.4% 高影响力评论从39.4%提升到52.4% 平均每个PR提出的评论数从1.32降至0.93[8][9] 技术背景 - 使用Codex品牌名称作为新模型后缀 延续2021年Codex与GitHub合作打造Copilot的技术路线[1][13] - 提出"Harness"概念 强调模型与外部环境连接的重要性 决定模型是否真正可用[15][17][18] - 编程一直是OpenAI特别关注领域 专门使用代码数据和指标优化模型表现[14] 行业竞争 - 2025年编程智能体大战全面升温 国内外巨头竞争白热化[1][24] - 国外主流产品包括Cursor Claude Code CLI Gemini CLI和GitHub Copilot[24][26] - 国内代表性产品有腾讯CodeBuddy 通义千问Qwen3-Coder 字节TRAE 百度和DeepSeek V3.1系列[24][26] 内部实践 - OpenAI孵化10x内部原型 支持异步长时间执行 带来十倍生产力提升但尚未对外发布[22] - 开发Agents.md说明文件压缩上下文 减少模型探索代码负担 存放团队开发偏好[22] - Code Review Agent能理解PR意图 检查依赖关系 发现人类审查遗漏的bug 内部团队依赖它审查数十个PR并几乎零bug发布[22] 未来展望 - 2030年软件开发将不再是人写代码加工具辅助 而是AI写大部分代码加人类监督和设计架构[22] - 开发者将成为团队指挥官 专注于战略性问题和创意设计 繁琐重复危险工作由AI智能体承担[23] - OpenAI重新定义自动补全为agent-complete 升级智能体编程能力[1]