Workflow
7小时连续重构不掉线,一骑绝尘的Claude终于遇到对手:Greg Brockman亲自解读AI编程重大突破
36氪·2025-09-17 08:00

产品发布 - OpenAI于9月16日正式推出GPT-5-Codex模型 这是一个专门为AI辅助编程工具设计的微调GPT-5变体 [1] - 新模型在代理编码基准测试中表现更佳 完成编码任务时间从几秒到七小时不等 思考时间比之前模型更加动态 [1] 竞争格局 - Anthropic在过去一年多占据编码场景主导地位 营收飙升至50亿美元 其中10%来自Claude Code 市值冲到1830亿美元 增加1220亿美元市值 [5] - OpenAI早在2021年发布最初Codex 催生GitHub Copilot 全球第一个AI编程工具 现有182位开发者持续贡献 [5] 技术能力 - GPT-5-Codex在SWE-bench上得分74.5% 几乎与GPT-5 thinking在477子集上的74.9%持平 [6] - 模型展现出长时间运行代理任务能力 在内部见过连续工作7小时完成复杂重构 此前从未有过 [8][36] - 针对简单任务响应更快 对于复杂任务具备韧劲 成为全面实用的代理式编程模型 [8][36] 产品形态 - 形成覆盖各种需求的交互界面 包括新Codex CLI ChatGPT Codex现改名Codex Cloud IDE扩展2.5周安装量突破80万 GitHub代码审查机器人 [6] - 不同工具适用场景不同 GitHub为只读小范围代码审查 Cloud支持高自主性项目 CLI支持带权限项目 IDE支持文件级人机协作 [7] 研发背景 - 年初设定公司目标 年底前做出代理式软件工程师 这是OpenAI许多人一起承担的巨大任务 [6][18] - 编程一直是AGI研究的特殊例外 有完全不同的研究计划 专注编程数据代码指标和模型表现 [13] 应用场景 - 代码审查工具取得显著成功 内部上线后效果非常好 当工具挂掉时团队很不满 发现超过九成情况正确 [33][34] - 能帮助迁移重构和安全补丁 比如COBOL迁移问题 没有新COBOL程序员培养 成为全世界风险与负担 [31][32] 使用情况 - 使用量爆炸式增长 总体增长超过10倍 用户使用场景更复杂时间更长 纳入Plus和Pro套餐且额度很大 [50] - 学习编程绝佳时机 用Codex学新语言非常有趣 团队借助Codex快速掌握Rust并取得很棒成果 [47][48] 未来展望 - 未来形态是云端有大量代理组成群体 由人类团队组织监督引导 创造巨大经济价值 [39] - 需要解决安全保障和对齐问题 代理必须做有用工作但以安全方式 人类保持掌控 [39] - 2030年将生活在物质极大丰富世界 AI让创造任何东西更容易 但算力极度稀缺 [44]