AI 编码工具

搜索文档
OpenAI发布新模型硬刚Anthropic!Claude Code刚火,就被GPT-5-Codex拍在沙滩上?
AI前线· 2025-09-16 04:41
产品发布与技术特性 - OpenAI于9月15日正式推出专为AI辅助编程工具设计的微调模型GPT-5-Codex [2] - 新模型具备动态"思考"时间特性 完成编码任务时间范围从几秒至7小时 在代理编码基准测试中表现更优 [2] - 增强代码审查功能 可在产品发布前识别潜在关键错误 [5] - 通过匹配PR声明意图与实际差异 对代码库及依赖项进行推理并执行代码测试验证行为 替代人工审查空白 [6] - 支持在GitHub代码库自动审核PR 用户可通过"@codex审核"指令请求针对性审查(如安全漏洞或过时依赖项) [6] - 成为Codex云任务和代码审查的默认设置 同时支持通过CLI和IDE扩展应用于本地开发环境 [6] - 在OpenAI内部负责绝大多数PR审核 每日发现数百个问题 且通常早于人工审核启动 [7] - 技术突破包括动态调整思考时间能力 结合敏捷配对与长期独立执行双重技能 [9] - 在内部测试中连续独立工作超7小时 完成大型重构并迭代修复测试错误 [9] - 整合至基于ChatGPT账号的统一产品体验 实现本地与云端任务无缝迁移及完整上下文衔接 [9] - 可在终端、IDE、网页、GitHub及ChatGPT iOS应用运行 并纳入ChatGPT Plus/Pro/Business/Edu/Enterprise套餐 [10] - 计划未来向API客户提供该模型 [11] 性能表现与基准测试 - 在SWE-bench Verified基准测试中表现优于GPT-5 该基准用于衡量代理编码能力及大型成熟存储库代码重构性能 [13] - 测试任务数量从477个调整至500个 [13] - 对于后10%低负载任务 生成token数量比GPT-5减少93.7% [15] - 对于前10%高复杂度任务 推理、编辑、测试和迭代时间为GPT-5的两倍 [15] - 在人类偏好评估中创建移动网站时表现显著进步 支持通过图像或屏幕截图直观检查进度 [18] - 动态思考能力实现实时调整任务处理时长 无需内置路由器 可自主决策延长计算时间(案例如5分钟后追加1小时) [18] 用户反馈与市场影响 - 知名博主Dan Shipper测试反馈显示:模型可自主运行长达35分钟 支持本地与网页开发环境无缝切换 且通过实际运行代码发现更多bug [21] - 用户需合理提示才能达到最佳效果(如运行时间从5分钟至优化后延长) 但存在偶尔思考不足或拒绝过大任务的情况 [22] - Reddit用户反馈称新模型解决此前Codex无法处理的Electron渲染和JSON生成问题 且一次性完成指令 [22] - 用户预测Codex将编写其75%代码 Claude编写10% 自行编写15% [23] - 部分用户认为持续7小时高效工作能力可能替代初级开发人员 成本仅为雇佣人工的1/500至1/1000(服务费20-200美元 vs 月薪5000-10000美元) [24] - 行业观点转向编程重心从原始代码编写转为架构设计 但职业完全消亡需待AGI实现 [25] 市场竞争与资本动态 - AI编码工具市场竞争加剧 主要竞品包括Claude Code、Anysphere的Cursor及微软GitHub Copilot [26] - Anysphere于6月完成9亿美元融资 估值达99亿美元 Thrive Capital领投 Andreessen Horowitz/Accel/DST Global参投 [27] - Anysphere年化收入约每两个月翻一番 当前ARR超5亿美元(较4月中旬3亿美元增长60%) [27] - Anthropic完成130亿美元融资 估值达1830亿美元(较原50亿美元计划超额) 经常性收入1-8月增长五倍 [27][28] - Replit完成2.5亿美元融资 估值30亿美元(较2023年增长近三倍) ARR从280万美元增长至1.5亿美元(增幅超50倍) 用户社区超4000万 [28] - 代码编辑器Windsurf遭遇混乱收购 团队被谷歌和Cognition瓜分 [29] - 行业面临共同考题:需将AI工具真正融入开发流程提升生产力 而非仅聚焦估值游戏 [30]