Codex CLI

搜索文档
连续干7小时“不累”,OpenAI最强编程模型GPT-5-Codex来了
36氪· 2025-09-16 02:07
模型发布与性能提升 - OpenAI发布GPT-5-Codex模型,专门针对软件工程优化,提升智能体编程能力 [1] - 新模型在基准测试SWE-bench Verified中准确率达74.5%,较GPT-5的72.8%提升1.7个百分点 [4] - 代码重构任务准确率显著提升至51.3%,较GPT-5的33.9%提高17.4个百分点 [5] - 错误评论率从GPT-5的13.7%降至4.4%,高影响力评论占比从39.4%提升至52.4% [9] - 每个拉取请求平均评论数由1.32条降至0.9条,表明评论质量更精准 [9] 技术特性与创新 - 模型可根据任务复杂度动态调整思考时间,支持从几秒到7小时不等的独立工作周期 [1][4] - 在生成token数最少的后10%场景中,token使用量比GPT-5减少93.7% [7] - 前10%复杂任务场景中,思考时间达到GPT-5的两倍,强化深度推理能力 [7] - 采用无路由器架构,可实时调整计算资源分配,优于预设计算力的传统路由方案 [12] 产品整合与开发者体验 - GPT-5-Codex全面覆盖Codex应用场景,包括云端任务、代码审查及本地开发环境 [2] - 通过CLI和IDE扩展支持图像上传(截图/线框图/图表),增强设计上下文共享能力 [14][17] - IDE扩展支持VS Code等编辑器,实现本地与云端环境无缝切换且保留完整上下文 [16] - 云基础设施优化使任务平均完成时间缩短90%,支持自动环境配置与依赖安装 [16] 代码审查与工作流自动化 - 模型可自动审查GitHub拉取请求,匹配开发意图与实际代码差异,执行测试验证 [20] - 支持安全漏洞、过时依赖项等定向审查指令,可直接在对话线程中实施修改建议 [20] - 前端开发中可启动浏览器预览构建效果,迭代结果自动截图并关联至任务及GitHub [18] - OpenAI内部每日通过Codex发现数百个代码问题,优先于人工审查介入 [20] 行业竞争格局 - AI编程工具竞争加剧,主要参与者包括OpenAI Codex、Claude Code、GitHub Copilot等 [21] - Cursor编辑器年度经常性收入(ARR)预计2025年初超5亿美元,反映市场快速增长 [21] - 模型升级表明行业技术迭代加速,自动化编程与协作能力成为核心竞争维度 [21]
GPT-5编程专用版发布,独立连续编程7小时,简单任务提速10倍,VS Code就能用
36氪· 2025-09-16 02:01
模型性能提升 - 推出GPT-5-Codex特化版模型,支持独立连续编程7小时,并集成IDE插件版至VS Code和Cursor等开发环境[1] - 新模型具备"真·动态思考"能力,可在执行任务过程中实时调整算力分配,例如处理问题时可能动态追加1小时计算资源[2] - 在SWE-bench Verified测试中表现略优于原版GPT-5,代码重构任务成功率提升近20%[5] - 简单任务输出token数比GPT-5减少93.7%,响应速度提升10倍;复杂任务输出token量增加102.2%,推理时间延长至两倍[8] 代码审查能力 - 经过专门代码审查训练,对开源项目PR的错误评论率从13.7%降至4.4%,高影响力评论比例从39.4%提升至52.4%[11] - 具备理解PR意图、遍历代码库及依赖关系、运行测试验证的完整能力[11] - 在OpenAI内部已审查绝大多数PR,每日发现数百个问题[13] 生态系统升级 - 重构整个Codex产品体系,CLI支持图像输入功能,可处理截图、线框图和设计稿[14] - 集成待办事项列表、网络搜索和MCP工具,终端界面优化工具调用与diff展示[14] - 审批模式简化为三级权限:只读模式需明确批准、自动模式工作区内全权限、完全访问模式可执行带网络访问命令[14] - IDE扩展支持云端与本地无缝切换,可在IDE创建云任务并保持全上下文信息[14] 基础设施优化 - 通过容器缓存技术使新任务和后续任务的中位完成时间缩短90%[15] - 自动扫描并执行设置脚本,运行时通过pip install等命令获取依赖[15] - 前端任务中可自主启动浏览器查看构建结果,迭代改进并附加截图至任务和GitHub PR[15] 市场竞争态势 - 升级时机恰逢Claude Code因模型质量下降出现用户退订潮,公司趁机抢占AI编程市场份额[16] - 市场存在对微软Copilot升级的期待,此前.NET Runtime项目曾受限于AI能力不足[18]
刚刚,OpenAI发布GPT-5-Codex:可独立工作超7小时,还能审查、重构大型项目
机器之心· 2025-09-16 00:22
产品发布与核心能力 - OpenAI发布GPT-5-Codex,专为智能体编程任务优化,训练重点为真实软件工程任务,具备快速响应和独立处理冗长任务的能力 [1] - 模型在SWE-bench Verified和Code refactoring tasks基准测试中准确度优于GPT-5 (high),且首次使用全部500个任务(此前仅用477个) [8][10] - 可根据任务复杂度动态调整思考时间,交互式会话响应快,复杂任务可持续运行超7小时 [11][12] - 在用户请求token最少10%的场景下,token消耗比GPT-5少93.7%;在token最多10%的场景下会投入更多时间深入推理 [12] 功能特性与性能表现 - 具备代码审查能力,可主动发现关键漏洞,通过遍历代码库、分析依赖和运行测试验证正确性,审查意见错误率更低且更聚焦关键问题 [1][14] - 支持前端任务(生成桌面应用、优化移动网站)和云端任务(读取图片截图并返回结果),深度优化Codex CLI、IDE插件及GitHub集成 [16] - 结合交互式会话与持久自主执行能力,支持完整项目构建、功能开发、测试编写、调试和大规模重构 [8] 产品集成与用户体验 - 已在Codex所有使用场景上线(包括CLI、IDE扩展、网页端、移动设备及GitHub代码审查),并为云端任务和代码审查的默认模型 [3] - 发布2.5小时后流量占Codex总流量40%,预计当日成为流量主体 [3] - 用户可通过Codex CLI或IDE插件在本地任务中选择使用,且与ChatGPT账号打通实现无缝切换环境 [3][4] 开发工具升级 - Codex CLI开源并重新设计,支持直接添加图片(如截图、线框图)建立共享上下文,集成待办清单跟踪进度,支持web搜索和MCP工具连接 [19] - CLI提供三种批准模式:只读(需明确批准)、自动(工作区内自动执行)、完全访问(可读任意文件并运行命令) [22] - IDE插件支持VS Code及其分支,支持无缝预览本地改动并直接修改代码,终端界面工具调用和代码差异显示格式更清晰 [20][21] 云端与GitHub集成 - 云端Codex支持图片上传(如UI设计规范或bug截图),并在浏览器中自检效果后附截图至任务或PR [23] - 通过缓存容器使新任务和跟进任务完成时间缩短90%,自动执行环境配置脚本及依赖安装命令 [25] - GitHub集成支持自动代码审查(PR从草稿变为可审查状态时自动分析),用户可通过"@codex review"指令手动请求审查或指定审查类型 [34] 安全与权限管理 - 默认在沙箱环境中运行且关闭网络访问,避免有害操作和提示词注入风险 [34] - 执行危险操作前会请求许可,并经过训练以命令验证输出;支持可配置安全设置(如限制网络域名、批准命令执行) [34] - 在生物与化学领域任务中归类为High能力,并采取相应安全措施减少潜在风险 [30] 商业化与可用性 - 包含在ChatGPT Plus、Pro、Business、Edu和Enterprise订阅中 [3][32] - Plus/Edu/Business用户支持每周数次集中编程会话,Pro用户支持整周多项目完整工作量 [35] - Business计划可额外购买积分突破上限,Enterprise计划提供共享积分池并按实际使用付费 [36] - 暂未开放API Key访问,但即将通过API开放GPT-5-Codex [36]
OpenAI盯上苹果开发者生态,吞了家AI编程公司
量子位· 2025-09-04 06:39
收购事件概述 - OpenAI收购AI编程初创公司Alex 专注于为iOS开发者打造AI辅助工具 产品是苹果Xcode量身定制版Cursor 将智能助手直接集成到Xcode开发环境 [1] - Alex官网和创始人已挂出公告 宣布即将加入OpenAI Codex团队 [1] - 收购发生在OpenAI宣布GPT-5内置于Xcode 26之后几天 显示事件并非毫无端倪 [2] 目标公司业务与技术 - Alex由经验丰富的iOS开发者Daniel Edrisian创立 2024年9月从AI语音巨头ElevenLabs离职创业 目标填补传统IDE和苹果应用开发者特定需求之间的空白 [7] - 2024年10月开始测试 产品支持在Xcode中自动构建项目、修复bug、添加Swift包、添加文件错误、在模拟器中运行App [10] - 网友认为对于大型iOS项目 Alex针对Xcode的深度优化优势非常明显 [10] - 创始人将产品称为"iOS和MacOS应用最佳Coding Agent" [11] 市场格局与竞争态势 - 在AI编程领域 Claude系列是开发者心中的口碑之王 Anthropic以32%的市场份额成为企业AI市场的新霸主 领先于OpenAI和谷歌 [15] - OpenAI此前试图30亿美元收购明星AI编程创企Windsurf 但交易告吹 Windsurf核心团队被谷歌打包带走 剩余资产由智能体Devin背后初创公司Cognition接盘 [18] - OpenAI在4月开源轻量级AI编程助手Codex CLI 5月让Codex以"基于云的软件工程智能体"身份重新出道 [19][20] - GPT-5发布时以0.4%的优势超越Claude-opus-4.1登顶编程新王 [20] 战略意义与行业影响 - 收购使Alex解决初创公司资金紧张问题 OpenAI则补强针对苹果开发环境的深度优化 并直接收获对Coding Agent有深入理解的AI人才 [4] - 网友对OpenAI Codex与"iOS/MacOS最佳Coding Agent"组合表示期待 [3] - 收购被解读为OpenAI进一步与Anthropic展开竞争 [23] - 引发行业关注苹果未来会选择与OpenAI合作还是强化与Claude的合作 [24]
18天光速打脸!OpenAI刚夸TypeScript最合适,转头就用Rust重写Codex CLI
AI前线· 2025-06-07 04:41
OpenAI推出Codex编码工具 - OpenAI正式推出AI编码工具Codex 目前向ChatGPT Plus用户开放 在需求高峰期间可能对Plus用户设置速率限制[1] - Codex可在任务执行过程中访问互联网 支持安装依赖项 运行测试 升级软件包等功能 该功能向ChatGPT Plus/Pro/Team用户开放 日常默认关闭[3] - Codex既可在ChatGPT网页浏览器中运行 也能通过Codex CLI在本地运行 支持交互式和非交互式两种模式[6] Codex CLI技术特性 - Codex CLI专为习惯使用终端的开发者设计 支持版本控制 理解并执行代码仓库 是"聊天驱动型开发工具"[6] - Codex CLI在GitHub开源 已获27.9k Star 当前代码占比最高的是Rust语言[7] - Codex CLI具有零配置启动 全自动审批机制 多模态交互等特性[10] Rust重写Codex CLI - OpenAI用Rust重写Codex CLI 目标是提升性能和安全性 避免对Node.js的依赖[3] - Rust重写带来四个关键改进:零依赖安装 沙箱化 性能优化 支持MCP协议[20] - 基于Rust的Codex CLI仍可通过JavaScript Python等语言扩展 目前并行开发TypeScript和Rust版本[17] Rust语言行业趋势 - Rust作为系统级语言比Node.js更高效 但开发难度更高[19] - 近期行业出现Rust重写浪潮 Vue.js创始人用Rust实现的Rolldown使生产构建时间减少3-16倍[21] - AI编码工具Zed用60万行Rust代码重构 声称成为"最快AI代码编辑器"[23] 团队背景 - Codex CLI项目维护者Fouad Matin加入OpenAI约一年 此前创立三家科技公司 并在Segment领导产品和工程开发[9] - Matin曾表示TypeScript是最适合UI的语言 但后来转向Rust重写以实现更高效率[12][14]
不到 2 个月,OpenAI 火速用 Rust 重写 AI 编程工具。尤雨溪也觉得 Rust 香!
程序员的那些事· 2025-06-06 00:32
OpenAI 用 Rust 重写 Codex CLI - OpenAI 已用 Rust 语言重写其 AI 命令行编程工具 Codex CLI,目的是提升性能、安全性并避免对 Node.js 的依赖 [1] - Codex 是一款实验性编程代理工具,可在 ChatGPT 网页浏览器环境或本地通过 CLI 运行,支持交互式和非交互式模式 [1] - 2025 年 4 月 17 日 Codex CLI 在 GitHub 上开源,支持 macOS、Linux 和 Windows 系统 [1] - 原版本基于 TypeScript 和 Node.js,现已用 Rust 完成重写,但 TypeScript 版本仍会维护至 Rust 版本功能对等 [1] 选择 Rust 重写的原因 - 零依赖安装:原版本要求 Node.js 22 及以上,可能成为用户门槛 [2][4] - 沙盒化需求:macOS 使用 Apple Seatbelt,Linux 默认不启用沙盒,Rust 版本实现了 macOS 的 sandbox-exec 和 Linux 的 Landlock 沙盒机制 [4] - 性能优化:Rust 无垃圾回收机制,内存需求更低 [5] - 可复用现有 Rust 版 MCP 实现:Codex CLI 将同时具备 MCP 客户端和服务器功能 [5] - 截至 6 月 6 日,Rust 在项目中占比 46.7%,超过 TypeScript 的 44.7% [5] 行业对 Rust 的认可 - Vue 创作者尤雨溪推出基于 Rust 的 Rolldown-Vite,替代原 Rollup.js 打包工具 [6] - 采用 Rust 后生产构建时间缩短 3 到 16 倍,内存使用量最多减少 100 倍 [6]
18天光速打脸,OpenAI刚夸TypeScript最合适,转头就用Rust重写Codex CLI
36氪· 2025-06-04 11:34
OpenAI推出Codex编码工具 - OpenAI正式推出AI编码工具Codex,目前向ChatGPT Plus用户开放,在高峰时段可能设置速率限制以确保广泛可用 [1] - Codex新增互联网访问功能,支持安装依赖项、运行测试、升级软件包等,该功能向ChatGPT Plus/Pro/Team用户开放,未来将支持企业版 [2] - 公司CEO Sam Altman曾预测,到今年年底AI模型将超越初级软件工程师 [2] Codex CLI技术升级 - Codex CLI工具用Rust语言重写,旨在提升性能、安全性并消除对Node.js的依赖 [2][9] - Rust版本改进包括:零依赖安装、沙箱化增强、内存需求降低、支持MCP协议 [12] - 项目在GitHub开源,获27.9k Star,代码库中Rust占比最高 [4][9] 开发者体验与功能 - Codex支持聊天驱动开发,可在ChatGPT网页或本地CLI运行,提供交互式和静默模式 [3] - 工具具备零配置启动、自动审批机制、多模态交互(支持截图/图表上传)等特性 [3] - 当前仍并行开发TypeScript版本,未来允许通过JavaScript/Python等语言扩展 [13] 行业技术趋势 - Rust重写浪潮兴起,Vue.js创始人用Rust工具Rolldown替换Rollup.js,构建时间减少3-16倍 [14] - 马斯克的XChat、AI编辑器Zed等均采用Rust重构,后者宣称成为"最快AI代码编辑器" [14][16] - Rust在系统级效率优势明显,但开发难度高于TypeScript/JavaScript [14] 团队背景 - Codex CLI主导者Fouad Matin入职OpenAI约一年,此前为AI安全公司Indent联合创始人 [5][7] - Matin曾解释选择TypeScript因熟悉度,后转向Rust以实现更高性能目标 [7][9]
速递|OpenAI推出AI编程Codex,可多任务并行测试至代码通过
Z Potentials· 2025-05-18 03:43
OpenAI推出AI编程助手Codex - 公司推出由codex-1驱动的最强AI编程工具Codex研究预览版 该模型生成的代码比o3更清晰 精准遵循指令 并能迭代运行测试直至通过[1] - Codex运行在云端沙盒环境 可连接GitHub预加载代码库 处理简单功能编写 漏洞修复 代码库问答等任务耗时1-30分钟 且不限制用户访问本地设备[1] - 工具初期面向ChatGPT Pro 企业版及团队版用户开放 未来将扩展至Plus和教育版 公司计划实施速率限制 用户可通过购买额外积分突破限制[3][4] 行业竞争格局 - AI编程工具市场快速增长 谷歌和微软CEO透露其30%代码由AI生成 Anthropic和谷歌近期分别推出Claude Code和Gemini Code Assist[5] - 头部AI编程平台Cursor年化营收达3亿美元 估值90亿美元 公司正以30亿美元收购竞品Windsurf 强化工具链布局[5] 产品功能与定价 - 用户可通过ChatGPT侧边栏调用Codex 使用"Code"按钮分配任务 "Ask"按钮获取代码解答 并实时跟踪进度[5] - 同步更新Codex CLI终端工具 搭载o4-mini模型 API定价为输入token每百万1.5美元 输出token每百万6美元[9] 技术特性与局限性 - Codex采用物理隔离设计 无法访问外部网络 内置安全措施可阻止恶意软件生成 但可能影响实用性[8] - 与同类生成式AI类似 Codex存在错误率问题 研究显示领先模型在可靠调试方面仍有缺陷[8] 战略布局 - 公司将Codex定位为"虚拟队友" 目标替代工程师需数小时至数天的任务 内部已用于重复性工作 功能框架搭建等[6] - 此次发布是ChatGPT功能扩展的最新举措 此前已新增Sora视频平台 Deep Research代理等订阅福利[9]
「ChatGPT+GitHub」,OpenAI搞了个大联合
机器之心· 2025-05-09 04:19
ChatGPT与GitHub深度整合 - ChatGPT新增直接连接GitHub功能,支持通过"Deep Research → GitHub"路径访问代码库进行深度分析[2] - 功能可自动搜索源代码和PR记录,生成带引用的详细报告,开发者可针对代码库和技术文档提问[3][4] - 支持总结代码结构、识别编码模式,并提供真实代码示例指导API实现[4] 功能开放计划 - 首批向ChatGPT Plus/Pro/Team用户开放,企业版和教育版支持将后续推出[4] - 隐私保护机制确保仅能访问用户已授权或主动共享的代码库内容[5] OpenAI编程生态布局 - 近期连续推出Codex CLI开源终端工具、升级桌面应用支持多开发软件代码读取[5] - 计划斥资约30亿美元收购AI编程助手公司Windsurf,强化编程场景能力[5] 模型优化进展 - 开放o4-mini推理模型的强化微调功能,仅限已验证组织使用[5][6] - 同步开放GPT-4.1 nano模型的微调功能,所有付费开发者均可定制训练[5][6]
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
Founder Park· 2025-04-30 12:31
模型发布与能力升级 - OpenAI发布o3和o4-mini模型,o3具备最全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [8] - o4-mini专为高效推理优化,部分benchmark表现优于o3,但实际使用中思考时间更短 [8] - 模型首次实现将图像直接融入CoT中,能"看懂"图像并用图像思考,在多模态理解benchmarks中领先 [45] - o3在外部专家评估中比o1少犯20%重大错误,能意识到自身能力边界并拒绝无法解决的问题 [61] 技术路线与产品策略 - Agent产品分化出两类路线:OpenAI黑盒化端到端训练路线和Manus白盒化虚拟机模仿人类工作方式路线 [15] - OpenAI将Agent产品作为未来商业化收入占比的大头 [4] - OpenAI开源Codex CLI,具备多模态推理能力和本地代码环境集成特性,旨在普及竞争对手产品 [64][68] - OpenAI采用先训练mini reasoning版本再scale到full model的发布策略,与GPT系列先大后小的策略不同 [9] 能力测试与表现 - o3在YC官网信息收集任务中经过两次prompt后完成90+家公司信息整理,而Manus能一次性完成但速度较慢 [16][17] - 在Amazon销售数据分析任务中,o3比Manus给出更简洁专业的策略建议和可视化效果 [19][27][28] - o3能通过模糊图片识别出《绝命毒师》角色"炸鸡叔"Gus Fring [46][52] - 模型在数手指个数和判断时钟时间等视觉推理任务上仍存在系统性错误 [69][70][72] 定价与市场竞争 - o3定价为$10/Mtok输入和$40/Mtok输出,是旗舰模型中最贵的 [77][80] - o4-mini定价为o3的1/10,比Claude 3.7更便宜 [78][80] - Gemini 2.5 Pro和DeepSeek-V3等模型在性价比上更具优势 [80] - 行业认为所有一线模型定价可视为在同一水平竞争,Gemini和OpenAI相对便宜 [77][79] 技术发展与未来方向 - OpenAI发现RL Scaling呈现"more compute = better performance"规律,o3投入算力比o1高一个数量级 [81][82] - 强化学习教父提出Era of Experience概念,认为agent需从experience中学习达到superhuman水平 [85][86] - 未来agent可能发展出非人类思维方式的推理,如符号化、分布式或可微分计算 [89] - 构建"world model"预测动作对环境的影响将成为重要发展方向 [89]