Workflow
智能体编程
icon
搜索文档
连续干7小时“不累”,OpenAI最强编程模型GPT-5-Codex来了
36氪· 2025-09-16 02:07
模型发布与性能提升 - OpenAI发布GPT-5-Codex模型,专门针对软件工程优化,提升智能体编程能力 [1] - 新模型在基准测试SWE-bench Verified中准确率达74.5%,较GPT-5的72.8%提升1.7个百分点 [4] - 代码重构任务准确率显著提升至51.3%,较GPT-5的33.9%提高17.4个百分点 [5] - 错误评论率从GPT-5的13.7%降至4.4%,高影响力评论占比从39.4%提升至52.4% [9] - 每个拉取请求平均评论数由1.32条降至0.9条,表明评论质量更精准 [9] 技术特性与创新 - 模型可根据任务复杂度动态调整思考时间,支持从几秒到7小时不等的独立工作周期 [1][4] - 在生成token数最少的后10%场景中,token使用量比GPT-5减少93.7% [7] - 前10%复杂任务场景中,思考时间达到GPT-5的两倍,强化深度推理能力 [7] - 采用无路由器架构,可实时调整计算资源分配,优于预设计算力的传统路由方案 [12] 产品整合与开发者体验 - GPT-5-Codex全面覆盖Codex应用场景,包括云端任务、代码审查及本地开发环境 [2] - 通过CLI和IDE扩展支持图像上传(截图/线框图/图表),增强设计上下文共享能力 [14][17] - IDE扩展支持VS Code等编辑器,实现本地与云端环境无缝切换且保留完整上下文 [16] - 云基础设施优化使任务平均完成时间缩短90%,支持自动环境配置与依赖安装 [16] 代码审查与工作流自动化 - 模型可自动审查GitHub拉取请求,匹配开发意图与实际代码差异,执行测试验证 [20] - 支持安全漏洞、过时依赖项等定向审查指令,可直接在对话线程中实施修改建议 [20] - 前端开发中可启动浏览器预览构建效果,迭代结果自动截图并关联至任务及GitHub [18] - OpenAI内部每日通过Codex发现数百个代码问题,优先于人工审查介入 [20] 行业竞争格局 - AI编程工具竞争加剧,主要参与者包括OpenAI Codex、Claude Code、GitHub Copilot等 [21] - Cursor编辑器年度经常性收入(ARR)预计2025年初超5亿美元,反映市场快速增长 [21] - 模型升级表明行业技术迭代加速,自动化编程与协作能力成为核心竞争维度 [21]
Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
36氪· 2025-09-04 08:16
融资与市场动态 - Anthropic完成130亿美元融资 公司估值达到1830亿美元 融资规模仅次于OpenAI 2025年3月的400亿美元融资[1] - Claude Code发布4个月用户达11.5万 从Cursor抢占大量市场份额[3] 产品性能争议 - 部分用户反馈Claude Code存在降智问题 部分开发者转向OpenAI竞品Codex Cli[1] 产品设计理念 - 采用极简易用与高度可扩展的设计理念 集成系统提示/上下文管理/工具调用等综合功能[3][6][14] - 建立极致用户反馈响应机制 开发团队可在2-3小时内快速修复问题并回复用户[13] 技术演进趋势 - 编程模式从手动复制粘贴转向智能体主导的"不插手"工作方式 智能体可独立完成应用开发[3][4] - 模型与工具协同进化 Sonnet 3.7/4.0和Opus 4.1版本显著提升智能体编程能力[5][6][7] - 模型自主运行时间从Sonnet 3.5的1分钟持续延长 记忆能力和指令执行准确性提升[8][15] 性能评估方法 - 采用真实体感大于基准测试的评估标准 通过实际工作场景测试模型性能[3][9] - 最佳评估方式为模拟真实工作流程 包括写代码/修复bug/处理Slack消息等多元化任务[10][11] 生态扩展能力 - 扩展系统从初始的CLAUDE.md文件发展为包含权限管理/Hooks系统/MCP集成的复杂生态[15] - 支持斜杠命令和子智能体等扩展点 与模型能力提升形成正向循环[15] 未来发展方向 - 工作模式将呈现手动与自动深度融合 向交互式/主动化/目标导向编程演进[16] - 未来12-24个月重点发展高层目标规划能力 模拟工程师制定月度目标的宏观规划模式[16] 开发者影响与建议 - 智能体编程降低技术门槛 重点从"如何实现"转向"实现什么" 释放创造潜力[17] - 建议新手先使用智能体理解代码库再编写代码 根据任务难度选择差异化的协作模式[18][19][20][21] - 保持核心编程语言/编译器/系统设计等基础技能 同时提升创造性思维[17]
Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
机器之心· 2025-09-04 07:04
融资与市场表现 - Anthropic完成130亿美元融资 公司估值达到1830亿美元 融资规模仅次于OpenAI 2025年3月的400亿美元融资[1] - Claude Code发布4个月用户达11.5万 从竞品Cursor处抢走大量用户[3] 产品优势与设计理念 - 产品设计强调极简易用和高度可扩展性[3][18] - 采用真实体感大于基准测试的评估标准 通过日常实际使用评估模型性能[3][11][13] - 建立极致用户反馈响应机制 对反馈进行快速修复并立即回复用户[15][16] 技术演进与行业变革 - 编程工作流核心转变为智能体主导 从手动复制粘贴代码转向"不插手"的自动化执行模式[6] - 模型能力显著提升 Sonnet 3.7/4和Opus 4.1版本推动智能体编程进步[8] - 工具与模型共同进化 Claude Code集成系统提示/上下文管理/工具调用等关键技术组件[9] - 模型自主运行时间大幅延长 从Sonnet 3.5的1分钟持续运行能力实现突破性提升[10] 产品发展路线图 - 扩展性成为核心发展方向 已构建复杂设置系统/权限管理/Hooks系统/MCP集成等扩展点[18][21] - 未来6-12个月将实现手动与自动深度融合 包括交互式编程和目标导向编程模式[20][22][28] - 智能体将具备宏观规划能力 通过系列小改动实现月度目标[22] 开发者策略建议 - 新手应先使用智能体理解代码库 再逐步过渡到代码编写[24] - 按任务复杂度分级处理:简单任务直接创建PR 中等任务先制定计划 困难任务以人为主导[26][29] - 技术栈复杂度降低 开发重点从"如何实现"转向"实现什么"[23] - 保持核心编程技能基础上 重点提升创造力和产品构思能力[23]
刚刚,阿里最强编程模型开源,4800亿参数,Agent分数碾Kimi K2,训练细节公开
36氪· 2025-07-22 23:53
模型发布与性能 - 阿里巴巴Qwen团队开源最新旗舰编程模型Qwen3-Coder-480B-A35B-Instruct,拥有480B参数,激活参数35B,原生支持256K上下文并可扩展至100万上下文,最大输出6.5万token [1] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use三类任务中获得开源SOTA,性能超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,与Claude Sonnet 4相当 [1] - 模型参数量超过阿里旗舰模型Qwen3的235B,小于Kimi K2的1T,官方称可帮助新人程序员一天完成资深程序员一周的工作,生成品牌官网最快只需5分钟 [2] 技术细节与训练 - 预训练使用7.5万亿token数据,其中代码占比70%,保留通用和数学能力,原生支持256K上下文并通过YaRN扩展至1M,针对仓库规模和动态数据优化 [16] - 后训练阶段在20000个独立环境中进行大规模强化学习,自动扩展多样化编程任务的测试用例创建高质量训练实例,提高代码执行成功率 [18][20] - 引入长视距强化学习(智能体强化学习),构建可扩展系统并行运行20000个独立环境,在SWE-Bench Verified中实现开源模型最佳性能且无需推理 [20] 产品化与商业化 - 模型已在阿里云百炼平台上线,API采用阶梯计费,256K~1M档输入价格6美元/百万token,输出60美元/百万token,高于Claude Sonnet 4同档价格 [4][5] - 提供多种部署方式:Qwen Chat网页版免费体验,480B版本在Hugging Face、魔搭等开源社区发布可供下载和本地部署 [6] - 同时开源智能体编程命令行工具Qwen Code,基于Gemini Code分叉而来,进行定制提示和函数调用协议适配以更好释放模型能力 [3][22] 应用案例与表现 - 实测案例显示模型在指令遵循、UI设计、动画方面能力突出,开发Wordle游戏、3D旋转立方体展示台等任务完成度高 [7][9][12] - 开发速度极快,如中英文术语库20多秒完成初步结果,但存在未完全遵循技术栈指令等问题,真实部署可扩展性需优化 [11] - 支持图像生成、视频生成等功能,可上传文档、图片、视频、音频等内容,可能通过工具调用实现 [12]