Workflow
编程智能体
icon
搜索文档
OpenAI发布GPT-5-Codex:独立编码7小时,能动态调整资源,token消耗更少
Founder Park· 2025-09-16 03:24
产品发布与定位 - OpenAI发布专用于编程任务的新模型GPT-5-Codex,属于GPT-5的特殊版本,专为智能体编程重新设计 [3][4] - 该模型具备双模特长,不仅响应速度快且可靠性高,小任务几乎即时响应,大任务可持续执行数小时 [5][6] - 内部测试显示可连续7小时完成大规模重构任务 [7] 性能表现与效率提升 - 在SWE-bench验证和代码重构任务上,GPT-5-Codex准确率达51.3%,显著超过GPT-5-high的33.9% [9][10] - 后10%用户请求中token消耗量比GPT-5减少93.7%,前10%高复杂度请求中思考耗时达到两倍 [12][13] - 代码审查能力增强,不正确评论从13.7%降至4.4%,高影响力评论从39.4%提升至52.4%,平均每个PR评论数从1.32降至0.93 [16][18] 技术架构与设计理念 - 模型采用动态调整资源机制,根据不同任务复杂度自适应分配计算资源 [9][12] - 提出"Harness"概念,强调模型与外部环境(工具、IDE、终端等)的集成框架重要性,确保模型可执行实际任务 [23][28][34] - 延迟控制低于1.5秒,支持多模式交互包括终端、IDE编辑、GitHub及Cursor集成 [30][32] 内部工具与生态建设 - 内部孵化工具包括10x(终端异步执行工具)、Agents.md(项目环境说明文件)和Code Review Agent(PR审查工具) [36][37][39][40] - Code Review Agent在内部试点中实现数十个PR审查且几乎零bug发布 [41][42] - 编程智能体市场竞品包括Cursor、Claude Code CLI、Gemini CLI及国内腾讯CodeBuddy、阿里Qwen3-Coder、字节TRAE等 [50][51][52] 行业趋势与战略方向 - 编程领域正向"AI写大部分代码+人类监督架构"模式演进,开发者角色转向战略设计与创意指挥 [43][44] - 2025年被视为智能体之年,编程智能体成为行业竞争焦点,国内外厂商均加速布局同类产品 [49][53] - OpenAI通过GPT-5-Codex正式加入编程智能体市场竞争,但面临Cursor、Claude Code等已建立认知的产品挑战 [45][54]
收手吧GPT-5-Codex,外面全是AI编程智能体
36氪· 2025-09-16 02:47
产品发布 - OpenAI推出GPT-5-Codex 专为智能体编程设计 提升代码重构 审查和缺陷发现表现[1] - 新模型具备双模特长 支持即时协作和独立执行 小任务几乎即时 大任务可持续执行数小时 内部测试可连续7小时完成大规模重构[3] - 交互响应更灵敏 代码补全延迟必须低于1.5秒 支持多模式交互包括终端 IDE GitHub和Cursor集成[19][20] 性能表现 - 在SWE-bench验证和代码重构任务上超过目前最先进的GPT-5-high[4] - 动态调整资源机制使低负载请求token消耗量比GPT-5减少93.7% 高复杂度请求思考时间达到两倍[6] - 代码审查能力显著提升 不正确评论从13.7%降至4.4% 高影响力评论从39.4%提升到52.4% 平均每个PR提出的评论数从1.32降至0.93[8][9] 技术背景 - 使用Codex品牌名称作为新模型后缀 延续2021年Codex与GitHub合作打造Copilot的技术路线[1][13] - 提出"Harness"概念 强调模型与外部环境连接的重要性 决定模型是否真正可用[15][17][18] - 编程一直是OpenAI特别关注领域 专门使用代码数据和指标优化模型表现[14] 行业竞争 - 2025年编程智能体大战全面升温 国内外巨头竞争白热化[1][24] - 国外主流产品包括Cursor Claude Code CLI Gemini CLI和GitHub Copilot[24][26] - 国内代表性产品有腾讯CodeBuddy 通义千问Qwen3-Coder 字节TRAE 百度和DeepSeek V3.1系列[24][26] 内部实践 - OpenAI孵化10x内部原型 支持异步长时间执行 带来十倍生产力提升但尚未对外发布[22] - 开发Agents.md说明文件压缩上下文 减少模型探索代码负担 存放团队开发偏好[22] - Code Review Agent能理解PR意图 检查依赖关系 发现人类审查遗漏的bug 内部团队依赖它审查数十个PR并几乎零bug发布[22] 未来展望 - 2030年软件开发将不再是人写代码加工具辅助 而是AI写大部分代码加人类监督和设计架构[22] - 开发者将成为团队指挥官 专注于战略性问题和创意设计 繁琐重复危险工作由AI智能体承担[23] - OpenAI重新定义自动补全为agent-complete 升级智能体编程能力[1]
别再乱试了!Redis 之父力荐:写代码、查 bug,这 2 个大模型封神!
程序员的那些事· 2025-07-21 06:50
核心观点 - LLM作为编程辅助工具能显著提升效率,但需人类主导协作流程才能达到最佳效果[4][6][12] - 前沿LLM如Gemini 2.5 PRO和Claude Opus在代码审查、知识补充、设计优化等方面展现博士级能力[4][9][15] - 当前阶段LLM无法独立处理复杂任务,需通过精准提示和全量上下文输入实现价值最大化[6][7][16] LLM协同编程优势 - 代码质量提升:在Redis Vector Sets实现中通过Gemini/Claude审查提前消除潜在bug[4] - 开发效率飞跃:LLM可快速生成一次性测试代码,验证方案可行性并缩短迭代周期[4] - 知识边界拓展:帮助程序员快速掌握68000汇编等非擅长领域技术[5] 最佳实践方法论 - 上下文供给:需提供完整代码库、设计文档及头脑风暴记录,避免RAG机制削弱性能[7][8][16] - 模型选择策略:复杂问题推荐同时使用Gemini 2.5 PRO(语义理解)和Claude Opus(代码生成)[9][15] - 流程控制:禁止使用智能体自动化,需人工介入代码迁移与信息过滤[10][12][16] 行业争议焦点 - 智能体效用分歧:部分开发者认为Codex等智能体在移动场景下具备实用价值[19][20] - 领域依赖性:编程语言和问题领域显著影响LLM应用效果,需具体案例验证[23][24] - 提示工程成本:严谨的提示词设计所需脑力投入可能接近直接编程[25]
刚刚,OpenAI想收购的Windsurf,被谷歌DeepMind抢走了核心团队
机器之心· 2025-07-12 02:11
谷歌DeepMind收购Windsurf事件 - 谷歌DeepMind宣布成功收购AI编程初创公司Windsurf的核心团队,包括CEO Varun Mohan和联合创始人Douglas Chen等研发人员[1][2][3] - 被收购团队将专注于DeepMind的Gemini项目,特别是编程智能体和工具使用方向[3] - 谷歌发言人表示Gemini是目前最好的模型之一,公司持续投资开发其高级功能[4] - 交易金额未披露,但此前OpenAI曾计划以30亿美元收购Windsurf[4] OpenAI收购失败原因 - OpenAI与Windsurf在5月达成的30亿美元收购协议排他性期限已到期,Windsurf可自由选择其他方案[5] - 这是OpenAI近期在收购AI编程公司上的第二次失败,此前收购Cursor的谈判也因对方拒绝而破裂[7][8] - 事件对OpenAI形成打击,被网友盘点为近期系列挫折之一[9] Windsurf公司背景与现状 - 公司由MIT校友2021年创立,原名Codeium,2024年4月更名为Windsurf[6] - 交易后Windsurf将继续独立运营,谷歌仅获得部分技术的非独家许可[16] - 未加入谷歌的员工面临高管和技术核心流失,业务主管Jeff Wang出任临时CEO,销售副总裁Graham Moreno担任新总裁[17][19] - 临时CEO声明称大部分团队将继续开发产品服务客户[20] 行业影响与反应 - 交易突然性引发AI行业震动,有观点认为Windsurf工程师可能都未预料到[10] - 部分开发者对失去核心团队的Windsurf未来发展表示担忧[21] - 事件反映出AI行业激烈的人才争夺战现状[21]
Devin 教你做 Agent:把 AI 当做需要指导的初级开发者
Founder Park· 2025-07-07 12:08
编程智能体实践指南核心观点 - 将AI视为需要明确指导的初级开发者而非魔法工具,资深工程师(Senior到Staff级别)因天然具备管理能力而能最快掌握智能体工具 [1] - 中大型任务(1-6小时工作量)采用智能体可节省约80%时间,技术功底和代码库理解仍是核心,但工作方式需转变为工程经理式多任务管理 [1][8] - 自主编程智能体已能端到端完成从想法到PR交付的全流程,显著提升工程师多任务处理能力,需适应与AI新同事的协作模式 [8][9] 基础与日常应用 - **指令具体化**:需明确实现路径而非仅下达目标,如单元测试需指定功能边界和mock方式 [11][12] - **起点定位**:告知代码库入口或参考文档,避免无效探索,例如新增Google模型支持时指引具体目录 [13] - **防御性提示**:预判潜在错误点并提前澄清,如提醒C++绑定需重新编译测试 [14] - **反馈闭环**:利用类型检查、单元测试等工具构建验证体系,强类型语言更利于AI迭代修正 [15] 复杂任务管理 - **分阶段执行**:对跨模块任务设置检查点(如数据库→后端→前端分步确认),避免错误累积 [26][27] - **草稿生成**:AI完成PR初稿可节省80%时间,但需提供清晰架构设计并预留人工精修空间 [24] - **联合规划**:利用Agent探索模糊需求,如通过"规划模式"理解认证系统工作原理 [25] - **验证强化**:在AI频繁修改区域大幅增加测试覆盖率,如Python转C++前增强单元测试 [29] 自动化与定制化 - **模板复用**:创建自动化提示词模板处理重复任务(如依赖升级、测试补充) [31][32] - **环境统一**:确保AI开发环境与团队完全一致,包括语言版本、预装工具和登录状态 [35] - **知识沉淀**:将常见错误清单和架构规范固化至AI知识库,如服务路由添加指南 [38] - **工具赋能**:开发CLI工具辅助AI工作,如仅显示首个失败测试的脚本提升调试效率 [37] 局限性认知与应对 - **能力边界**:AI在视觉还原、复杂调试等方面较弱,需人类提供可能原因列表而非全权委托 [39][40] - **知识更新**:需主动提供新发布库的文档链接,避免使用过时API [42] - **止损策略**:当AI明显偏离轨道时应及时中止,推倒重来比持续修正更高效 [44][46] - **权限管理**:为AI创建专属账户和隔离测试环境,仅授予最小必要权限 [47][48]
Devin Coding Agent提效80%指南:把AI当初级开发者 | Jinqiu Select
锦秋集· 2025-07-02 12:56
编程智能体实践指南核心观点 - 将AI视为需要明确指导的初级开发者而非魔法工具[1] - 资深工程师(Senior到Staff级别)采用智能体工具最快 因其天然具备管理初级开发者的能力[2] - 中大型任务(1-6小时工作量)可节省约80%时间[2] - 技术功底和代码库理解依然重要 但工作方式需转变为同时管理多个"初级开发者"(智能体)[7] 核心方法论 基础原则 - 清晰指令:明确测试功能/边界情况/依赖模拟 而非笼统要求[3][16] - 合理预期:大任务可节省80%时间但需设置检查点(规划→实现→测试→审查)[3][28] - 持续验证:提供完整CI/测试环境 在AI常改动区域增加测试覆盖率[3][33] 日常应用技巧 - 即时委派:将突发需求直接交由智能体处理[5][21] - 移动办公:通过手机端处理紧急bug[5][23] - 并行决策:让智能体实现多种架构方案再选择[5][25] - 自动化琐事:依赖升级/文档更新/测试用例补充[5][24] 复杂任务处理 - 分阶段实施:规划→模块A→测试→审查→模块B的检查点机制[30][31] - 防御性提示:预判可能错误并提前澄清 如C++绑定需重新编译[18] - 知识沉淀:将团队常见错误和验证方法存入智能体知识库[32][36] 高级定制化 - 环境配置:确保智能体开发环境与团队完全一致(语言版本/依赖包)[38][40] - CLI工具开发:创建专用命令行工具提升智能体效率[41] - 事件响应:对接告警系统实现自动日志分析和根因推测[37] 局限性管理 - 视觉还原:需依赖设计系统而非像素级还原[44] - 知识更新:需主动提供新发布库的官方文档[45] - 安全策略:使用只读API密钥和隔离测试环境[51][52] 行业趋势 - 编程智能体已完成从代码补全(Copilot)到端到端交付(Devin)的进化[11] - 自主Agent形态多样化 可集成于Slack/GitHub等日常工作工具[14] - 工程师角色向"工程经理"转型 需同时监督多个智能体工作流[7][53]
腾讯研究院AI速递 20250520
腾讯研究院· 2025-05-19 14:57
OpenAI沙漠中建全球最大AI数据中心 - OpenAI与阿联酋G42合作在阿布扎比建设5千兆瓦数据中心,占地10平方英里,规模超过摩纳哥 [1] - 项目属于"星际之门"计划,耗电量相当于五座核电站,规模是德州阿比林园区的四倍 [1] - G42因与中国实体关系引发美方担忧后撤出在华投资,微软投资15亿美元并派高管入驻G42董事会 [1] NVIDIA新一代B300与万卡互联技术 - 推出Grace Blackwell GB300系统,性能全面提升,可通过MVLink技术将72个GPU连接成单一巨型GPU [2] - 发布MVLink Fusion计划支持合作伙伴集成自定义ASIC或CPU到NVIDIA生态系统 [2] - 推出Isaac GR00T平台和Cosmos物理AI模型强化机器人与数字孪生技术,Newton物理引擎将于7月开源 [2] 华为昇腾与DeepSeek合作成果 - 华为昇腾推出CloudMatrix 384超节点和Atlas 800I A2服务器,在DeepSeek模型推理性能上超越英伟达Hopper架构 [3] - 采用"以数学补物理"策略通过FlashComm通信方案、AMLA算法等技术创新解决大规模MoE模型部署难题 [3] - CloudMatrix 384超节点在50ms时延下单卡吞吐达1920 Tokens/s,Atlas 800I A2在100ms时延下达808 Tokens/s [3] 腾讯发布新版QQ浏览器 - 集成QBot功能采用腾讯混元和DeepSeek双模型驱动,可从全网内容中提炼整理答案 [4] - 主要功能包括AI搜索、多模态交互、文档解读翻译、智能写作和学习辅导,支持PC和手机端信息同步 [5] - 提供AI工具箱包含格式转换、信息提取、文档处理等办公功能,支持端外唤起无需额外插件 [5] B站开源动画视频生成模型 - 开源Index-AniSora模型支持多种二次元风格视频生成,入选IJCAI25,可实现基于华为910B芯片的高效分布式训练 [6] - 系统包含基于CogVideoX-5B的V1.0和基于Wan2.1-14B的V2.0版本,支持时空掩码、局部控制等功能 [6] - 构建千万级文本-视频训练数据并开源首个动画领域人类偏好强化学习模型,包含30,000条标注样本的奖励数据集 [6] 苹果AI生3D模型与Siri升级 - 发布Matrix3D模型仅需三张照片即可生成高质量3D场景模型并已开源 [7] - 内部测试的聊天机器人已接近ChatGPT水平,计划增加网页搜索和App调用等功能 [7] - 考虑将Siri与Apple Intelligence品牌分开以规避负面影响 [7] GenSpark发布Agentic AI下载工具 - 发布全球首个AI下载代理工具Agentic Download Agent通过自然语言指令实现文件下载和处理自动化 [8] - 采用Mixture-of-Agents架构整合8个不同规模语言模型和80余种工具链,将传统耗时任务压缩至分钟级完成 [8] - 配套推出AI Drive智能云盘支持多种数字资产格式并开放API接口供企业系统集成 [8] AI笔记产品Granola - 以2.5亿美元估值完成B轮融资,成为独角兽创始人和企业高管的首选笔记工具 [10] - 产品核心优势在于赋予用户控制权,支持实时编辑和个性化记录,采用不保存音频的方式保护隐私 [10] - 未来将从单一笔记工具发展为融合个人上下文的综合工作平台 [10] 全球机器人视触融合挑战赛 - 第一届ManiSkill-ViTac 2025挑战赛中国企业包揽三金,将在ICRA 2025研讨会汇报 [11] - 原力灵机Dexmal赢得纯触觉操控和触觉传感器设计两项金牌,它石智航获视触融合操控金牌 [11] - 赛事推动触觉-视觉融合算法进步,为机器人从实验室到现实应用搭建桥梁 [11] GitHub CEO反驳编程无用论 - 强调2025年是编程智能体之年,但未来仍需要人类程序员掌控软件生命周期 [12] - GitHub已发布Workspace、Project Padawan等多个SWE智能体产品,Copilot用户达1500万同比增长4倍 [12] - 主张人类应持续学习编程以保持对AI系统的指导和控制能力 [12]
老黄唱衰编程,GitHub CEO硬刚:放弃写代码等于放弃智能体未来话语权
量子位· 2025-05-19 09:39
核心观点 - GitHub CEO托马斯·多姆克反驳"编程无用论",认为2025年是编程智能体之年,但未来仍属于人类程序员[1][2] - 公司通过Copilot等产品增强开发者能力,已拥有1500万用户,同比增长4倍[5][10] - 智能体技术将融合同步和异步交互模式,实现自然语言指令执行任务[14][16][17] - 人类程序员仍将主导软件开发,AI作为助手无法取代[33][34][38] 2025年SWE智能体技术发展 - 2025年软件开发将围绕智能体技术展开,基于AI、LLM和上下文感知技术[14][15] - 智能体将并行处理多个任务,开发者成为"智能体乐队"指挥[21][22] - 模型已具备自主规划能力,通过工具调用接口完成工作[24] - 公司构建了人员关系图谱、工作流程图谱等独特上下文体系[26] Copilot产品进展 - Copilot用户达1500万,同比增长4倍,源于免费开放策略[10] - 定价从10美元/月调整至39美元/月,超额请求按0.04美元收费[27] - 产品已集成到所有主流IDE和GitHub网站,具有上下文理解优势[25] - 公司持续评估商业模式演变以支持代理模式运行[27] 人类程序员角色 - AI只能作为高级开发者助手,无法取代掌控软件生命周期的人类[33] - 需要持续学习代码,了解如何对代表人类思考和行动的机器编程[36][37] - 公司愿景是通过改进的自然语言界面打破人类与代码壁垒[34] - 人工智能必须在人类指导下实现自主[38]