AI编码
搜索文档
Claude Opus 4.5 全面上线,凭什么夺回 Agentic Coding 第一!
深思SenseAI· 2025-11-25 12:42
模型性能表现 - 在单提示词生成Minecraft克隆版测试中,模型生成的角色移动流畅、帧率稳定,支持正常破坏和放置方块、切换方块类型及自由飞行,完成度和可玩性接近真正可玩的沙盒游戏[1] - 在同样的单提示词测试中,Gemini 3 Pro生成的世界无法破坏或放置方块,角色移动略显混乱,仅为基础可看的Demo[2] - 在单提示词生成乐高搭建网站测试中,模型返回完整可用的乐高模型,支持拖动视角、堆叠积木、修改颜色、删除及选择不同形状积木,达到高完成度交互应用水平[3] 效率与成本优化 - 模型引入可调effort参数(低、中、高三档),在同等任务下token消耗相较Sonnet 4.5呈指数级下降[4] - 在medium effort档位,模型追平Sonnet 4.5在SWB基准上的最佳验证分数,但输出token减少约76%;在最高effort档仍优于Sonnet 4.5,同时输出token减少约48%[6] - 模型价格下调至每100万输入token 5美元、每100万输出token 25美元,约为原价格的三分之一,整体性价比提升明显[7] 高级工具调用能力 - 模型在工具调用时不再扫描全部工具列表,而是检索与过滤后只调用与当前子任务相关的部分,显著提升效率[7] - 在解谜保险库Demo中,模型消耗约70万个token成功完成所有关卡,而Sonnet 4.5消耗约800万个token仍未完成解谜[8] - 按官方定价折算,同一任务Sonnet 4.5成本约4美元,而模型成本仅约1美元,体现成本与效率优势[8] 计算机操作能力升级 - 增强版Computer Use能力支持界面缩放,可先放大界面再操作,提升在真实桌面环境中的实用性[10] - 该能力使Agent能检查细小UI元素和复杂控件,如逐像素检查生成页面、读取小字号文本及分析结构复杂界面[10] 无限对话功能 - 无限对话机制自动对较早内容进行摘要与重写,腾出上下文空间,使同一会话线程持续推进,无需频繁新开对话[12] - 该功能显著降低长线项目(如从零共建App、持续打磨文档)的协作成本,为将大模型作为持续在线长期助手提供基础[12][13] 基准测试与竞争格局 - 在Agentic tool use测试中模型得分88.9%,高于Sonnet 4.5的86.2%和Gemini 3 Pro的85.3%[15] - 在Scaled tool use MCP Atlas测试中模型得分62.3%,显著高于Sonnet 4.5的43.8%和Opus 4.1的40.9%[15] - 在Novel problem solving ARC-AGI-2测试中模型得分37.6%,高于Gemini 3 Pro的31.1%和GPT-5.1的17.6%[15] - 模型在编码与工程类任务上保持优势,而Gemini 3 Pro在研究生级推理(得分91.9%)和多语言问答(得分91.8%)上领先[15] 目标用户与应用场景 - 模型理想用户指向专业软件开发者和知识工作者(如金融分析师、顾问、会计师),以及渴望激发创造力、构建新事物的用户[16] - 模型在处理电子表格、演示文稿等办公任务及执行深度研究方面有显著提升,可参与需求梳理、方案设计、实现与跟进的全流程[16]
OpenAI旗下视频生成应用Sora实现百万下载,AI编码竞赛格局生变
智通财经网· 2025-10-10 07:10
Sora应用市场表现 - Sora应用在推出后不到5天内实现100万次下载,速度超越ChatGPT初期表现 [1] - 尽管实行邀请制且仅面向北美iOS用户,该应用仍迅速登顶苹果应用商店排行榜 [1] - 公司计划推出更多功能及针对过度审核的修复 [1] Sora面临的争议与应对 - 好莱坞人才经纪公司CAA指出Sora将艺术家置于重大风险之中,主要争议围绕版权侵权 [1] - 公司首席执行官表示将很快推出内容版权控制功能,允许权利所有者决定其角色在Sora中的使用方式 [1] - 公司计划与授权方分享收益 [1] AI编码助手竞争格局 - OpenAI的Codex编码助手在开发者采纳率达74.3%,略高于Anthropic的Claude Code的73.7% [2] - 通过Modu平台生成的拉取请求中,Codex的合并占比为24.9%,Claude Code为32.1% [2] - 性能提升关键源于上月发布的GPT-5-Codex模型,该版本发布前Codex的代码生成成功率仅为69% [2] AI编码助手性能与成本 - Codex在复杂编码任务规划方面表现更优,且成本低于Claude Code [3] - 开发者目前愿意支付溢价,因普遍预期成本将随时间下降 [3] - 对企业CEO而言,购买编码助手增强现有工程师效率仍比扩招人力更经济 [3] 其他主要编码助手市场定位 - 代码采纳率最高的助手是Sourcegraph的Amp代理,达76.8%,被形容为精品级奢品,性能出众但定价偏高 [3] - 谷歌的Gemini CLI是最经济的编码助手,该开源AI代理支持用户在终端直接调用Gemini模型 [3] - 对Anthropic而言,编码技术是其营收核心驱动力,主要来自通过API向微软、Cursor、Lovable等客户销售AI模型 [3] 公司战略重点 - OpenAI拥有依赖度相对较低的ChatGPT业务,但其管理层将编码视为开发通用人工智能的关键领域 [3] - 公司去年已加强模型编码能力的优化投入 [3]
AI编码工具双雄也开始商业互捧了?Cursor × Claude 最新对谈:两年后,几乎100%代码都将由AI生成!
AI前线· 2025-06-21 03:38
公司发展里程碑 - 成立不到两年即实现年经常性收入1亿美元,达到大多数SaaS公司需十年才能完成的里程碑 [1] - 公司成立一年半总融资达95亿美元,四位创始人年龄均为25岁 [5] - 4个月内ARR从1亿增至3亿美元,团队规模不足50人 [5] - 每日编写代码量达10亿行,工程师人均处理2万笔交易/秒 [3][7] 产品技术突破 - 通过Claude 3.5 Sonnet实现跨文件编辑能力跃升,推动产品大规模普及 [15][16] - 后台Agent功能支持异步任务处理,可完成90%工作后由开发者完善剩余部分 [23] - 采用"用Cursor构建Cursor"的递归开发模式,通过内部使用驱动产品迭代 [20][21] - 代码生成工具在用户中渗透率超90%,Tab功能完成70%手动编码内容 [39] 行业范式变革 - 开发者效率提升10倍,正在重构软件开发范式 [12] - 代码编写将遵循"AI生成+人类审核"模式,预计2027年AI参与度近100% [38][39] - 软件验证成为下一瓶颈,需解决代码审查与隐性知识获取难题 [24][27] - 代码结构趋向扁平化,API设计显性适配模型处理需求 [32] 核心竞争优势 - 专注开发者生产力工具赛道,拒绝盲目扩张保持小团队高效运作 [6] - 获得OpenAI领投的800万美元种子轮融资,形成战略联盟 [6] - 产品技术深度整合Claude系列模型,持续优化代理编码能力 [34][35] - 通过严格限制团队规模(<50人)维持极高人均产出效率 [5][7] 未来发展方向 - 重点突破大型代码库理解能力,解决数百万文件级别的复杂场景 [27][28] - 探索软件自适应进化,实现系统根据用户交互实时调整功能 [41] - 深化非技术因素整合,如销售端需求与代码决策的关联 [30] - 持续优化模型在工具链集成、环境迁移等方面的工程实践 [26]
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 10:25
AI生成代码的特性分析 - AI生成的代码缺乏上下文记忆和维护连续性,一诞生就处于"他人旧作"的状态 [1] - AI生成的代码具有"无状态"特性,无法真正理解作者意图或拥有时间点记忆 [3] - 每次AI生成的代码都像是"由别人写的",跳过了"新代码"阶段直接进入"旧代码"模式 [5] 代码生命周期与维护行为 - 代码演进速度取决于编写时间远近和维护者是否为原作者 [1] - 人类维护者对不同时期代码的四种典型态度:近期自写代码最易改进,他人旧代码最不愿改动 [4] - 遗留代码的本质是支撑代码的"理论"随原作者离开而失传,仅保留低保真表达的代码和文档 [8] 行业解决方案与发展趋势 - 开发者尝试通过精心构造提示、设计上下文窗口和详细注释来弥补AI缺陷 [5] - Chain of Thought技术可能解决AI无状态问题,通过重新激活上下文理解代码 [10] - 未来代码可能更依赖模型推理和提示生成,而非长期维护的静态结构 [5] LLM时代的理论构建探讨 - LLM可能隐含某种尚未被理解的"程序理论",或能从代码中逐步构建理论 [12] - 技术债管理新思路:保存Prompt可帮助理解代码存在原因,优于人类记忆 [10] - 理论掌握权可能转移至写prompt的人而非写代码的人 [12] 行业观点与讨论 - 软件开发本质是开发者集体心智构建的"理论",代码只是其低保真表达 [8] - 人类开发者常通过"时代写法"解释代码,部分确实反映历史约束条件 [9] - 代码提示生成可能成为短期/中期的过渡桥梁,而非长期维护对象 [6]