突发,Claude Opus 4.5编程世界第一,把谷歌OpenAI踢下王座
36氪·2025-11-25 03:33

产品发布与市场定位 - Anthropic深夜发布Claude Opus 4.5,该模型被定位为全球最顶尖的模型,尤其在编程、智能体和计算机使用能力方面表现一流 [1] - 此次发布标志着AI圈完成了一次闭环式迭代,编程王座一夜易主,对发布仅一周的Gemini 3 Pro和GPT-5.1形成了降维打击 [1][3][14] - 公司研究员Adam Wolff豪言,预计在明年上半年,软件工程将彻底终结 [16] 核心性能表现 - 在SWE-bench Verified基准测试中,Opus 4.5得分80.9%,高于Sonnet 4.5的77.2%、Opus 4.1的74.5%、Gemini 3 Pro的76.2%和GPT-5.1的77.9% [2][23] - 在Agentic terminal coding测试中,Opus 4.5得分59.3%,显著优于Sonnet 4.5的50.0%、Opus 4.1的46.5%和Gemini 3 Pro的54.2% [2][23] - 在Novel problem solving的ARC-AGI-2评估中,Opus 4.5取得37.6%的高分,远超Sonnet 4.5的13.6%、Gemini 3 Pro的31.1%和GPT-5.1的17.6% [2][4][23] - 在Aider Polyglot测试中,Opus 4.5比Sonnet 4.5提升了10.6% [28] - 在Vending-Bench基准上,Opus 4.5的整体收益比Sonnet 4.5高出29% [34] 生产力提升与内部评估 - Anthropic内部18名员工评估显示,使用Opus 4.5 + Claude Code后,平均生产率提升达220% [8][9] - 50%的用户报告生产力提升了至少100%,11%的用户将该模型描述为“近乎完整的入门级研究人员替代者” [9][10] - 结合新技术,Opus 4.5在深度研究评估中的表现提升了近15% [56] 定价策略与成本效益 - Opus 4.5的定价为输入5美元/百万token,输出25美元/百万token,相较于Opus 4.1和Opus 4的15美元/百万token输入和75美元/百万token输出,价格大幅下降 [11][13] - 通过新增的effort参数,在“中等”投入度下,Opus 4.5在SWE-bench Verified上的得分与Sonnet 4.5最高分持平,但输出Token减少了76% [53] - 在“最高”投入度下,Opus 4.5表现超越Sonnet 4.5达4.3%,同时Token消耗仍减少了48% [53] - 启用工具搜索工具后,Token使用量减少了85% [62] 安全性与稳健性 - Claude Opus 4.5是Anthropic迄今为止发布的最稳健、最对齐的模型,也被认为是目前所有AI模型中对齐程度最高的基准模型 [40] - 在抵御提示词注入攻击方面,Opus 4.5取得了实质性进展,比业内任何其他前沿模型都更难被欺骗 [43][45] 平台与工具更新 - 发布了Claude开发者平台、Claude Code以及消费者端App的更新,为长时间运行的智能体提供了新工具 [21] - Claude Code新增“计划模式”,能构建更精确的计划并更彻底地执行,现已在桌面端App上线,支持并行运行多个会话 [47] - 对于Claude App用户,长对话不再因上下文限制而中断,Claude会根据需要自动总结之前的上下文 [48] - Claude for Chrome现已向所有Max用户开放,Claude for Excel将Beta测试权限扩展至所有Max、Team和Enterprise用户 [48] - 开发者平台更新了三大工具使用功能:工具搜索工具、程序化工具调用和工具使用示例 [58][59] 行业合作伙伴反馈 - GitHub方面表示,Opus 4.5在内部代码基准测试中表现优异,同时将代币使用量减少了一半,尤其适用于代码迁移和代码重构 [73] - 有公司指出,使用Opus 4.5后,工具调用错误和构建/代码检查错误减少了50%到75% [84] - 在Excel自动化和财务建模方面,有公司内部评估的准确性提高了20%,效率提升了15% [75] - 在处理复杂3D可视化任务上,有公司表示此前需要其他模型耗时2小时的任务,现在仅需半小时即可完成 [79]