突发，Claude Opus 4.5编程世界第一，把谷歌OpenAI踢下王座

产品发布与市场定位 - Anthropic深夜发布Claude Opus 4.5，该模型被定位为全球最顶尖的模型，尤其在编程、智能体和计算机使用能力方面表现一流 [1] - 此次发布标志着AI圈完成了一次闭环式迭代，编程王座一夜易主，对发布仅一周的Gemini 3 Pro和GPT-5.1形成了降维打击 [1][3][14] - 公司研究员Adam Wolff豪言，预计在明年上半年，软件工程将彻底终结 [16] 核心性能表现 - 在SWE-bench Verified基准测试中，Opus 4.5得分80.9%，高于Sonnet 4.5的77.2%、Opus 4.1的74.5%、Gemini 3 Pro的76.2%和GPT-5.1的77.9% [2][23] - 在Agentic terminal coding测试中，Opus 4.5得分59.3%，显著优于Sonnet 4.5的50.0%、Opus 4.1的46.5%和Gemini 3 Pro的54.2% [2][23] - 在Novel problem solving的ARC-AGI-2评估中，Opus 4.5取得37.6%的高分，远超Sonnet 4.5的13.6%、Gemini 3 Pro的31.1%和GPT-5.1的17.6% [2][4][23] - 在Aider Polyglot测试中，Opus 4.5比Sonnet 4.5提升了10.6% [28] - 在Vending-Bench基准上，Opus 4.5的整体收益比Sonnet 4.5高出29% [34] 生产力提升与内部评估 - Anthropic内部18名员工评估显示，使用Opus 4.5 + Claude Code后，平均生产率提升达220% [8][9] - 50%的用户报告生产力提升了至少100%，11%的用户将该模型描述为“近乎完整的入门级研究人员替代者” [9][10] - 结合新技术，Opus 4.5在深度研究评估中的表现提升了近15% [56] 定价策略与成本效益 - Opus 4.5的定价为输入5美元/百万token，输出25美元/百万token，相较于Opus 4.1和Opus 4的15美元/百万token输入和75美元/百万token输出，价格大幅下降 [11][13] - 通过新增的effort参数，在“中等”投入度下，Opus 4.5在SWE-bench Verified上的得分与Sonnet 4.5最高分持平，但输出Token减少了76% [53] - 在“最高”投入度下，Opus 4.5表现超越Sonnet 4.5达4.3%，同时Token消耗仍减少了48% [53] - 启用工具搜索工具后，Token使用量减少了85% [62] 安全性与稳健性 - Claude Opus 4.5是Anthropic迄今为止发布的最稳健、最对齐的模型，也被认为是目前所有AI模型中对齐程度最高的基准模型 [40] - 在抵御提示词注入攻击方面，Opus 4.5取得了实质性进展，比业内任何其他前沿模型都更难被欺骗 [43][45] 平台与工具更新 - 发布了Claude开发者平台、Claude Code以及消费者端App的更新，为长时间运行的智能体提供了新工具 [21] - Claude Code新增“计划模式”，能构建更精确的计划并更彻底地执行，现已在桌面端App上线，支持并行运行多个会话 [47] - 对于Claude App用户，长对话不再因上下文限制而中断，Claude会根据需要自动总结之前的上下文 [48] - Claude for Chrome现已向所有Max用户开放，Claude for Excel将Beta测试权限扩展至所有Max、Team和Enterprise用户 [48] - 开发者平台更新了三大工具使用功能：工具搜索工具、程序化工具调用和工具使用示例 [58][59] 行业合作伙伴反馈 - GitHub方面表示，Opus 4.5在内部代码基准测试中表现优异，同时将代币使用量减少了一半，尤其适用于代码迁移和代码重构 [73] - 有公司指出，使用Opus 4.5后，工具调用错误和构建/代码检查错误减少了50%到75% [84] - 在Excel自动化和财务建模方面，有公司内部评估的准确性提高了20%，效率提升了15% [75] - 在处理复杂3D可视化任务上，有公司表示此前需要其他模型耗时2小时的任务，现在仅需半小时即可完成 [79]