刚刚，智能体&编程新王Claude Opus 4.5震撼登场，定价大降2/3

模型发布与核心能力 - Anthropic正式发布最新模型Claude Opus 4.5，该模型在编程、智能体以及计算机操作方面表现卓越，是当今世界最优秀的模型[1][2] - 模型在深度研究、处理幻灯片与电子表格等日常任务上有显著提升，标志着AI系统化能力的进一步跃升[2] - 在真实世界软件工程测试中达到行业SOTA水平，超越了GPT-5.1-Codex-Max、Gemini 3 Pro以及自家Sonnet 4.5[2] 定价与平台更新 - Claude Opus 4.5的最新定价为每百万Token 5/25美元（输入/输出），与上代Opus 4.1相比，API定价降低了2/3[5] - 模型可通过Claude app、API及三大主流云平台访问，开发者使用claude-opus-4-5-20251101即可调用[5] - 同步更新了Claude开发者平台、Claude Code及消费者应用，推出了适用于更长时长运行的智能体新工具，长对话不再轻易遇到限制[6] - Claude Code现已登陆桌面应用，支持并行运行多个会话，Plan Mode获得升级，可自主开展工作[7] - Max、Team和Enterprise用户可直接在Excel中使用最新模型[8] 性能基准测试表现 - 在一项极其困难的居家测试中，Claude Opus 4.5的得分超过了所有参加过该测试的人类候选人[11] - 在智能体编程（SWE-bench Verified）基准测试中达到80.9%，优于Sonnet 4.5的77.2%和Opus 4.1的74.5%[12] - 在智能体终端编程（Terminal-bench 2.0）基准测试中达到59.3%，优于Sonnet 4.5的50.0%和Opus 4.1的46.5%[12] - 在解决新型问题（ARC-AGI-2）基准测试中达到37.6%，显著优于Sonnet 4.5的13.6%[12] - 在Aider Polyglot基准上相比Sonnet 4.5实现了10.6%的提升[14] - 在Vending-Bench基准中相较于Sonnet 4.5实现了29%的提升，长程任务稳定性更强[20] - 在SWE-bench Multilingual基准中，于8种编程语言中的7种上表现领先[12] 智能体与效率提升 - 模型具备创造性解决问题能力，如在τ²-bench测试中通过先升级舱位再修改航班的合法方式解决旅客改签请求，超出基准预设范围[26][28] - 通过新增的effort参数，开发者可自行决定最小化时间成本或最大化模型能力[30] - 在中等effort设定下，输出token使用量相比前代减少76%；在最高effort设定下，表现比Sonnet 4.5高出4.3个百分点，输出token使用量仍减少48%[30] - 结合上下文管理与记忆能力，在一项深度研究评估中的表现提升了近15个百分点[34] - 模型能够管理由多个子智能体组成的团队，支持构建复杂且协调良好的多智能体系统[34] 安全性与对齐 - Claude Opus 4.5是Anthropic迄今发布的在对齐方面最为稳健的模型，也可能是目前各家前沿模型中对齐度最高的之一[36] - 在抵御提示注入攻击方面取得实质性进展，是目前行业中最不容易被提示注入欺骗的前沿模型之一[39]