模型发布与核心能力 - Anthropic正式发布最新模型Claude Opus 4.5,该模型在编程、智能体以及计算机操作方面表现卓越,是当今世界最优秀的模型[1][2] - 模型在深度研究、处理幻灯片与电子表格等日常任务上有显著提升,标志着AI系统化能力的进一步跃升[2] - 在真实世界软件工程测试中达到行业SOTA水平,超越了GPT-5.1-Codex-Max、Gemini 3 Pro以及自家Sonnet 4.5[2] 定价与平台更新 - Claude Opus 4.5的最新定价为每百万Token 5/25美元(输入/输出),与上代Opus 4.1相比,API定价降低了2/3[5] - 模型可通过Claude app、API及三大主流云平台访问,开发者使用claude-opus-4-5-20251101即可调用[5] - 同步更新了Claude开发者平台、Claude Code及消费者应用,推出了适用于更长时长运行的智能体新工具,长对话不再轻易遇到限制[6] - Claude Code现已登陆桌面应用,支持并行运行多个会话,Plan Mode获得升级,可自主开展工作[7] - Max、Team和Enterprise用户可直接在Excel中使用最新模型[8] 性能基准测试表现 - 在一项极其困难的居家测试中,Claude Opus 4.5的得分超过了所有参加过该测试的人类候选人[11] - 在智能体编程(SWE-bench Verified)基准测试中达到80.9%,优于Sonnet 4.5的77.2%和Opus 4.1的74.5%[12] - 在智能体终端编程(Terminal-bench 2.0)基准测试中达到59.3%,优于Sonnet 4.5的50.0%和Opus 4.1的46.5%[12] - 在解决新型问题(ARC-AGI-2)基准测试中达到37.6%,显著优于Sonnet 4.5的13.6%[12] - 在Aider Polyglot基准上相比Sonnet 4.5实现了10.6%的提升[14] - 在Vending-Bench基准中相较于Sonnet 4.5实现了29%的提升,长程任务稳定性更强[20] - 在SWE-bench Multilingual基准中,于8种编程语言中的7种上表现领先[12] 智能体与效率提升 - 模型具备创造性解决问题能力,如在τ²-bench测试中通过先升级舱位再修改航班的合法方式解决旅客改签请求,超出基准预设范围[26][28] - 通过新增的effort参数,开发者可自行决定最小化时间成本或最大化模型能力[30] - 在中等effort设定下,输出token使用量相比前代减少76%;在最高effort设定下,表现比Sonnet 4.5高出4.3个百分点,输出token使用量仍减少48%[30] - 结合上下文管理与记忆能力,在一项深度研究评估中的表现提升了近15个百分点[34] - 模型能够管理由多个子智能体组成的团队,支持构建复杂且协调良好的多智能体系统[34] 安全性与对齐 - Claude Opus 4.5是Anthropic迄今发布的在对齐方面最为稳健的模型,也可能是目前各家前沿模型中对齐度最高的之一[36] - 在抵御提示注入攻击方面取得实质性进展,是目前行业中最不容易被提示注入欺骗的前沿模型之一[39]
刚刚,智能体&编程新王Claude Opus 4.5震撼登场,定价大降2/3
机器之心·2025-11-24 23:49