产品发布与性能表现 - Anthropic发布Claude Opus 4.5模型,在编码、Agent能力和电脑操作等多项硬核能力上全面登顶评测榜,超过GPT-5.1和Gemini 3 Pro [2] - 在终端级编程能力(Agentic terminal coding)评测中,Claude Opus 4.5以59.3%的得分位列第一,超过Gemini 3 Pro的54.2%和Opus 4.1的46.5% [5] - 在SWE-bench Verified编码基准测试中,Opus 4.5达到80.9%,高于Sonnet 4.5的77.2%和GPT-5.1的77.9% [5] - 在工具使用能力(Agentic tool use)测试中,Opus 4.5在零售场景达到88.9%,在电信场景达到98.2%,均领先于其他模型 [5] - 在计算机操作能力(OSWorld)测试中,Opus 4.5达到66.3%,显著高于前代Opus 4.1的44.4% [5] - 在研究生级推理能力(GPQA Diamond)测试中,Opus 4.5达到87.0%,略低于Gemini 3 Pro的91.9%但高于GPT-5.1的88.1% [5] 技术能力突破 - Claude Opus 4.5能够直接完成工程师级别任务,包括自行寻找网络接口、调试跨系统bug、操作桌面应用、Excel和浏览器 [14] - 模型在压力测试中表现出色,在两小时的性能工程师招聘考试中获得历史最高分,超过所有人类候选者,能够读懂复杂代码库并自动找出bug来源 [16] - 在复杂业务决策方面,Opus 4.5懂得在规则限制下"迂回求解",如在航空客服场景中通过先升舱再换航班的方式解决经济舱不能改签的问题 [19] - 在长期任务稳定性方面,Opus 4.5的多步骤任务保持能力比Sonnet 4.5高出29%,几乎不会遗忘任务目标 [19] - 在视觉处理能力上,Opus 4.5是唯一能搞定最棘手3D可视化任务的模型,将过去需要两小时完成的任务缩短至三十分钟 [21] 定价策略与成本优化 - Claude Opus 4.5每百万token定价为输入5美元/输出25美元,批量API调用价格享受3折左右优惠 [9] - 具体批量定价为:Opus 4.5批量输入2.50美元/百万token,批量输出12.50美元/百万token,相比Opus 4.1的7.50美元/37.50美元大幅下降 [10] - 模型在性能提升的同时,使用的token数量还不到上一代的一半,实现了效率的显著提升 [6] 平台与工具升级 - Anthropic同步升级了开发者平台的高级工具调用能力,新增三种高级工具:Tool Search Tool、Programmatic Tool Calling和Tool Use Examples [31] - 通过程序化工具调用,Claude for Excel实现了重载计算在后台完成,大量数据不进脑也能快速运行 [26] - Claude for Excel测试权限已扩展至所有Max、Team及Enterprise用户,在Excel中可通过快捷键快速调用 [28][29]
Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1
AI前线·2025-11-25 05:03