Workflow
无限对话
icon
搜索文档
Claude Opus 4.5 全面上线,凭什么夺回 Agentic Coding 第一!
深思SenseAI· 2025-11-25 12:42
模型性能表现 - 在单提示词生成Minecraft克隆版测试中,模型生成的角色移动流畅、帧率稳定,支持正常破坏和放置方块、切换方块类型及自由飞行,完成度和可玩性接近真正可玩的沙盒游戏[1] - 在同样的单提示词测试中,Gemini 3 Pro生成的世界无法破坏或放置方块,角色移动略显混乱,仅为基础可看的Demo[2] - 在单提示词生成乐高搭建网站测试中,模型返回完整可用的乐高模型,支持拖动视角、堆叠积木、修改颜色、删除及选择不同形状积木,达到高完成度交互应用水平[3] 效率与成本优化 - 模型引入可调effort参数(低、中、高三档),在同等任务下token消耗相较Sonnet 4.5呈指数级下降[4] - 在medium effort档位,模型追平Sonnet 4.5在SWB基准上的最佳验证分数,但输出token减少约76%;在最高effort档仍优于Sonnet 4.5,同时输出token减少约48%[6] - 模型价格下调至每100万输入token 5美元、每100万输出token 25美元,约为原价格的三分之一,整体性价比提升明显[7] 高级工具调用能力 - 模型在工具调用时不再扫描全部工具列表,而是检索与过滤后只调用与当前子任务相关的部分,显著提升效率[7] - 在解谜保险库Demo中,模型消耗约70万个token成功完成所有关卡,而Sonnet 4.5消耗约800万个token仍未完成解谜[8] - 按官方定价折算,同一任务Sonnet 4.5成本约4美元,而模型成本仅约1美元,体现成本与效率优势[8] 计算机操作能力升级 - 增强版Computer Use能力支持界面缩放,可先放大界面再操作,提升在真实桌面环境中的实用性[10] - 该能力使Agent能检查细小UI元素和复杂控件,如逐像素检查生成页面、读取小字号文本及分析结构复杂界面[10] 无限对话功能 - 无限对话机制自动对较早内容进行摘要与重写,腾出上下文空间,使同一会话线程持续推进,无需频繁新开对话[12] - 该功能显著降低长线项目(如从零共建App、持续打磨文档)的协作成本,为将大模型作为持续在线长期助手提供基础[12][13] 基准测试与竞争格局 - 在Agentic tool use测试中模型得分88.9%,高于Sonnet 4.5的86.2%和Gemini 3 Pro的85.3%[15] - 在Scaled tool use MCP Atlas测试中模型得分62.3%,显著高于Sonnet 4.5的43.8%和Opus 4.1的40.9%[15] - 在Novel problem solving ARC-AGI-2测试中模型得分37.6%,高于Gemini 3 Pro的31.1%和GPT-5.1的17.6%[15] - 模型在编码与工程类任务上保持优势,而Gemini 3 Pro在研究生级推理(得分91.9%)和多语言问答(得分91.8%)上领先[15] 目标用户与应用场景 - 模型理想用户指向专业软件开发者和知识工作者(如金融分析师、顾问、会计师),以及渴望激发创造力、构建新事物的用户[16] - 模型在处理电子表格、演示文稿等办公任务及执行深度研究方面有显著提升,可参与需求梳理、方案设计、实现与跟进的全流程[16]