无限对话 - 财报，业绩电话会，研报，新闻

无限对话

搜索文档

Claude Opus 4.5 全面上线，凭什么夺回 Agentic Coding 第一！

深思SenseAI· 2025-11-25 12:42

模型性能表现 - 在单提示词生成Minecraft克隆版测试中，模型生成的角色移动流畅、帧率稳定，支持正常破坏和放置方块、切换方块类型及自由飞行，完成度和可玩性接近真正可玩的沙盒游戏[1] - 在同样的单提示词测试中，Gemini 3 Pro生成的世界无法破坏或放置方块，角色移动略显混乱，仅为基础可看的Demo[2] - 在单提示词生成乐高搭建网站测试中，模型返回完整可用的乐高模型，支持拖动视角、堆叠积木、修改颜色、删除及选择不同形状积木，达到高完成度交互应用水平[3] 效率与成本优化 - 模型引入可调effort参数（低、中、高三档），在同等任务下token消耗相较Sonnet 4.5呈指数级下降[4] - 在medium effort档位，模型追平Sonnet 4.5在SWB基准上的最佳验证分数，但输出token减少约76%；在最高effort档仍优于Sonnet 4.5，同时输出token减少约48%[6] - 模型价格下调至每100万输入token 5美元、每100万输出token 25美元，约为原价格的三分之一，整体性价比提升明显[7] 高级工具调用能力 - 模型在工具调用时不再扫描全部工具列表，而是检索与过滤后只调用与当前子任务相关的部分，显著提升效率[7] - 在解谜保险库Demo中，模型消耗约70万个token成功完成所有关卡，而Sonnet 4.5消耗约800万个token仍未完成解谜[8] - 按官方定价折算，同一任务Sonnet 4.5成本约4美元，而模型成本仅约1美元，体现成本与效率优势[8] 计算机操作能力升级 - 增强版Computer Use能力支持界面缩放，可先放大界面再操作，提升在真实桌面环境中的实用性[10] - 该能力使Agent能检查细小UI元素和复杂控件，如逐像素检查生成页面、读取小字号文本及分析结构复杂界面[10] 无限对话功能 - 无限对话机制自动对较早内容进行摘要与重写，腾出上下文空间，使同一会话线程持续推进，无需频繁新开对话[12] - 该功能显著降低长线项目（如从零共建App、持续打磨文档）的协作成本，为将大模型作为持续在线长期助手提供基础[12][13] 基准测试与竞争格局 - 在Agentic tool use测试中模型得分88.9%，高于Sonnet 4.5的86.2%和Gemini 3 Pro的85.3%[15] - 在Scaled tool use MCP Atlas测试中模型得分62.3%，显著高于Sonnet 4.5的43.8%和Opus 4.1的40.9%[15] - 在Novel problem solving ARC-AGI-2测试中模型得分37.6%，高于Gemini 3 Pro的31.1%和GPT-5.1的17.6%[15] - 模型在编码与工程类任务上保持优势，而Gemini 3 Pro在研究生级推理（得分91.9%）和多语言问答（得分91.8%）上领先[15] 目标用户与应用场景 - 模型理想用户指向专业软件开发者和知识工作者（如金融分析师、顾问、会计师），以及渴望激发创造力、构建新事物的用户[16] - 模型在处理电子表格、演示文稿等办公任务及执行深度研究方面有显著提升，可参与需求梳理、方案设计、实现与跟进的全流程[16]