Workflow
自我进化
icon
搜索文档
大幅降价、无限聊天、编码能力超越人类专家,Claude Opus 4.5重夺最强模型王冠
36氪· 2025-11-25 01:48
模型性能表现 - Claude Opus 4.5在SWE-bench Verified软件工程基准测试中达到80.9%的准确率,超越OpenAI的GPT-5.1-Codex-Max(77.9%)和谷歌的Gemini 3 Pro(76.2%)[1][5] - 在Agentic coding测试中,Claude Opus 4.5表现优异,而GPT-5.1在Agentic coding单项达到76.3%[1] - 新模型在Graduate-level reasoning测试中得分87.0%,在Visual reasoning MMMU测试中达到80.7%,在Multilingual Q&A测试中达到90.8%[1] - 在Anthropic内部高难度工程评估中,Claude Opus 4.5采用“并行测试时计算”技术后得分超越所有曾参与测试的人类工程师,在专用编码环境中表现与史上最高分人类工程师持平[9] 效率与成本优化 - Anthropic大幅下调Claude Opus 4.5定价,输入token降至每百万5美元,输出token为每百万25美元,较前代产品Claude Opus 4.1(输入15美元/百万,输出75美元/百万)下降约三分之二[5] - 在“中等”投入级别下,Opus 4.5在SWE-bench Verified测试中达到与Sonnet 4.5相同最高分,输出token消耗量大幅降低76%,在“高”投入级别表现提升4.3个百分点同时token使用量减少近一半(48%)[10] - GitHub早期测试表明,Opus 4.5在token消耗减半的同时性能仍超越内部编码基准,尤其在代码迁移与重构等复杂任务上表现出色[10] 技术能力与创新 - Claude Opus 4.5展现出更强的判断力与直觉,在处理现实问题时表现出质的跨越,能够生成高度契合的连贯摘要[6] - 模型具备自我进化能力,通过持续优化解决问题的工具与方法提升任务技能,在专业文档生成、电子表格处理和演示文稿制作等场景表现显著提升[11] - Anthropic推出“无限聊天”功能,通过智能总结长对话早期内容有效突破传统上下文窗口限制,实现近乎无限的对话效果[12] - 面向开发者推出“程序化工具调用”能力,使Claude能直接编写并执行可调用外部函数的代码,Claude Code升级“计划模式”并推出支持并行运行多个AI智能体会话的桌面客户端[12] 行业竞争与市场影响 - AI模型迭代速度加快,Opus 4.5距前代Haiku 4.5和Sonnet 4.5发布仅相隔数周,2025年间OpenAI持续推出多个GPT-5变体,谷歌在11月中旬正式推出Gemini 3[13] - Anthropic利用AI技术反哺自身研发,Claude本身为产品构建和模型研究提供助力,显著加速开发进程[13] - 降价策略旨在推动更多初创公司深度集成并主推其技术,从而扩大市场基础,尽管AI市场预计十年内将突破万亿美元规模,但主要实验室盈利之路依然漫长[13]
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 09:22
核心观点 - Alita是一款基于「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式实现自主思考、搜索和创造MCP工具[1][5][14] - Alita在GAIA基准测试中表现卓越,pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research和Manus等竞争对手[3][22] - Alita的动态MCP工具创建能力使其在复杂任务中展现出超越预定义工具系统的灵活性与创造力[6][7][19] 技术架构 设计理念 - 最小化预定义:仅内置Manager Agent和Web Agent作为核心组件,避免人工预设工具库[13][14] - 最大化自进化:通过MCP协议动态生成、优化和复用工具,实现持续演化[14][16] 核心模块 - MCP Brainstorming模块:分析任务需求并生成能力缺口描述与工具构建建议[17] - 脚本生成模块:结合网页检索结果实时创建可执行的MCP工具代码[17] - 代码运行与验证模块:在虚拟环境测试工具并实现自我优化[17] 性能表现 GAIA基准 - Validation测试pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research的67.36%[3][22] - Mathvista数学推理测试pass@1达74%,PathVQA医学图像识别达52%[22] 跨模型赋能 - 其生成的MCP工具可使Open Deep Research-smolagents准确率从27.88%提升至33.94%[30] - GPT-4o-mini模型复用MCP后准确率从21.82%提升至29.09%,Level 3任务提升3倍[30] 创新应用 动态工具创建案例 - 针对PPT页码提取任务,动态生成专用处理工具而非依赖预设文本转换工具[19] - 在视频理解任务中创建逐帧分析MCP,突破字幕抓取工具的局限性[19][20] MCP复用价值 - 实现智能体蒸馏新范式,降低传统蒸馏成本[27] - 通过工具复用使单次尝试(pass@1)达到近似多次尝试(pass@N)的效果[28]