智谱开源GLM-4.5工具调用超越Claude Opus 4.1,成本仅1.4%
量子位·2025-09-02 01:40
性能表现 - 开源模型GLM-4.5在伯克利工具使用榜单以70.85%整体准确率排名第一,超越Claude Opus 4.1的70.36% [2][3][11] - 在单轮任务中非实时准确率达86.6%,多轮任务准确率达65.62%,均保持领先水平 [3][12] - 采用MoE架构,在覆盖六大开发领域的52个实际编程任务评测中表现强劲,任务完成效果和工具调用可靠性突出 [7] 成本效率 - 运行相同任务成本仅为2.9美元,相当于Claude Opus 4.1成本207.12美元的1.4% [2][3] - 相比Grok-4模型333.24美元的成本优势显著,成本控制能力行业领先 [3][12] - 推出高性价比Claude Code套餐,价格仅为Anthropic原服务的1/7 [12] 技术特性 - 推理速度表现优异,平均延迟仅2.73秒,比Claude Opus 4.1快3倍,比GPT-5快5倍 [3][10] - 已接入Claude Code、Cline、Gemini CLI等8款主流编程工具,全面支持日常开发流程 [15] - 在前端开发、跨文件修改、全栈项目构建等场景展现卓越能力 [5] 行业地位 - 编程能力接近行业标杆Claude Sonnet 4,在编码性能方面形成直接竞争 [6][8] - 在伯克利工具调用排行榜超越Claude 4、Grok-4等知名模型,确立技术领先地位 [11] - 成为开源领域重要竞争者,在工具使用榜单上击败多款闭源模型 [2][3]