深夜炸场,Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败
36氪·2025-09-30 08:43
双节小长假将近,国内国外大模型公司闻风而动,赶在正式放假前让众人"小卷"一波。这不,继昨晚 DeepSeek 发布 DeepSeek V3.2-Exp之后,Anthropic 又在今天带来了全新升级的 Claude Sonnet 4.5 版本,号称"世界上最好的编码模型"。 最强的编码模型 Claude Sonnet 4.5 来了:可自主持续运行 30 小时 根据官方测试结果显示,Claude Sonnet 4.5 在 SWE-bench Verified 评测里拿下了顶级成绩,这个测试主要看模型在真实世界里写代码的水平。 同时,Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出,在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远超过更昂贵 的 GPT-5、Gemini 2.5 Pro 等竞品模型。 | | Claude | Claude | Claude | GPT-5 | Gemini | | --- | --- | --- | --- | --- | --- | | | Sonnet 4.5 | Opus 4.1 | ...