Claude 4.5 杀疯了,能一口气写出一万多行代码… | 极客时间
AI前线·2025-12-22 05:01

Anthropic发布Claude Sonnet 4.5模型 - Anthropic正式发布Claude Sonnet 4.5,将其定位为“世界上最好的编码模型”和“构建复杂智能体的最强模型”[2] - 在客户测试中,Claude 4.5能连续专注工作超过30小时,而上一代模型的数据是7小时[2] - 其编程能力显著提升,以前是代替1个程序员,现在可以代替4个程序员[2] Claude Sonnet 4.5的性能表现 - 该模型能连续敲出约11,000行代码,快速开发出一款聊天应用[3] - 在Agentic coding SWE-bench Verified基准测试中,Claude Sonnet 4.5得分为77.2%,高于Claude Opus 4.1的74.5%、Claude Sonnet 4的72.7%以及GPT-5的72.8%[3] - 在Agentic terminal coding Terminal-Bench测试中,Claude Sonnet 4.5得分为50.0%,高于Claude Opus 4.1的46.5%、Claude Sonnet 4的36.4%、GPT-5的43.8%以及Gemini 2.5 Pro的25.3%[3] - 在Agentic tool use t2-bench测试中,针对零售、航空和电信场景,Claude Sonnet 4.5得分分别为86.2%、70.0%和98.0%[3] - 在Computer use OSWorld测试中,Claude Sonnet 4.5得分为61.4%[3] - 在High school math competition AIME 2025测试中,Claude Sonnet 4.5得分为87.0%[3] - 在Graduate-level reasoning GPQA Diamond测试中,Claude Sonnet 4.5得分为83.4%[3] - 在Multilingual Q&A MMMLU测试中,Claude Sonnet 4.5得分为89.1%[3] - 在Visual reasoning MMMU (validation)测试中,Claude Sonnet 4.5得分为77.8%[3] - 在Financial analysis Finance Agent测试中,Claude Sonnet 4.5得分为55.3%[3] AI编程工具的发展与影响 - 在编程速度和开发能力上,人类与AI的差距会越来越大[3] - 行业对AI的态度应从竞争对抗转向合作共赢[3] - 除了Claude,市面上好用的AI编程工具还有Cursor,但两者使用门槛都很高[4] - 有硅谷工程师在日常工作中,70%以上的代码直接由AI完成[15] - 该工程师认为AI编程体验类似于L2阶段的自动驾驶:用户给出方向,系统自动执行,仅在复杂或偏离时需人工接管,工作重点从关注每一行代码转向关注结构、目标和约束[15] AI编程学习资源与案例 - 有学习资料提供了具体的项目代码示例,例如一个名为“excaliapp”的项目,其包含React前端和Rust后端的完整目录结构[10] - 部分视频教程选择了有代表性的实操案例,内容涵盖从功能实现到技术选型与AI协作的思维模式升级[11]