Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友
量子位·2025-02-27 09:37
文章核心观点 - Claude 3.7 Sonnet在WebDev竞技场榜单中排名第一,其编程开发能力获得公认 [1] - Claude 3.7 Sonnet大幅领先第二名100多分,而榜单前十其他相邻模型分差仅为几分或几十分 [2] - 行业展现出AI编程能力对传统工作模式的颠覆性影响,例如过去需数天完成的工作现在AI仅需几分钟即可超越 [8] WebDev竞技场榜单排名 - WebDev榜单由LMSYS Org打造,专注于评估AI编程和网页应用开发能力 [4] - 榜单第二名是Claude 3.5 Sonnet,前十名中唯一的开源模型DeepSeek R1排名第三 [3][5] - DeepSeek R1超越了early-grok-3、o3-mini-high、Claude 3.5 Haiku等模型 [5] Claude 3.7 Sonnet技术能力实测 - 模型能够使用p5js编写布料模拟效果,此类效果在高级图形学课程中也较少教授 [8][10] - 模型可在5分钟内将27年前的Visual Basic 4应用程序的EXE文件完美转换为可运行的Python代码 [11] - 模型的新GitHub集成功能可帮助工程师理解软件,例如可视化yt-dlp的工作流程 [14][15] 行业应用与影响 - 学者证实AI几分钟内完成的布料模拟工作超越其1986年在MIT需数天完成的硕士论文成果 [8] - 用户可将古老EXE文件上传给Claude 3.7并转换为Python代码,引发网友效仿此新玩法 [11][13] - 沃顿商学院教授实测显示模型能基于故事创建小游戏和制作互动式“时光机道具” [16]