Workflow
GB200 NVL72芯片
icon
搜索文档
4倍速吊打Cursor新模型,英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦,实测被曝性能“滑铁卢”?
36氪· 2025-10-31 12:16
产品发布与核心特性 - Cognition公司推出全新高速AI编码模型SWE-1 5,该模型专为软件工程任务中的高性能与高速度而设计,现已在Windsurf代码编辑器中开放使用 [1] - SWE-1 5是一款拥有数千亿参数的前沿规模模型,旨在同时提供顶尖性能与一流速度,其最显著的特点是原始速度,处理速度最高可达950 token/秒 [2] - 在Scale AI的SWE-Bench Pro基准测试中,SWE-1 5取得了40 08%的成绩,接近当前最佳水平(near-SOTA)的编码性能 [4] - 该模型并非单一模型,而是模型本身、推理过程与智能体框架协同设计的统一系统,以此同时实现高速与智能 [10] 性能优势与技术合作 - 得益于与推理服务提供商Cerebras的合作,SWE-1 5的运行速度最高可达Anthropic旗下Sonnet 4 5模型的13倍,是Haiku 4 5模型的6倍 [1][2] - 与竞争对手Cursor推出的Composer模型(生成速度为250 token/秒)相比,SWE-1 5的最高速度950 token/秒是其接近4倍 [14] - 通过合作部署优化措施,包括训练优化的草稿模型以实现更快的投机解码,以及构建定制化请求优先级系统,使端到端智能体交互过程更流畅 [2] - 公司将此前需20秒的某类任务完成时间控制在5秒以内,认为5秒是避免陷入“半异步死亡谷”的关键阈值 [2] 基础设施与训练方法 - SWE-1 5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,声称可能是首个基于新一代GB200芯片训练的公开生产级模型 [8] - 与相同数量的英伟达H100 GPU相比,GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍,成本和能耗最多可降低25倍 [8] - 模型的训练是在公司定制的Cascade智能体框架上,通过端到端强化学习完成的,并借助了由上千颗GB200芯片组成的集群 [8][10] - 公司为训练手动创建了一个数据集,力求还原真实场景下任务与编程语言的广泛分布,并设计了包含三种评分机制的高保真度编码环境 [9] 产品集成与内部应用 - 公司于今年7月收购开发工具Windsurf,并通过将SWE-1 5直接集成到Windsurf IDE中,逐步实现新愿景 [1][10] - 当模型运行速度提升后,公司重写了代码检查、命令执行流水线等核心组件,每一步操作的开销最多降低了2秒,并计划持续优化 [4] - 公司团队的众多工程师已将SWE-1 5作为日常工作工具,应用场景包括深度探索与理解大型代码库、构建端到端的全栈应用程序等 [7] - 公司高度依赖内部真实场景的“内部测试使用”来指导调优决策,以此围绕用户体验对智能体与模型进行调优 [11] 行业竞争与战略定位 - SWE-1 5的发布与Cursor推出Composer模型表明,AI开发者工具市场出现明确的战略趋同,两家公司都在构建高度集成、低延迟的开发者体验 [13] - 两家公司都大规模采用强化学习技术,并认同需要结合自有定制工具与真实场景对模型进行微调,才能打造真正高效的编码智能体 [13] - 公司此举似乎在押注:即便没有推出市场上参数规模绝对最大的模型,这种高度集成的高速体验也能培养出一批忠实用户 [12] - 两家公司均对新模型的基础架构保密,仅提及基于“领先的开源基础模型”构建,这种保密性使得独立评估难以开展 [13]
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?
AI前线· 2025-10-31 05:42
SWE-1.5模型性能与特点 - Cognition推出全新高速AI编码模型SWE-1.5,专为软件工程任务的高性能与高速度设计,现已在Windsurf代码编辑器中开放使用[2] - 模型处理速度最高可达950 token/秒,是Anthropic旗下Haiku 4.5模型的6倍、Sonnet 4.5模型的13倍[3] - 该模型能够将此前需20秒的某类任务完成时间控制在5秒以内,帮助开发者保持“心流状态”[4] - 在Scale AI的SWE-Bench Pro基准测试中,SWE-1.5取得40.08%的成绩,仅次于Claude Sonnet 4.5的43.60%[6] - 模型经过专门设计,拥有数千亿参数,旨在同时提供顶尖性能与一流速度[3] 技术合作与优化 - 得益于与推理服务提供商Cerebras的合作,SWE-1.5实现了极佳的延迟表现[3] - 合作举措包括训练优化的草稿模型以实现更快的投机解码,以及构建定制化请求优先级系统[3] - 当模型速度提升后,公司重写了代码检查、命令执行流水线等核心组件,每一步操作开销最多降低2秒[6] - 公司计划在优化工作上持续投入,相关改进也将助力Windsurf中其他所有模型的性能提升[14] 训练基础设施与方法 - SWE-1.5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,可能是首个基于新一代GB200芯片训练的公开生产级模型[10] - 与相同数量的英伟达H100 GPU相比,GB200 NVL72在LLM推理工作负载方面性能最多可提升30倍,成本和能耗最多可降低25倍[10] - 模型的训练是在Cognition定制的Cascade智能体框架上,通过端到端强化学习完成的[10] - 公司手动创建数据集还原真实场景任务分布,并设计包含三种评分机制的高保真编码环境以提升模型编码能力[11] 产品集成与内部应用 - 通过将SWE-1.5直接集成到Windsurf IDE中,Cognition正逐步实现新愿景[13] - SWE-1.5并非单一模型,其模型本身、推理过程与智能体框架经过协同设计,共同构成一个统一系统[13] - 公司众多工程师已将SWE-1.5作为日常工作工具,应用场景包括深度探索大型代码库、构建端到端全栈应用程序等[9] - 处于测试阶段的Codemaps功能由SWE-1.5提供支持[9] 市场竞争与战略定位 - SWE-1.5发布之际,AI编码工具Cursor也推出专属高速模型Composer,两者战略趋同[17] - SWE-1.5处理速度最高950 token/秒,是Composer模型250 token/秒的接近4倍[18] - 两家公司都在大规模采用强化学习技术,并减少对第三方API的依赖[17] - Cognition押注高度集成的高速体验能培养忠实用户,即便没有推出参数规模最大的模型[15] 用户反馈与市场反应 - AI专家Simon Willison测试后表示模型感觉非常快,与Cerebras合作是明智举措[18] - 有用户反馈SWE-1.5在处理小型任务时表现不错,但在尝试完成某项任务时失败并搞砸了所有东西[19] - 另有用户指出SWE-1.5虽然速度快,但没能解决某个问题,而Cursor的Composer模型却一次性解决了该问题[18]