SATLUTION

搜索文档
英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
36氪· 2025-09-11 04:01
AI 开发复杂软件的时代即将到来? 为此,NVIDIA Research 的研究人员提出了 SATLUTION,首个将 LLM 代码进化能力从「算法内核」扩展到「完整代码库」规模的框架。SATLUTION 能够处理包含数百个文件、数万行 C/C++ 代码的复杂项目,并在被誉为「计算理论基石」的布尔可满足性(SAT)问题上,取得了超越人类世界冠军的 性能。 近年来,以 Google 的 AlphaEvolve 为代表的研究已经证明,AI 智能体可以通过迭代来优化算法,甚至在某些小型、独立的编程任务上超越人类。然而, 这些工作大多局限于几百行代码的「算法内核」或单个文件。 但现实世界的软件,比如一个顶级的 SAT 求解器,是一个庞大而复杂的系统工程,包含数百个文件、精密的编译系统和无数相互关联的模块。手动打造 一个冠军级求解器不仅需要极高的领域知识,而且投入产出比越来越低。 论文标题:Autonomous Code Evolution Meets NP-Completeness 编码智能体:负责执行具体的开发任务。它根据规划智能体的蓝图,直接对 C/C++ 求解器代码库进行编辑和实现。其职责还包括管理辅助任务,例 ...
英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
机器之心· 2025-09-11 03:36
AI软件开发突破 - NVIDIA Research推出SATLUTION框架 首次将LLM代码进化能力从算法内核扩展到完整代码库规模 可处理包含数百个文件、数万行C/C++代码的复杂项目[3] - 该系统在布尔可满足性(SAT)问题上取得突破 进化出的求解器在2025年SAT竞赛中击败人类设计冠军 并在2024年基准测试集上同时超越2024和2025年两届冠军[5] - 实验显示SATLUTION在70个进化周期内实现稳健性能提升 第50次迭代时已优于2025年人类冠军 总成本低于20000美元 远低于人类专家数月到数年的开发投入[19][21] 技术架构特点 - 采用双智能体协同架构:规划智能体负责高层次战略制定和修改方向分析 编码智能体负责具体代码编辑和构建系统管理[10] - 配备动态规则系统 包含初始静态规则(编码领域知识和硬性约束)和可自我进化的规则库 能根据失败经验自动添加禁止代码模式[11][12] - 建立严格的两阶段验证流程:第一阶段进行编译和115个简单CNF实例的基本功能测试 第二阶段在更大基准测试集上进行完整正确性验证[14] 性能评估体系 - 通过验证的求解器会部署到800个CPU节点集群 在包含400个实例的SAT Competition 2024基准测试集上进行并行评估[15] - 评估过程仅需约一小时完成 提供近乎实时的性能反馈 包括已解决实例数量、内存使用情况和核心PAR-2分数指标[15] - 性能衡量采用PAR-2分数(越低越好) SATLUTION进化出的求解器家族分数显著低于2025年人类冠军和亚军[7] 行业应用前景 - 该技术突破表明AI开发复杂软件的时代即将到来 能处理现实世界中庞大而复杂的系统工程[1][3] - 框架具备处理精密编译系统和无数相互关联模块的能力 在被誉为"计算理论基石"的NP完全问题上展现强大潜力[3][4] - 系统在迭代过程中同步自我进化其进化策略与规则 展现出高度稳定性和持续优化能力[4][19]