AI引导的演化搜索
搜索文档
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
36氪· 2025-11-07 07:40
文章核心观点 - AI工具AlphaEvolve作为数学发现的新范式,在可扩展性、鲁棒性和可解释性方面优于传统工具,并能自主发现新颖的数学构造,部分成果已超越人类最优结果[1][3][5] AlphaEvolve的测试范围与性能 - 在67个数学问题的测试中,涵盖组合数学、几何、数学分析与数论等多个领域[3] - 性能在可扩展性、鲁棒性、可解释性方面均优于传统工具[5] AI自主发现与超越人类成果 - 能够自主发现人类未曾一窥的新数学构造,例如在处理Nikodym集问题时为人类研究者提供直觉跳板[6] - 在算术Kakeya猜想中,将一个已知的下界从1.61226提升至1.668[10] - 其构造的解启发人类数学家建立了新的渐近关系[10] 人机协作成果 - 基于AI提供的结构,研究人员通过人工简化和直觉推演,改进了已知的上界,成果将作为独立数学论文发表[7] - 相关成果也即将发表[10] 结果的可解释性 - 系统生成结构清晰的程序代码,而非黑盒结果,便于人类专家分析归纳[10] - 在积木堆叠问题中,系统最终程序揭示了最优解与谐波数之间的数学关系,与人类已知理论一致[14] 系统的鲁棒性与泛化能力 - 研究人员设计了基于利普希茨连续性的更鲁棒的新评分函数,使系统迅速收敛到正确的理论最优解[19] - 在IMO 2025第6题测试中,系统仅基于完全平方数n的输入,成功发现并输出在所有完全平方数n上均达到最优的通用构造,展现出归纳能力[20][21] 应用效率与架构 - 仅需少量高质量提示即可驱动,领域专家的提示能显著提升最终构造质量[23] - 架构支持并行化,允许在多个问题实例上同时运行探索,并能自动迁移成功的搜索策略[23] AlphaEvolve的工作模式 - 主要在“搜索模式”和“泛化模式”下运行[24] - “搜索模式”演化用于搜索构造的程序(即搜索启发式算法),解决LLM调用缓慢与局部搜索快速之间的差异[24] - 系统演化一系列动态适应搜索进程的“改进器”函数[25] - “泛化模式”目标是编写能解决任意参数n的通用程序,期望系统通过观察小规模n的最优解,自主发现并归纳出通用公式或算法[26]
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
量子位· 2025-11-07 05:32
核心观点 - AlphaEvolve被数学家陶哲轩称为数学发现的有力新工具,展示了AI在数学研究领域的强大能力 [1][2] 测试范围与成果 - 系统在67个数学问题上进行了测试,涵盖组合数学、几何、数学分析与数论等多个领域 [4] - 系统不仅复现了众多已知最优解,更关键的是能够自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果 [5][6][7] 自主发现与人机协作 - 在处理Nikodym集问题时,系统生成的构造为人类研究者提供了极好的直觉跳板,研究人员通过人工简化最终找到了更优构造,改进了已知上界,相关成果将作为独立数学论文发表 [8] - 在算术Kakeya猜想中,系统将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将发表 [12] 系统特性优势 - 系统在可扩展性、鲁棒性、可解释性方面均优于传统工具 [9] - 系统生成的是结构清晰的程序代码,而非难以理解的黑盒结果,使得人类专家可以方便地分析、归纳其发现的模式 [12] - 在积木堆叠问题中,系统自主将递归程序重构为更简洁高效的显式程序,清晰揭示了最优解与谐波数之间的数学关系,与人类已知理论公式一致 [13][17] 鲁棒性与泛化能力 - 系统能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数 [21] - 在最小三角形密度问题中,系统能适应从朴素评分函数切换到基于利普希茨连续性的更复杂连续评分函数,并迅速收敛到正确的理论最优解 [24][25] - 在IMO 2025第6题测试中,系统仅在输入n为完全平方数时被评分,这种信息限制迫使其寻找稀疏实例背后的共同结构模式,最终成功发现并在所有完全平方数n上均达到最优的通用构造,展现了归纳能力 [26][27][29] 效率与工作模式 - 系统效率极高,仅需少量高质量提示即可驱动,且对人类专家的输入具有高度敏感性,支持并行化架构以同时运行多个问题探索 [31] - 系统主要在两种模式下运行:"搜索模式"演化的是用于搜索构造的"搜索启发式算法"程序,解决了LLM调用缓慢与局部搜索快速之间的差异 [33][34][35] - "泛化模式"更具挑战性,目标是让系统编写能解决任意参数n问题的通用程序,期望其通过观察小规模n的最优解来自主发现并归纳出通用公式或算法 [37]