Workflow
哥德尔测试
icon
搜索文档
GPT-5通过“哥德尔测试”!独创性解决博士生都得花几天时间的开放数学问题
量子位· 2025-09-25 13:00
文章核心观点 - GPT-5在解决高等数学中未解决的优化猜想方面展现出显著能力,在五道题中成功解出三道[1][2] - GPT-5不仅能够复现已知证明路径,甚至对其中一道题给出了与研究者预期不同但同样有效的证明方案[2][39] - 该测试表明GPT-5具备解决真正开放性数学问题的潜力,其数学推理能力相比早期模型有显著提升[5][26] 测试背景与性质 - 此次测试被称为“哥德尔测试”,挑战的是需要博士水平研究者花费数天才能完成的未解决数学猜想,而非为人类高中生设计的奥林匹克竞赛题[3][8][10] - 测试问题集中于组合数学的子领域——子模最大化,该领域核心是研究边际收益递减的优化问题[12][13][16] - 测试要求模型在仅提供最小化描述和参考文献、无解题提示的情况下,自主生成包含可量化性能保证的严格数学证明[21][24] GPT-5在各题目的具体表现 - **第一题(最大化“单调+非单调”子模函数)**:GPT-5沿最“贪心”方向微调解,利用函数结构保证结果接近最优,证明总体正确[22][23][27] - **第二题(子模函数最大化的双重标准算法)**:GPT-5给出的答案比研究者最初猜想更合理,推导基本正确,但存在忽略特例下更精确数字的小问题[33][39][40] - **第三题(凸集合约束下最大化连续单调函数)**:GPT-5回答正确性较高,但在被要求生成新证明版本时,仍存在细节和可读性问题[45][59][62] - **第四题与第五题**:GPT-5均未成功,这两题需要结合至少两个不同文献的洞见,其综合推理能力是主要局限之一[26][63][73][81] 模型能力评估与局限 - GPT-5在基础数学能力上显示出明显提升,并偶尔展现独创性,但输出可能表面上正确而本质上错误,存在深层次缺陷[26] - 提示词对性能影响显著,当被要求提供完整证明时,GPT-5更倾向于保留中间步骤,生成更完整和自洽的解答[26] - 模型倾向于跳过未变步骤并严格模仿原始结构,而非寻求更自然的替代方法,类似人类的偷懒行为[26][41]
刚刚,GPT-5首次通过“哥德尔测试”,破解三大数学猜想
36氪· 2025-09-25 07:36
核心观点 - GPT-5在组合优化领域的数学推理能力取得重大突破,首次通过「哥德尔测试」,成功破解三大数学猜想,并能在某些情况下自主推翻原有猜想,提供新的有效解法[1][8][31] - 该研究标志着AI正从学习数学向真正进行数学研究的关键跨越,为未来科研范式变革提供了预演[8] - 尽管在明确、单一的推理路径上表现出色,但GPT-5在需要整合不同证明的复杂问题上仍存在短板,缺乏「整合性推理」能力[41][44] 研究背景与设计 - 研究由海法大学和思科主导,首次让AI直面「开放性数学猜想」的挑战,模拟了数学家从少量线索出发独立探索的真实研究场景[3][14][18] - 研究团队设计了五项「组合优化」领域的测试任务,每个问题仅提供最小化描述和1-2篇参考文献,难度设定为优秀本科生或研究生有望在一天内解决[14][15][16] - 与陶哲轩此前需要大量提示的合作模式不同,此次测试没有提供大量提示或指导,旨在评估AI的独立推理能力[14] GPT-5具体表现 - 在三个相对简单的问题上,GPT-5给出了近乎完美的解法,证明了其强大的逻辑推理水平[4] - 在猜想一(「单调+非单调」的子模函数最大化)中,GPT-5套用连续Frank-Wolfe思路,得到了至少约63%的G(o)加上37%的H(o)的拆分保证[22] - 在猜想二(p-system约束下的「双指标」算法)中,GPT-5提出了一个朴素而有效的流程,通过多轮贪心选集将价值推到1−ε,甚至推导出不同的近似保证,推翻了原有猜想[26][31] - 在猜想三(γ-弱DR子模+凸约束的最大化)中,GPT-5使用Frank-Wolfe方法,将经典的1−1/e近似比提升为更一般的1−e^{−γ}[36] - 在五道题中,GPT-5有三道能给出几乎正确的证明,但在需要结合不同证明的题目(如猜想四和五)上表现不佳[41]