OpenAI推理大模型

搜索文档
AI拿下奥数IMO金牌,但数学界的AlphaGo时刻还没来
36氪· 2025-08-01 02:40
AI在IMO竞赛中的表现 - OpenAI和DeepMind的AI模型均在2025年国际数学奥林匹克竞赛中达到金牌标准,得分35分(满分42分),实现从2024年银牌到2025年金牌的数学推理能力跃升 [1][6][8] - OpenAI于7月18日率先宣布成绩,DeepMind两天后公布并获得IMO官方认证,双方成绩均通过独立验证 [6][8][9] - 尽管达到金牌线,AI模型仅解出6题中的5题,而人类选手有5人获得满分,表明AI数学能力尚未全面超越人类顶尖水平 [12] 技术突破与推理能力 - DeepMind的Gemini Deep Think模型首次完全使用自然语言输入输出完成IMO题目,无需依赖形式化证明工具如Lean,标志着语言模型独立数学推理能力的重大进展 [16][20][21] - 与2024年专为数学设计的混合模型AlphaGeometry和AlphaProof(仅达到银牌标准)相比,2025年模型在自然语言处理方面实现质的飞跃 [13][16][20] - 此次突破挑战了学界"语言模型无法独立完成真正数学推理"的观点,证明语言模型本身可处理高难度数学问题 [16][20][21] 行业竞争与人才流动 - DeepMind公开谴责OpenAI提前泄露IMO成绩,强调应尊重官方验证流程和参赛学生表彰程序,引发行业伦理争议 [8][9] - DeepMind金牌项目团队三名核心研究员被Meta挖角,过去六个月内已有20名员工流向微软,反映顶尖AI实验室间人才争夺加剧 [9] 模型解题特点对比 - 在平面几何题中,DeepMind采用接近人类选手的几何解法,而OpenAI使用"暴力"解析几何手段将问题转化为代数计算,显示不同解题策略 [23] - OpenAI解答语言呈现人性化特征(如使用"nice""very good"等鼓励性词汇),类似教师授课风格;DeepMind语言风格更接近数学论文的书面化表达 [27][29] - 两模型均频繁引入新符号定义概念,这与人类竞赛选手简化符号的习惯形成对比 [27] 数学研究应用前景 - IMO竞赛环境(限时、封闭、固定答案)与真实数学研究(开放性问题、自由探索)存在本质差异,AI当前更擅长解决竞赛类问题 [30][32] - 学界对AI数学应用形成两派观点:陶哲轩等认为AI未来将成为数学研究可信合作者,可提供启发式思路;Michael Harris等担忧数学自由探索精神被技术工具化和资本化侵蚀 [34][36] - 历史类比显示AlphaGo推动围棋理论创新,DeepMind科学家认为AI数学工具将帮助人类更好理解世界,而非取代数学家 [40]