Workflow
Gemini再揽金牌,力压大学学霸,AI数学推理时代来了
36氪·2025-08-12 00:56

Gemini模型在IMC竞赛中的表现 - 在大学生国际数学竞赛(IMC)测试中,Gemini的三种模式(Gemini Deep Think IMO、Gemini-2.5-Pro Agent、Gemini-2.5-Pro Best-of-32)均获得极高分数,远超前8%的金牌门槛 [1][4] - Gemini Deep Think和Gemini Agent成功解决了所有问题,仅出现少量小错误(如中间步骤论证不完整或已知定理引用不正确) [4] - Gemini Best-of-32表现优于IMO 2025,仅在一道题目(P5)上犯重大错误,可能因IMC知识密集度更高 [5] 模型性能量化数据 - Gemini-2.5-Pro Agent准确率94.50%,成本$94.64,在多数题目中得分100%,仅一道题得90% [2][6] - Gemini Deep Think IMO准确率93.00%,成本数据未提供,所有题目得分均为100% [2][6] - Gemini-2.5-Pro Best-of-32准确率88.00%,成本$114.52,多数题目得分100%,但两道题仅得70% [2][6] 模型能力定性评估 - 综合证明质量和清晰度排名:Gemini Deep Think > Gemini Agent > Gemini Best-of-32 [7] - Gemini Deep Think证明语言简练、结构清晰、步骤合理,展现原创思维(如第7题简洁证明、第9题比官方解更简洁的思路) [21][22] - Gemini Agent证明逻辑性较好但过于冗长,可能因自验证反馈机制导致过度解释 [21] - Gemini Best-of-32证明技术正确但表达混乱,缺乏逻辑组织 [21] 竞赛背景与测试方法 - IMC由英国伦敦大学学院主办,覆盖代数、分析、几何与组合数学领域,为期两天,每天5道题(每题10分) [8][10] - 测试采用匿名评分,两名评委独立制定标准,满分10分,避免数据污染 [16] - 测试规模较小,每个模型在每个问题上仅评估一次,且仅一名裁判 [7] AI在数学竞赛中的整体进展 - AI模型(如Gemini)已具备媲美人类优等大学生的数学能力,能识别高级数学概念(如Landau函数)并调用已知性质构建证明 [4][25] - 在信息学竞赛中,AI同样表现突出(如IOI 2025中ryanbAI获第七名) [40] - 网友测试显示其他模型(如o3)可在10分钟内完成全部IMC题目,但答案可能存在瑕疵 [28][34] - AI展现计算优势(更少错误、更强数据处理能力),甚至提供新证明思路(如Deep Think使用Shemesh定理解决线性代数问题) [37][43]