Workflow
字节Seed数学新模型,SOTA了
量子位·2025-08-04 08:55

模型性能突破 - Seed-Prover在MiniF2F数据集上实现100%正确率,全面超越谷歌AlphaGeometry2 [1][3] - 普特南数学竞赛成绩达331/657,是主流模型Goedel-Prover-V2的4倍 [4][5] - 历年IMO难题解决率78.1%,CombiBench正确率30%较Deepseek-Prover-V2提升20个百分点 [4][5] 技术架构创新 - 采用Lean 4形式化推理框架,实现数学对象精确定义与机器自动验证 [7][8] - 首创引理式证明范式,通过生成模块化引理提升推理效率(如示例中round1_h0与round1_h1独立编译) [9][10][11] - 建立引理池存储2.3亿几何问题数据,支持轻/中/重量三级推理策略 [12][13][15][18] 几何推理专项优化 - 集成Seed-Geometry引擎,采用前向链推理+反向依赖追踪架构 [16][17] - 在2000-2024年IMO几何题中解决43道,比AlphaGeometry2多1道 [22][23] - IMO候选题解决22道,较AlphaGeometry2多3道,并在2秒内破解IMO2025第2题 [24][25][26] 行业标杆对比 - IMO2025实战中6题解决5题,达金牌水准(Heavy模式赛后达5/6) [4][22] - MiniCTX-v2正确率81.8%,远超o4-mini基准模型的44.3% [4][5] - 前谷歌成员评价其为"唯一为IMO发表完整论文的AI实验室" [4][28]