FormalMATH形式化数学推理基准测试

搜索文档
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 09:33
FormalMATH基准测试 - 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出FormalMATH形式化数学推理基准测试,包含5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域[1] - FormalMATH基准测试首次系统性评估当前LLM驱动的定理证明器的真实水平,结果显示表现最佳的模型Kimina-Prover成功率仅为16.46%[3] - FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖12个子领域,规模是经典基准MiniF2F的22.8倍[5] 构建创新 - 研究团队提出"三阶段过滤"框架解决传统形式化数据依赖专家手动标注的瓶颈:多LLM协同翻译、自动化验证、否定反证过滤,该流程在人工审核前保留了72.09%的高质量命题[7][9] - 团队召集12名人类奥赛金牌级别的专家花费22天检测自然语言数学命题与Lean4形式化命题之间的语义一致性[9] LLM表现分析 - 主流LLM证明器在FormalMATH全量数据集上表现远低于预期,最佳模型Kimina-Prover成功率16.46%,次优模型STP成功率13.87%[10][15] - 现有模型在代数等领域表现较好,但在微积分等其他领域表现接近随机猜测,显示出明显领域偏差[11][12] - LLM证明器频繁滥用自动化策略,导致冗余假设(34%)、不完整证明(62%)、自动化策略误用(65.0%)、无法正确应对不等式(13.0%)等典型错误[16] 技术瓶颈与突破方向 - 自然语言引导可能反拖后腿,例如DeepSeek-V1.5-RL模型在普通CoT提示时表现优于引入人为自然语言引导的情况[17] - 未来提升LLM形式化推理能力需从三方面突破:强化多步规划、跨领域泛化、人机协同验证[19] 开源与行业影响 - FormalMATH基准测试的代码、训练数据及评估模型已向公众开放,研究团队呼吁学术界与工业界共同推进形式化数学推理技术发展[20][21]