UGMathBench

搜索文档
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 10:41
研究背景与动机 - 数学推理能力是衡量模型智能水平的关键指标 但现有基准如GSM8K和MATH存在覆盖不足和易被数据污染的问题 缺乏对本科水平数学问题的广泛覆盖 [1] - 香港科技大学研究团队推出UGMathBench基准测试 这是首个针对本科数学的多元化动态评测体系 专为评估LLM在本科阶段各类数学主题下的推理能力而设计 [1] 数据集设计特点 - 涵盖16个主要数学学科 包含5,062道经过精心筛选的本科级数学题目 按照答案类型细分为八种基础类型和两种复合类型 [4] - 每道题目配备多个随机化版本 通过变量扰动设计评估模型在面对变量扰动时的推理鲁棒性 [4] - 包含单变量微积分 多变量微积分 微分方程 概率等111个细分主题及583个子主题 [11] - 采用动态评估体系 每个问题包括3个随机版本 通过变量扰动创建多版本试题 确保模型依靠推理而非记忆生成答案 [11] 性能评估指标 - 引入创新指标有效准确率EAcc 衡量模型在所有随机化版本中均能正确解决问题的比例 量化真实推理能力 [15][19] - 定义推理差距Δ 计算平均准确率与有效准确率的差值 用于评估模型在面对问题变体时的推理鲁棒性 Δ=0表示完美鲁棒性 [16] - 鲁棒效率RE定义为Δ与EAcc的比值 反映推理差距的相对大小 [14] 模型性能表现 - 测试涵盖23个LLMs 包括4个闭源模型和19个开源模型 [18] - OpenAI-o1-mini在MATH上达到94.8%准确率 但在UGMathBench上仅达到56.3%准确率 [6] - 大多数开源LLM在UGMathBench中难以达到30%的EAcc [6] - 闭源模型表现最佳 OpenAI-o1-mini取得最高有效准确率56.3% 但Δ仍达11.7% [20][22] - 开源模型中Qwen2-Math-72B-Instruct表现最佳 有效准确率45.85% 但与OpenAI-o1-mini相比平均准确率降低10.97% 有效准确率降低10.45% [22] 学科表现分析 - LLM在算术问题方面表现最佳 有效准确率达到62.8% 在代数上达到58.3% [23] - 在组合学和复分析领域表现较好 平均有效准确率超过30% [23] - 在抽象代数 微分方程和金融数学领域表现最差 平均有效准确率不到10% 抽象代数仅约5% [23] 误差类型分析 - 计算错误占比最高 反映模型在符号运算中的不稳定性 [24] - 存在推理不一致问题 同一问题的不同版本中模型可能给出矛盾答案 显示模型依赖表面特征而非深层逻辑 [24] 未来发展方向 - 计划开发多模态版本 支持多语言数学问题评估 并增加更多学科的问题数量 [25] - 目标开发"大型推理模型" 实现高有效准确率和Δ→0 提升推理稳定性 [25] - 将持续更新数据集以提升质量 并优化评估代码和提示策略 [25]