Workflow
DAD方法
icon
搜索文档
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力
36氪· 2025-08-26 01:25
多模态大模型评估挑战 - 现有基准测试因预训练数据污染导致评估失真,难以持续准确评估顶尖AI真实能力 [1] - 上海交通大学课题组提出MAC动态基准,利用科学前沿内容持续更新测试集 [1] MAC基准构建方法 - 使用《Nature》《Science》《Cell》等188种顶级期刊的最新封面构建测试集,包含超过25,000个图文对 [3] - 测试素材每周或每月更新,涵盖最前沿复杂的科学概念与艺术化视觉元素 [3] - 设计"看图选文"和"看文选图"双任务模式,通过CLIP等嵌入模型生成语义干扰项制造"语义陷阱" [6] - 干扰项与正确答案表面相似但科学概念不同,要求模型建立深层跨模态关联 [6][14] 多模态模型性能表现 - 在MAC-2025测试集中,表现最佳模型Step-3准确率仅为79.1% [4][16] - 开源模型Qwen2.5-VL-7B准确率低至56.8% [4][16] - GPT-4o在图文互译任务中准确率介于73.5%-75.1% [4][16] - Gemini-1.5-Pro准确率在70.4%-72.8%区间 [4][16] - 所有模型在处理新科学知识时均出现显著性能下降 [22] 模型能力局限性分析 - 顶尖模型能识别视觉元素(如药丸、处方单)但无法关联核心科学概念(如耐药性机制) [14] - 多模态AI在视觉识别方面出色,但跨模态深层科学推理能力距人类水平仍有差距 [17] DAD解决方案创新 - 采用"分工协作"两步法:先由多模态模型进行视觉描述,再由语言推理模型进行高层分析 [19][20] - 该方法显著提升多个模型准确率,模拟人类专家"先观察后分析"的思维过程 [19] 动态基准持续演进机制 - 动态数据机制:通过每年更新MAC年度快照(如MAC-2025)减少数据污染 [14] - 动态问题构建:采用更强嵌入模型(如SigLip2)重新生成干扰项提升测试难度 [23] - 两种机制结合使基准测试与科学发展和AI技术进步保持同步 [23] 学术影响与未来规划 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊及学术会议论文、科学新闻等动态内容 [23] - 通过年度周期发布实现基准测试持续演进,精准评估AI能力边界 [23]