Workflow
科学概念理解
icon
搜索文档
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力
36氪· 2025-08-26 01:25
多模态大模型评估挑战 - 现有基准测试因预训练数据污染导致评估失真,难以持续准确评估顶尖AI真实能力 [1] - 上海交通大学课题组提出MAC动态基准,利用科学前沿内容持续更新测试集 [1] MAC基准构建方法 - 使用《Nature》《Science》《Cell》等188种顶级期刊的最新封面构建测试集,包含超过25,000个图文对 [3] - 测试素材每周或每月更新,涵盖最前沿复杂的科学概念与艺术化视觉元素 [3] - 设计"看图选文"和"看文选图"双任务模式,通过CLIP等嵌入模型生成语义干扰项制造"语义陷阱" [6] - 干扰项与正确答案表面相似但科学概念不同,要求模型建立深层跨模态关联 [6][14] 多模态模型性能表现 - 在MAC-2025测试集中,表现最佳模型Step-3准确率仅为79.1% [4][16] - 开源模型Qwen2.5-VL-7B准确率低至56.8% [4][16] - GPT-4o在图文互译任务中准确率介于73.5%-75.1% [4][16] - Gemini-1.5-Pro准确率在70.4%-72.8%区间 [4][16] - 所有模型在处理新科学知识时均出现显著性能下降 [22] 模型能力局限性分析 - 顶尖模型能识别视觉元素(如药丸、处方单)但无法关联核心科学概念(如耐药性机制) [14] - 多模态AI在视觉识别方面出色,但跨模态深层科学推理能力距人类水平仍有差距 [17] DAD解决方案创新 - 采用"分工协作"两步法:先由多模态模型进行视觉描述,再由语言推理模型进行高层分析 [19][20] - 该方法显著提升多个模型准确率,模拟人类专家"先观察后分析"的思维过程 [19] 动态基准持续演进机制 - 动态数据机制:通过每年更新MAC年度快照(如MAC-2025)减少数据污染 [14] - 动态问题构建:采用更强嵌入模型(如SigLip2)重新生成干扰项提升测试难度 [23] - 两种机制结合使基准测试与科学发展和AI技术进步保持同步 [23] 学术影响与未来规划 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊及学术会议论文、科学新闻等动态内容 [23] - 通过年度周期发布实现基准测试持续演进,精准评估AI能力边界 [23]
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
量子位· 2025-08-25 15:47
多模态大模型评估挑战 - 现有基准测试因预训练数据污染面临评估失效风险,需开发动态评估方法应对顶尖AI能力评估困境 [1] MAC动态基准设计理念 - 采用顶级学术期刊封面作为测试素材,利用科学前沿内容的持续演进特性构建动态评估基准 [3] - 覆盖188种顶级期刊,从25,000+图文对构建测试集,聚焦艺术化视觉元素与科学概念的深层关联理解 [3] - 通过年度更新机制(如MAC-2025涵盖2024年1月至2025年2月内容)减少数据污染,保持评估挑战性 [16] 测试任务设计与语义陷阱 - 设计看图选文(Image2Text)和看文选图(Text2Image)双任务评估跨模态理解能力 [17] - 采用CLIP等嵌入模型生成语义干扰项,要求模型区分表面相似但科学概念不同的选项(如"癌症耐药性机制"vs"癌症产生机理") [8][16] 多模态模型性能表现 - 顶尖模型表现显著低于常规基准:Step-3最高准确率79.1%,GPT-4o准确率74.3-75.1%,Gemini-1.5-Pro准确率70.4-72.8% [4][18] - 开源模型Qwen2.5-VL-7B准确率仅56.8-61.0%,显示与闭源模型存在明显差距 [4][18] - 模型普遍存在视觉识别与科学概念理解脱节问题,能识别"药丸""处方单"但无法关联"耐药性"核心概念 [16][19] DAD分步推理解决方案 - 提出描述-推理两阶段方法:先由多模态模型生成视觉描述,再由语言模型进行高层分析 [22][23] - 该方法显著提升模型准确率,模拟人类专家先观察后分析的思维过程 [22] 动态基准双机制验证 - 动态数据机制:所有模型在最新数据(MAC-2025)表现均差于早期数据(MAC-Old),证实新知识自然提升测试难度 [26] - 动态问题构建:采用更强嵌入模型(如SigLip2)重构干扰项后,所有模型准确率进一步下降,证明测试难度可与AI技术同步进化 [27] 学术影响与未来发展 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊、学术会议论文及科学新闻,构建持续演进的评估平台 [27][28]