Workflow
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
量子位·2025-08-25 15:47

多模态大模型评估挑战 - 现有基准测试因预训练数据污染面临评估失效风险,需开发动态评估方法应对顶尖AI能力评估困境 [1] MAC动态基准设计理念 - 采用顶级学术期刊封面作为测试素材,利用科学前沿内容的持续演进特性构建动态评估基准 [3] - 覆盖188种顶级期刊,从25,000+图文对构建测试集,聚焦艺术化视觉元素与科学概念的深层关联理解 [3] - 通过年度更新机制(如MAC-2025涵盖2024年1月至2025年2月内容)减少数据污染,保持评估挑战性 [16] 测试任务设计与语义陷阱 - 设计看图选文(Image2Text)和看文选图(Text2Image)双任务评估跨模态理解能力 [17] - 采用CLIP等嵌入模型生成语义干扰项,要求模型区分表面相似但科学概念不同的选项(如"癌症耐药性机制"vs"癌症产生机理") [8][16] 多模态模型性能表现 - 顶尖模型表现显著低于常规基准:Step-3最高准确率79.1%,GPT-4o准确率74.3-75.1%,Gemini-1.5-Pro准确率70.4-72.8% [4][18] - 开源模型Qwen2.5-VL-7B准确率仅56.8-61.0%,显示与闭源模型存在明显差距 [4][18] - 模型普遍存在视觉识别与科学概念理解脱节问题,能识别"药丸""处方单"但无法关联"耐药性"核心概念 [16][19] DAD分步推理解决方案 - 提出描述-推理两阶段方法:先由多模态模型生成视觉描述,再由语言模型进行高层分析 [22][23] - 该方法显著提升模型准确率,模拟人类专家先观察后分析的思维过程 [22] 动态基准双机制验证 - 动态数据机制:所有模型在最新数据(MAC-2025)表现均差于早期数据(MAC-Old),证实新知识自然提升测试难度 [26] - 动态问题构建:采用更强嵌入模型(如SigLip2)重构干扰项后,所有模型准确率进一步下降,证明测试难度可与AI技术同步进化 [27] 学术影响与未来发展 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊、学术会议论文及科学新闻,构建持续演进的评估平台 [27][28]