科学概念理解 - 财报，业绩电话会，研报，新闻

科学概念理解

搜索文档

36氪· 2025-08-26 01:25

多模态大模型评估挑战 - 现有基准测试因预训练数据污染导致评估失真，难以持续准确评估顶尖AI真实能力 [1] - 上海交通大学课题组提出MAC动态基准，利用科学前沿内容持续更新测试集 [1] MAC基准构建方法 - 使用《Nature》《Science》《Cell》等188种顶级期刊的最新封面构建测试集，包含超过25,000个图文对 [3] - 测试素材每周或每月更新，涵盖最前沿复杂的科学概念与艺术化视觉元素 [3] - 设计"看图选文"和"看文选图"双任务模式，通过CLIP等嵌入模型生成语义干扰项制造"语义陷阱" [6] - 干扰项与正确答案表面相似但科学概念不同，要求模型建立深层跨模态关联 [6][14] 多模态模型性能表现 - 在MAC-2025测试集中，表现最佳模型Step-3准确率仅为79.1% [4][16] - 开源模型Qwen2.5-VL-7B准确率低至56.8% [4][16] - GPT-4o在图文互译任务中准确率介于73.5%-75.1% [4][16] - Gemini-1.5-Pro准确率在70.4%-72.8%区间 [4][16] - 所有模型在处理新科学知识时均出现显著性能下降 [22] 模型能力局限性分析 - 顶尖模型能识别视觉元素（如药丸、处方单）但无法关联核心科学概念（如耐药性机制） [14] - 多模态AI在视觉识别方面出色，但跨模态深层科学推理能力距人类水平仍有差距 [17] DAD解决方案创新 - 采用"分工协作"两步法：先由多模态模型进行视觉描述，再由语言推理模型进行高层分析 [19][20] - 该方法显著提升多个模型准确率，模拟人类专家"先观察后分析"的思维过程 [19] 动态基准持续演进机制 - 动态数据机制：通过每年更新MAC年度快照（如MAC-2025）减少数据污染 [14] - 动态问题构建：采用更强嵌入模型（如SigLip2）重新生成干扰项提升测试难度 [23] - 两种机制结合使基准测试与科学发展和AI技术进步保持同步 [23] 学术影响与未来规划 - 研究成果将于2025年语言模型大会（COLM）发表 [5] - 计划扩展至更多科学期刊及学术会议论文、科学新闻等动态内容 [23] - 通过年度周期发布实现基准测试持续演进，精准评估AI能力边界 [23]

量子位· 2025-08-25 15:47

多模态大模型评估挑战 - 现有基准测试因预训练数据污染面临评估失效风险，需开发动态评估方法应对顶尖AI能力评估困境 [1] MAC动态基准设计理念 - 采用顶级学术期刊封面作为测试素材，利用科学前沿内容的持续演进特性构建动态评估基准 [3] - 覆盖188种顶级期刊，从25,000+图文对构建测试集，聚焦艺术化视觉元素与科学概念的深层关联理解 [3] - 通过年度更新机制（如MAC-2025涵盖2024年1月至2025年2月内容）减少数据污染，保持评估挑战性 [16] 测试任务设计与语义陷阱 - 设计看图选文（Image2Text）和看文选图（Text2Image）双任务评估跨模态理解能力 [17] - 采用CLIP等嵌入模型生成语义干扰项，要求模型区分表面相似但科学概念不同的选项（如"癌症耐药性机制"vs"癌症产生机理"） [8][16] 多模态模型性能表现 - 顶尖模型表现显著低于常规基准：Step-3最高准确率79.1%，GPT-4o准确率74.3-75.1%，Gemini-1.5-Pro准确率70.4-72.8% [4][18] - 开源模型Qwen2.5-VL-7B准确率仅56.8-61.0%，显示与闭源模型存在明显差距 [4][18] - 模型普遍存在视觉识别与科学概念理解脱节问题，能识别"药丸""处方单"但无法关联"耐药性"核心概念 [16][19] DAD分步推理解决方案 - 提出描述-推理两阶段方法：先由多模态模型生成视觉描述，再由语言模型进行高层分析 [22][23] - 该方法显著提升模型准确率，模拟人类专家先观察后分析的思维过程 [22] 动态基准双机制验证 - 动态数据机制：所有模型在最新数据（MAC-2025）表现均差于早期数据（MAC-Old），证实新知识自然提升测试难度 [26] - 动态问题构建：采用更强嵌入模型（如SigLip2）重构干扰项后，所有模型准确率进一步下降，证明测试难度可与AI技术同步进化 [27] 学术影响与未来发展 - 研究成果将于2025年语言模型大会（COLM）发表 [5] - 计划扩展至更多科学期刊、学术会议论文及科学新闻，构建持续演进的评估平台 [27][28]