Workflow
AI科学通用能力(SGI)
icon
搜索文档
别再吹AI搞科研了!新评测泼冷水:顶尖模型离「合格科学家」还差得远
量子位· 2025-12-27 04:59
文章核心观点 - 上海人工智能实验室提出了评估AI“科学通用能力”的新框架SGI-Bench,其核心观点是当前最先进的大模型在科学研究的全流程中表现仍显著不足,距离成为“强科学家”尚有巨大差距[1][3][9] SGI-Bench评测框架 - 团队定义了科学通用能力的四个循环阶段:审思/深度研究、构思/创意生成、行动/实验执行、感知/结果解读,并将四维能力的综合定义为SGI[3] - 评测基准SGI-Bench采用“科学家对齐”的任务构造方法,由多学科专家提供原始语料,超过100位研究生/博士生结合真实科研流程构建题目,最终得到覆盖10大学科的1000多个评测样本[5][6] 核心评测结果与洞见 审思/深度研究 - 模型在科学深度研究任务中的步骤准确率可达50%–65%,但由于长链条步骤中的错误累积,最终答案的严格匹配率仅10%–20%[13] - “数据/性质”类题目最难,需要跨文献精确检索与数值聚合;“微/宏实验”类相对较好但整体准确率仍低于30%[18] - 工具增强的多智能体在逐步准确率上略优,但与纯模型差距并不显著[16] 构思/创意生成 - 模型在创意生成任务中表现出“概念丰富≠可执行方案”的特点,以GPT-5为例,其新颖性得分为76.08,但可行性得分仅为18.87[26] - 开源模型的可行性得分上限约20分,多数模型在14–20分之间,常见缺陷包括缺少数据获取计划、流程接口不闭合、步骤顺序模糊等[26] 行动/实验执行 干实验 - 在科学代码合成任务中,最佳模型Gemini-3-Pro的严格通过率仅36.64%,宽松通过率41.98%,表明模型常能写对部分代码,但难以实现严格正确[30] - 代码的平滑执行率多在90%以上,但“能跑”与“算对”之间存在系统性鸿沟,数值计算与仿真类任务最弱[31] 湿实验 - 在湿实验流程规划任务中,模型生成的原子动作序列与标准答案的相似度整体偏低,最佳闭源模型约35.5;参数准确率最高约40.6[35] - 高发错误包括插入多余步骤、遗漏关键步骤、打乱有效步骤顺序,反映了模型在时间协调、分支规划与样本管理方面的薄弱[35] 感知/结果解读 - 在多模态实验推理任务中,最佳闭源模型的答案准确率约41.9,推理有效性最高约71.3[43] - 多数模型的推理有效性高于答案准确率,表明难以实现推理链条的完全正确;比较型推理任务最弱[43] 智能评测工具SGIEvalAgent - 团队设计了面向“可定制评测与报告生成”的智能体SGIEvalAgent,用户可用自然语言描述评测意图,系统将自动解析意图、选择题目、定制指标、执行推理与打分,并输出带有可追溯证据链的评测报告[44][46][48] 未来发展方向 - 根据SGI-Bench的结果,为AI自主科研指明了多个改进方向,包括:通过细粒度视觉定位提升多模态比较推理精度;强化证据聚合与数值鲁棒性以提升深度研究准确性;引入规划感知与结构化监督以保障创意可行性;在代码生成训练中聚焦数值分析先验与算法稳定性;结合状态模拟解决湿实验的时序逻辑与复杂分支问题[51][52]