别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

文章核心观点 - 上海人工智能实验室提出了衡量AI“科学通用能力”的新框架与基准SGI-Bench，其核心观点是当前最先进的大语言模型在科学研究的全流程任务中表现仍显著不足，距离成为“强科学家”尚有巨大差距 [1][3][9] SGI能力框架与评测基准 - 提出了“科学通用能力”的四阶段循环模型，将科学探究拆解为审思、构思、行动、感知四个维度，并将其综合定义为SGI [1][3] - 发布了覆盖全流程的SGI-Bench基准，该基准采用“科学家对齐”的任务构造方法，由多学科专家提供原始语料，并由超过100位研究生/博士生结合真实科研流程构建题目 [5] - 基准样本经过三重清洗和难度筛选，最终得到1000多个覆盖化学、生命、物理、数学等10大学科的评测样本 [6] 核心评测结果与发现 - 在审思/深度研究维度，模型在单个步骤的准确率可达50%–65%，但由于长链条步骤中的错误累积，最终结论的严格匹配准确率仅10%–20% [9][13] - 在构思/创意生成维度，模型生成想法的新颖性尚可，但可行性普遍偏低，例如GPT-5的新颖性得分为76.08，而可行性得分仅为18.87 [19][26] - 在行动/实验执行的干实验部分，模型生成的代码可运行率（平滑执行率）多在90%以上，但科学正确性不足，最佳模型Gemini-3-Pro的代码严格通过率（通过全部5个单测）仅36.64% [24][30][31] - 在行动/实验执行的湿实验部分，模型在规划实验流程时表现不佳，最佳模型的序列相似度约35.5，参数准确率最高约40.6 [32][35] - 在感知/结果解读维度，最佳闭源模型的答案准确率约41.9，推理有效性最高约71.3，比较型推理是其中最薄弱的环节 [37][43] 模型表现对比 - 闭源模型整体表现优于开源模型，其中Gemini-3-Pro以SGI-Score 33.83/100取得当前最佳成绩 [3] - 工具增强的多智能体方案在逐步准确率上略优于纯模型，但优势并不显著 [16] - 在代码生成任务上，闭源模型略优于开源模型，但优势有限且分布重叠，表明“科学代码合成”是各架构的共同短板 [30] 智能评测工具 - 团队开发了名为SGIEvalAgent的智能体评测框架，允许用户通过自然语言描述评测意图，系统可自动解析意图、选择题目、定制指标、执行评测并生成带有证据链的评测报告 [44][46][47][48] 未来发展方向 - 研究为AI自主科研指明了多个改进方向，包括通过细粒度视觉定位提升多模态比较推理精度、强化证据聚合与数值鲁棒性以提升深度研究准确性、引入规划感知提升创意可行性、在代码生成训练中聚焦数值分析先验与算法稳定性，以及结合状态模拟解决湿实验协议中的时序逻辑问题 [51][52]