SGI-Bench - 财报，业绩电话会，研报，新闻

SGI-Bench

搜索文档

量子位· 2025-12-27 07:08

SGI-Bench团队投稿量子位 | 公众号 QbitAI 如今，大模型在理解、推理、编程等方面表现突出，但AI的 "科学通用能力" （SGI）尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性，而现有基准仅覆盖碎片能力（如学科问答、单步工具操作），难以反映真实科研中的循环与自纠错。为此，上海人工智能实验室通过引入实践探究模型（PIM），将科学探究拆解为四个循环阶段，并与AI能力维度对应： | 审思/深度研究 | （Deliberation） | ：复杂问题下的检索、证据综合与批判评估； | | | | | --- | --- | --- | --- | --- | --- | | 构思/创意生成 | （Conception） | ：提出新假说与可执行研究方法； | | | | | 行动/实验执行 | （Action） | ：将想法转化为计算代码（干实验） | 与实验室流程 | （湿实验） | ； | | 感知/结果解读 | （Perception） | ：整合多模态证据并进行因果、比较等分析推理。 | | | | 团队将上述四维能力的综合定义为SGI，并发布覆盖全流程的SGI‑ ...

人工智能

科学通用能力（SGI）

SGI-Bench

Artificial Intelligence

Artificial Intelligence

Gemini-3-Pro

GPT-5

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

量子位· 2025-12-27 04:59

如今，大模型在理解、推理、编程等方面表现突出，但AI的 "科学通用能力" （SGI）尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性，而现有基准仅覆盖碎片能力（如学科问答、单步工具操作），难以反映真实科研中的循环与自纠错。为此，上海人工智能实验室通过引入实践探究模型（PIM），将科学探究拆解为四个循环阶段，并与AI能力维度对应： | 审思/深度研究 | （Deliberation） | ：复杂问题下的检索、证据综合与批判评估； | | | | | --- | --- | --- | --- | --- | --- | | 构思/创意生成 | （Conception） | ：提出新假说与可执行研究方法； | | | | | 行动/实验执行 | （Action） | ：将想法转化为计算代码（干实验） | 与实验室流程 | （湿实验） | ； | | 感知/结果解读 | （Perception） | ：整合多模态证据并进行因果、比较等分析推理。 | | | | SGI-Bench团队投稿量子位 | 公众号 QbitAI 核心结果与洞见：今天的"强模型"，尚未成为"强科学家" 1. 审 ...