Workflow
FrontierScience
icon
搜索文档
OpenAI发布权威AI科研基准,扯下AI遮羞布:奥赛金牌≠一流科学家
36氪· 2025-12-17 09:00
文章核心观点 - OpenAI发布名为FrontierScience的新基准,旨在评估AI在物理、化学、生物领域进行接近专家水准的科学推理能力,而非仅记忆知识[1] - 当前最先进的AI模型(如GPT-5.2)在标准化的竞赛题上表现优异,但在更贴近真实科研的开放性问题中表现远逊,表明AI距离成为能独立进行前沿科学研究的“科学家”仍有巨大差距[1][17] 基准设计与目标 - FrontierScience基准旨在衡量AI在无唯一标准答案的科研实战中进行科学推理的能力,将科学工作描述为“持续试错”、提出假设、设计验证、整合跨领域线索的流程[1][5] - 基准设计的背景是旧有评测(如GPQA)已被尖端模型“刷穿”,例如GPT-4在2023年11月于GPQA基准上得分39%(专家基线74%),而两年后GPT-5.2在同一基准上得分92%,因此需要更长的“尺子”来衡量模型进展[6] - 基准包含两类“科学难关”:一类是偏竞赛风格、有约束条件和短答案的问题;另一类是更贴近真实研究现场、开放且无标准答案的问题[6][7] 基准题目构成与质量 - 评测总量超过700道文本型题目,其中160道属于核心的“黄金组”题目[9] - 竞赛赛道包含100道题,强调短答案形式,便于核验对错[9] - 研究赛道包含60个原创研究子任务,由博士或更资深研究者设计,采用10分制评分,需至少7分才算通过[9] - 题目质量由顶尖专家保障:竞赛赛道与42位前国际奥赛奖牌得主或国家队教练合作,总计涉及109枚奥赛奖牌;研究赛道由45位合格科学家与领域专家参与,覆盖量子电动力学、合成有机化学、进化生物学等方向[11] 评测方法与透明度 - 题目制作流程中会刻意淘汰OpenAI自家内部模型已能答对的题目,使得该评测对OpenAI自家模型可能更为苛刻[12] - OpenAI开源了两套赛道的“黄金组”题目,其余题目保留以追踪数据污染[12] - 研究型任务采用GPT-5充当“模型判卷员”,对照短答案逐项打分,旨在通过可被模型检查的客观规则解决专家逐题批改规模不允许的问题[12] 模型性能表现 - 在初测对比中,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先[13] - Gemini 3 Pro在竞赛题上得分76%,紧随其后[13] - 评测的其他模型包括Claude Opus 4.5、GPT-4o、OpenAI o4-mini、OpenAI o3等[13] 模型当前局限与观察 - 前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差[15] - 一个朴素观察是模型思考时间更长,准确率往往更高[15] 基准的局限与未来计划 - FrontierScience将科研切割成可控题目,使其更标准化,但也意味着它更像一张“高清截图”而非“全景纪录片”,尤其不评估模型提出新颖假设的能力,也不覆盖其处理多模态数据和与现实实验系统交互的能力[17] - OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,以观察这些系统究竟能帮助科学家取得何种实际成果[17]