Scientific Research
搜索文档
OpenAI发布权威AI科研基准,扯下AI遮羞布:奥赛金牌≠一流科学家
36氪· 2025-12-17 09:00
文章核心观点 - OpenAI发布名为FrontierScience的新基准,旨在评估AI在物理、化学、生物领域进行接近专家水准的科学推理能力,而非仅记忆知识[1] - 当前最先进的AI模型(如GPT-5.2)在标准化的竞赛题上表现优异,但在更贴近真实科研的开放性问题中表现远逊,表明AI距离成为能独立进行前沿科学研究的“科学家”仍有巨大差距[1][17] 基准设计与目标 - FrontierScience基准旨在衡量AI在无唯一标准答案的科研实战中进行科学推理的能力,将科学工作描述为“持续试错”、提出假设、设计验证、整合跨领域线索的流程[1][5] - 基准设计的背景是旧有评测(如GPQA)已被尖端模型“刷穿”,例如GPT-4在2023年11月于GPQA基准上得分39%(专家基线74%),而两年后GPT-5.2在同一基准上得分92%,因此需要更长的“尺子”来衡量模型进展[6] - 基准包含两类“科学难关”:一类是偏竞赛风格、有约束条件和短答案的问题;另一类是更贴近真实研究现场、开放且无标准答案的问题[6][7] 基准题目构成与质量 - 评测总量超过700道文本型题目,其中160道属于核心的“黄金组”题目[9] - 竞赛赛道包含100道题,强调短答案形式,便于核验对错[9] - 研究赛道包含60个原创研究子任务,由博士或更资深研究者设计,采用10分制评分,需至少7分才算通过[9] - 题目质量由顶尖专家保障:竞赛赛道与42位前国际奥赛奖牌得主或国家队教练合作,总计涉及109枚奥赛奖牌;研究赛道由45位合格科学家与领域专家参与,覆盖量子电动力学、合成有机化学、进化生物学等方向[11] 评测方法与透明度 - 题目制作流程中会刻意淘汰OpenAI自家内部模型已能答对的题目,使得该评测对OpenAI自家模型可能更为苛刻[12] - OpenAI开源了两套赛道的“黄金组”题目,其余题目保留以追踪数据污染[12] - 研究型任务采用GPT-5充当“模型判卷员”,对照短答案逐项打分,旨在通过可被模型检查的客观规则解决专家逐题批改规模不允许的问题[12] 模型性能表现 - 在初测对比中,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先[13] - Gemini 3 Pro在竞赛题上得分76%,紧随其后[13] - 评测的其他模型包括Claude Opus 4.5、GPT-4o、OpenAI o4-mini、OpenAI o3等[13] 模型当前局限与观察 - 前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差[15] - 一个朴素观察是模型思考时间更长,准确率往往更高[15] 基准的局限与未来计划 - FrontierScience将科研切割成可控题目,使其更标准化,但也意味着它更像一张“高清截图”而非“全景纪录片”,尤其不评估模型提出新颖假设的能力,也不覆盖其处理多模态数据和与现实实验系统交互的能力[17] - OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,以观察这些系统究竟能帮助科学家取得何种实际成果[17]
北大团队最新研究:AI零基础自主推导出牛顿第二定律
凤凰网· 2025-12-10 04:31
核心观点 - 人工智能在科研中的角色发生质变,从辅助工具迈向“可独立认知的科研主体” [1] - 北京大学团队研发的“AI-牛顿”系统在没有预设物理知识的条件下,从46组实验数据中独立推导出牛顿第二定律F=ma,并登上《自然》杂志 [1] - 该系统采用近似科学家“先假设、再求证”的合情推理策略,而非传统大模型的简单拟合,突破了神经网络的“黑箱”困境 [1] - 外界认为这种编程方式或将成为未来科学发现的重要方法,展示了面向未知领域的原生探索能力 [2] - 团队计划将该方法扩展至更复杂的量子体系等领域,意味着AI正从数据分析者向“理论生成的参与者”进一步靠拢 [2] 技术突破与系统特点 - 系统在没有预设任何物理背景知识的条件下,被置于包含小球、弹簧等装置的46组物理实验数据中 [1] - 系统不仅能识别运动模式,更在迭代推理中逐步构建出“力”“质量”“加速度”等基础概念,并最终得出牛顿第二定律F=ma [1] - 系统依靠三层结构(符号、概念、定律)在繁杂数据与可解释公式之间建立联结,使推导路径可回溯、逻辑链条清晰 [1] - 该系统突破神经网络“黑箱”困境的关键在于其可回溯的推导路径和清晰的逻辑链条 [1] 行业影响与未来展望 - 《自然》杂志引用哈佛大学学者观点指出,这种编程方式能够鼓励模型主动逼近核心概念,或将成为未来科学发现的重要方法 [2] - 相比以往在已知理论框架内验证假设,“AI-牛顿”展示的是一种面向未知领域的原生探索能力 [2] - 团队计划将该方法扩展至更复杂的研究方向,包括尝试从量子体系中寻找规律 [2] - 这意味着AI从单纯的数据分析者,正向“理论生成的参与者”进一步靠拢 [2] 研究团队与支持 - 该研究由北京大学物理学院马滟青教授课题组完成,参与者包括博士研究生方尤乐、见东山以及李想 [2] - 研究获得国家自然科学基金与北京大学高性能计算平台支持 [2]
华人学者一天发表了11篇Nature论文
生物世界· 2025-10-16 08:25
华人学者在《自然》期刊的学术产出 - 2025年10月15日,《自然》期刊上线了22篇论文,其中多篇来自华人学者[2] - 德国亚琛工业大学的Zhang Zhenhua作为第一作者,发表了关于硼自由基β-断裂介导胺的脱氨基交叉偶联反应的研究[2] - 新加坡国立大学许民瑜与香港中文大学章兴龙作为共同通讯作者,发表了关于环氧化物光催化氧原子转化的研究[4] - 上海交通大学戚亚冰、复旦大学梁佳、南京理工大学徐勃作为共同通讯作者,发表了关于具有均匀埋藏界面的锡基钙钛矿太阳能电池的研究[6] - 中国台湾中央研究院邬哲源、杨欣洲、郭沛恩作为共同通讯作者,发表了关于台湾精准医疗计划为大规模研究提供队列的研究[9] - 中国台湾中央研究院范盛娟、陈弘昕作为共同通讯作者,发表了关于针对汉族血统人群的特定人群多基因风险评分的研究[12] - 曼彻斯特大学Wang R.作为第一作者,发表了关于受限水的面内介电常数和电导率的研究[15] - 罗格斯大学Lin Yucheng作为通讯作者兼第一作者,发表了关于中国东南部现代海平面上升打破4000年稳定状态的研究[17] - 伊利诺伊大学Chen Qian作为通讯作者,发表了关于原子模板法制造斑点纳米粒子的研究[19] - 华东师范大学翁杰敏与中国科学院陈德桂作为共同通讯作者,发表了关于保守的H3K14单泛素化驱动H3K9me3修饰用于染色质区室化的研究[21] - 清华大学方璐作为通讯作者,发表了关于用于亚埃级快照光谱学的集成铌酸锂光子学的研究[22] - 加州大学伯克利分校Chen Chi-Fang作为通讯作者兼第一作者,发表了关于高效量子热模拟的研究[24] - 四川大学华西医院张霆作为共同通讯作者,于10月13日发表了关于宿主细胞Z-RNA在病毒感染期间激活ZBP1的研究[26] 研究涉及的领域与方向 - 化学合成领域涉及新的交叉偶联反应[2]与光催化转化[4] - 新能源材料领域聚焦于提升锡基钙钛矿太阳能电池性能[6] - 生物医学与遗传学领域涵盖精准医疗队列研究[9]、特定人群多基因风险评分[12]以及病毒感染机制[26] - 基础物理与材料科学包括受限水的电学性质[15]与新型纳米粒子制造[19] - 环境科学研究了海平面上升的历史变化[17] - 表观遗传学揭示了染色质修饰的新机制[21] - 前沿技术领域涉及集成光子学[22]与量子计算模拟[24]