隐式知识增强

搜索文档
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
量子位· 2025-09-28 11:54
Eigen-1团队 投稿 量子位 | 公众号 QbitAI 在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的 Eigen-1多智能体系统 实现了历史性突破—— 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到48.3%,Pass@5准确率更是飙升至61.74%,首次跨越60分大关。这一成绩远超谷歌 Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。 相比原始HLE数据集,这个子集排除了可能存在歧义或错误答案的问题,确保了标签的准确性和可靠性,因此成为评估AI科学推理能力最可信 的基准。 最令人振奋的是,这一成就并非依赖闭源超大模型,而是 完全基于开源的DeepSeek V3.1搭建 。 在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创 新机制,实现了质的飞跃。 下面详细展开—— ...