HLE“人类最后考试”首次突破60分,Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能 体系统实现了历史性突破—— 下面详细展开—— 技术创新:三大支柱撑起60分突破 当AI开始挑战人类知识的终极边界,一场前所未有的较量正在上演。 当大模型在MMLU、GPQA等传统基准上纷纷"卷到90分"时,这些测试逐渐失去了区分力。为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与 Scale AI联合推出了"人类最后的考试"(Humanity's Last Exam,HLE)—— 最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建。 涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼。 而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到4 ...