Seek .-HLE“人类最后考试”首次突破60分，Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

核心技术突破 - Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上取得历史性突破，Pass@1准确率达到48.3%，Pass@5准确率飙升至61.74%，首次跨越60%大关 [1] - 该成绩显著超越谷歌Gemini 2.5 Pro（26.9%）、OpenAI GPT-5（22.82%）和Grok 4（30.2%）[1] - 系统基于开源模型DeepSeek V3.1搭建，通过三大创新机制实现质的飞跃 [2][6] 技术创新机制 - Monitor-based RAG机制实现隐式知识增强，将token消耗减少53.5%，工作流迭代次数减少43.7% [10][25] - 分层解决方案精炼（HSR）采用"锚点—修复"结构，打破传统多智能体系统的"民主投票"机制 [12] - 质量感知迭代推理（QAIR）根据解答质量自适应调整迭代深度，在效率与准确率之间取得平衡 [15] 多基准测试表现 - 在SuperGPQA生物学（Hard版）测试中，Pass@1达到69.57%，Pass@5达到78.26% [17] - 在TRQA文献理解测试中，Pass@1达到54.65%，Pass@5达到79.07% [17] - 相比其他智能体系统，Eigen-1在多个基准测试中均展现全面优势 [17] 技术架构优势 - 错误模式分析显示92.78%的错误涉及推理过程问题，88.66%涉及知识应用问题，凸显知识推理整合的核心挑战 [18] - 完整系统准确率达到48.3%，同时保持高效资源利用（218.9K tokens，53.4步骤） [20][22] - 消融实验证明各组件必要性，移除Monitor导致token消耗激增至461.3K，移除HSR或QAIR分别导致准确率降至44.8%和43.7% [20][21] 系统设计洞察 - 研究发现检索型任务应鼓励解法多样性（斜率0.369），而推理型任务应倾向早期共识（斜率0.851） [23] - Eigen-1在提升准确率的同时减少53.5%的token消耗，工作流迭代次数从94.8步降至53.4步 [25] - 该系统突破预示着AI辅助科学研究的新范式，将加速从基础研究到应用转化的全过程 [27]