隐式知识增强 - 财报，业绩电话会，研报，新闻

隐式知识增强

搜索文档

HLE“人类最后考试”首次突破60分！Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

量子位· 2025-09-28 11:54

技术突破与性能表现 - Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上实现历史性突破，Pass@1准确率达48.3%，Pass@5准确率飙升至61.74%，首次跨越60分大关[1] - 该系统性能远超竞争对手，显著高于谷歌Gemini 2.5 Pro（26.9%）、OpenAI GPT-5（22.82%）和Grok 4（30.2%）[1] - 在SuperGPQA生物学（Hard版）测试中，Pass@1达69.57%，Pass@5达78.26%；在TRQA文献理解测试中，Pass@1为54.65%，Pass@5高达79.07%[22][27] 技术架构创新 - 系统完全基于开源模型DeepSeek V3.1搭建，通过三大创新机制实现质的飞跃[3] - Monitor-based RAG机制将token消耗减少53.5%，工作流迭代次数减少43.7%，同时保持更高准确率，解决了传统RAG系统的"工具税"问题[11][37] - 分层解决方案精炼（HSR）采用"锚点—修复"结构，通过逻辑补全、数值修正、方法替换、表达优化四种维度提升解决方案质量[16] - 质量感知迭代推理（QAIR）根据解答质量自适应调整迭代深度，高质量解答可提前收敛，低质量解答触发更多探索[20] 基准测试重要性 - HLE（人类最后考试）涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题，被视为AI知识推理的终极试炼[5] - HLE Bio/Chem Gold是HLE的黄金标准子集，包含149道经过领域专家人工审核和纠正的题目，排除了可能存在歧义或错误答案的问题[6] - 传统基准如MMLU、GPQA等已逐渐失去区分力，因大模型纷纷"卷到90分"[5] 错误分析与技术洞察 - 错误模式分析显示92.78%的错误涉及推理过程问题，88.66%涉及知识应用问题，且两者存在大量重叠[24] - 科学推理的核心挑战在于如何将知识与推理无缝整合，而非单纯的知识检索或逻辑推理[25] - 在信息检索任务中，解决方案多样性与准确率呈较弱正相关（斜率0.369）；而在推理任务中，一致性与准确率呈强正相关（斜率0.851）[33] 组件贡献量化 - 增量构建实验显示，基线系统无外部知识时准确率仅25.3%，加入显式RAG后提升至41.4%，但工作流步骤从43.4激增至94.8[29] - 完整系统（包含所有组件）准确率达48.3%，token消耗218.9K，步骤53.4，实现了准确率提升与资源消耗降低的双重优化[30][32] - 消融实验证明各组件必要性：移除Monitor导致token消耗激增至461.3K，步骤增至95.3；移除HSR或QAIR分别导致准确率降至44.8%和43.7%[30][31] 行业意义与发展前景 - 该突破预示着AI辅助科学研究的新范式，当AI能真正理解人类知识前沿的复杂问题时，将成为科学家的强大助手[39][40] - 基于开源模型的成功展示了开源生态在推动AI前沿发展中的重要作用[3][42] - 未来优化方向包括架构设计改进、向其他科学领域扩展以及技术整合到更广泛的科学工作流中[42]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence