从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
机器之心·2025-09-09 11:46
在当前由大语言模型(LLM)驱动的技术范式中,检索增强生成(RAG)已成为提升模型知识能力与缓解「幻觉」的核心技术。然而,现有 RAG 系统在面对需多 步逻辑推理任务时仍存在显著局限,具体挑战如下: 为建立严格的评估体系,学术界提出了 BRIGHT—— 首个面向推理密集型检索的权威测试集。该基准涵盖了源自经济学、心理学、数学及编程等多个知识密集型 领域的真实查询。这些查询的共性在于其答案无法通过传统的直接检索显式获得,使得很多 RAG 系统失效。而 BRIGHT 必须通过多步推理构建证据链,也就是所 谓的「第一性原理」, 从 「根源」 推导,而非 「类比」来解决问题。 论文标题: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval arXiv 地址:https://arxiv.org/pdf/2508.07995 代码与模型开源地址: 表面相关性 (Surface Relevance):基于 TF-IDF/BM25 等传统方法过度依赖词汇重叠度,倾向于召回与查询共享关键词的文档,导致检索结果停留于浅层文本 匹配 ...