ReSeek框架
搜索文档
告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent
机器之心· 2025-11-18 05:08
技术挑战与现有瓶颈 - 搜索智能体(Search Agent)旨在解决知识的实时性和推理复杂性两大挑战,通过与实时搜索引擎多轮交互来分解并执行复杂任务[2] - 现有搜索智能体的核心瓶颈是缺乏过程中的自我纠错能力,早期因模糊查询导致的错误会引发连锁式错误(Cascading Errors),最终导致任务失败[2][7] ReSeek框架核心创新 - ReSeek框架由腾讯内容算法中心与清华大学联合提出,其关键创新在于引入了动态自我修正机制,允许智能体在执行过程中主动评估每一步行动的有效性[3] - 该框架扩展了Agent动作空间,引入核心的JUDGE动作,该动作在每次信息获取后被调用,用于评估新信息的有效性,并基于判断结果动态构建后续决策上下文[10][11] - 通过设计密集的中间奖励函数来训练智能体的自我评估能力,当智能体的判断与客观的“理想判断”一致时给予正奖励,反之则给予惩罚[18][20] 评估基准与实验设计 - 为公正评估智能体真实推理能力,团队构建了FictionalHot数据集,通过将真实实体替换为虚构实体并生成对应知识文档,创建一个封闭世界评测环境,以消除预训练模型“数据污染”带来的评估偏差[22][23][24] - 为确保公平比较,ReSeek采用最普遍的训练方法,在NQ和TriviaQA训练集上训练,并以精确匹配(Exact Match, EM)作为主要评估指标,在7个主流公开问答数据集上测试[26] 性能表现与结果分析 - 实验结果表明,ReSeek在3B和7B参数规模上均达到业界领先的平均性能,尤其在HotpotQA和Bamboogle等需要复杂多跳推理的基准上优势突出[29][32] - 在FictionalHot基准上,模型规模(7B vs 3B)对性能的影响显著减小,表明该基准成功消除了模型因规模增大而产生的记忆优势,能更准确衡量程序化推理能力[29] - 消融实验显示,ReSeek的性能从一轮到四轮交互单调递增,而基线模型性能在增至两轮后几乎停滞,证明ReSeek能将更多交互预算转化为真实性能增益,具备更强的自我纠错能力[34][35] - 对JUDGE机制的逐例分析显示,“积极影响”的比例在全部测试上稳定在40-50%之间,而“负面影响”比例通常低于25%,证明该组件是框架中可靠高效的关键部分[38][39] 应用前景与行业意义 - ReSeek框架的核心价值在于为需要实时数据或热点理解等复杂业务场景提供高可靠性的决策支持,其自我纠错机制能显著降低因单点错误导致全盘失败的风险[41] - 该框架代表搜索智能体从“忠实的执行者”向“批判性的思考者”演进的关键突破方向,即赋予智能体自我反思和动态纠错能力[8][41]