ReasonRank

搜索文档
击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
机器之心· 2025-08-21 04:12
研究背景与成果 - 提出ReasonRank模型,利用推理大模型通过主动推理判断文档相关性并进行排序,在BRIGHT和R2MED等多个榜单击败UMASS大学、Waterloo大学和Meta等机构,于2025年8月9日荣登榜单第一名 [2] - ReasonRank-7B模型超越其他32B大小的推理型排序大模型,同时相比pointwise排序器具备明显效率优势,论文获得Huggingface paper日榜第一名 [2] - 在BRIGHT benchmark上取得40.8分,超越第二名XRR2的40.3分和第三名RaDeR with Qwen reranking的39.2分 [3] 研究动机与方法 - 现有推理型排序器依赖MSMARCO等传统web搜索数据训练,这些数据侧重简单语义或词匹配,导致模型在复杂搜索场景泛化能力受限,而人工标注构造推理密集型排序训练数据代价高 [7][8] - 提出基于DeepSeek-R1的自动化数据合成框架,生成13K高质量推理密集型listwise排序训练数据,并设计两阶段训练框架包括监督微调(SFT)和强化学习(RL) [9][10] - 将复杂搜索查询分为四大类:复杂问答型查询、代码类查询、数学类查询和网页搜索类查询 [16] 数据合成与训练 - 利用DeepSeek-R1从海量web页面和文档库挖掘相关文档及不相关文档,提供query人工标注答案提高挖掘准确性,得到pointwise训练标签,再对候选文档进行listwise排序得到listwise训练标签 [13] - 设计自一致性数据过滤机制,利用pointwise标签对listwise标签计算NDCG@10,小于阈值α的数据被过滤,最终得到13K高质量多领域训练数据集 [14] - 在RL阶段设计multi-view ranking reward,包括召回视角(Recall@10)、排序相似度视角(RBO)和NDCG@10结合,使用GRPO算法进行优化 [19][20][21] 实验结果 - ReasonRank-32B在BRIGHT和R2MED上分别超越最好baselines 4-5个点,ReasonRank-7B甚至优于所有32B的baselines [22] - 在传统IR benchmark BEIR上实验证明良好泛化性,在Covid、DBPedia、SciFact等数据集上表现优异 [23] - ReasonRank在BRIGHT上效率显著高于pointwise排序器Rank1,因一次处理20个段落只生成一条推理链,大大减少输出token数量 [26] 消融实验与未来方向 - 消融实验证明多领域数据集相比单领域MSMARCO的效果优势,以及两阶段训练框架和multi-view ranking reward设计的合理性 [28] - 未来方向包括引入非推理型数据使模型灵活适应不同难度搜索场景,探索基于全排序的推理型重排序方法,尝试Llama 3.1和Qwen3等多样化模型骨干 [30] 论文与资源 - 论文标题为"ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability",发布于arXiv [5] - 代码仓库和开源数据及模型可在GitHub和Huggingface获取 [5][6]