Workflow
推理密集型信息检索
icon
搜索文档
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
36氪· 2025-08-27 13:04
技术突破 - BGE-Reasoner在BRIGHT基准测试中获得45.2分,以领先第二名3.6分的优势刷新历史最佳纪录 [1][5][7] - 该方案通过三阶段模块化框架(查询改写/向量检索/重排序)显著提升推理密集型检索性能 [2][6][16] - 内置向量模型BGE-Reasoner-Embed超越Seed1.5-Embedding、Qwen3-Embedding等基线模型 [5][9] 技术架构 - 采用Rewriter(基于Qwen2.5-7B微调)、Embedder(基于Qwen3-8B微调)、Reranker(基于Qwen3系列微调)的三模块端到端架构 [10][11][12] - 使用大模型合成覆盖数学/代码等多领域的高质量训练数据,解决数据稀缺问题 [6][10] - 在Reranker训练中引入强化学习,提升模型对困难样本的推理泛化能力 [6][12] 行业地位 - 超越蚂蚁集团与中山大学联合研发的DIVER(41.6分)、百度与人民大学等机构开发的ReasonRank(40.8分)等竞争对手 [5][7] - 由中科大、智源研究院、北邮、港理工等机构联合研发,是BGE系列模型的重要里程碑 [1][2] - 技术方案及训练数据将面向社区开源,推动领域研究发展 [2] 应用场景 - 专门针对需要多步逻辑推理、语义链整合和背景知识运用的复杂检索场景 [3][10] - 对RAG技术和AI Agent在深度研究等复杂推理任务中的发展具有决定性意义 [1][3] - BRIGHT基准包含StackExchange、LeetCode、数学竞赛等领域的真实查询数据 [3]
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
机器之心· 2025-08-27 08:36
核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展 以45.2分刷新BRIGHT基准纪录 领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题 显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术 突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架:Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调:Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程:原始查询经改写后 由Embedder与BM25并行检索 最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分 超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分 显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性 强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据 覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径 采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈 验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展 解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源 促进检索与人工智能领域研究应用[6][25] - 由中科大 智源研究院 北邮与港理工联合研发 体现中国在AI前沿领域的创新能力[2][25]