Workflow
ZeroSearch
icon
搜索文档
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 04:53
核心观点 - 提出ZeroSearch框架 无需真实搜索即可激活大语言模型搜索能力 通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤 提升推理路径清晰度 格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题 并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量 通过指数函数控制Noisy文档生成概率 实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案 模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎 避免传统方法频繁调用API的高成本 公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术 仅对策略模型自生成token计算损失 防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段:初期缓慢提升难度学习基础逻辑 中期快速提升强化推理 后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线:ZeroSearch-base达40.93分 超过Search-R1-base的39.51分[20] - 参数量扩展性:3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势 单跳问答任务NQ最高43.6分 多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索 波动更小 最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分 超过Prompt-7B的31.39分 验证微调必要性[28] - 交互轮数呈现U型变化:初期冗余调用导致高轮数 中期效率提升轮数下降 后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练 验证系统性能力提升路径的有效性[36]
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
量子位· 2025-05-17 03:50
强化学习框架ZeroSearch的核心创新 - 开源ZeroSearch框架通过模拟搜索引擎环境实现无需真实API交互的强化学习训练,显著降低训练成本[4][19] - 仅需3B参数LLM作为检索模块即可达到与真实搜索引擎相当的效果,14B参数版本甚至超越谷歌搜索性能[5][30][31] - 采用渐进式抗噪训练策略,初期提供高质量文档,后期按指数曲线增加噪声比例以提升模型鲁棒性[12][13][17] 技术实现细节 - 轻量微调使LLM具备生成"有用结果"和"噪声干扰"文档的双重能力,模拟真实搜索场景[7][10][11] - 兼容PPO和GRPO等多种强化学习算法,GRPO在稳定性上表现更优,PPO在任务灵活性上更具优势[19][21][34][35] - 通过课程学习机制动态调整文档质量,使模型从简单场景逐步过渡到复杂检索任务[13][14][17] 性能表现对比 - 在单跳问答任务中,ZeroSearch-base模型平均准确率达38.61%,显著高于RAG(25.51%)和RA-Agent(20.71%)[24][25] - 多跳问答任务中,ZeroSearch-instruction版本以40.54%平均准确率超越所有基线方法,展示复杂推理能力[24][26] - LLaMA-3.2-3B模型上ZeroSearch奖励曲线比真实搜索引擎(Search-R1)更平滑且最终性能更高[28][29] 经济性与扩展性优势 - 完全消除搜索引擎API调用成本,使大规模RL训练经济可行[19][22] - 7B参数模型即达到谷歌搜索水平,参数扩展性验证其在大型模型的应用潜力[30][31] - 训练数据自生成机制形成闭环生态,提升训练灵活性和可扩展性[18][22][37]
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 09:35
阿里巴巴通义团队开源ZeroSearch解决方案 - 仅需70.8美元在4块A100 GPU上运行140亿参数模型,即可获得媲美谷歌搜索的AI搜索能力 [1] - ZeroSearch是由大模型驱动的生成式搜索引擎框架,训练过程无需调用外部搜索接口,实现低成本高性能检索能力构建 [1] - 解决方案通过强化学习框架在不与真实搜索引擎交互的前提下训练出"搜索能力" [2] ZeroSearch技术原理 - 采用轻量级监督微调将大模型转化为检索模块,能根据查询生成相关与干扰文档 [2][8] - 引入基于课程学习的rollout策略,逐步降低生成文档质量,挑战模型推理和检索能力 [8] - 训练过程中由模拟引擎直接生成文档模拟搜索结果,完全无需调用真实搜索引擎 [6] 性能表现与成本优势 - 在多个实验场景中实现80%-90%训练成本降低 [10] - 使用14B参数模型训练成本仅70.8美元,相比传统方法成本降低高达88% [16] - 7B参数模型已可与谷歌搜索媲美,14B参数版本甚至超越谷歌搜索结果质量 [15] 实验结果 - 在NQ、TriviaQA等7个公开问答数据集上均超过或持平使用真实搜索引擎训练的模型 [15] - ZeroSearch-inst版本在多个任务中表现最佳,平均得分达40.54 [11] - 在TriviaQA任务中得分高达63.54,显著优于谷歌搜索的61.22 [11][15] 应用与扩展性 - 方案已开源代码、数据集和预训练模型 [15] - 可广泛兼容各类LLM,包括Qwen 2.5与LLaMA 3.2等基础版与指令微调版 [16] - 显示出极强的可泛化性和扩展能力 [16]
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
AI前线· 2025-05-09 05:18
核心技术突破 - 阿里巴巴研究人员发布名为"ZeroSearch"的新技术,可完全消除对昂贵商业搜索引擎API的需求,大幅降低AI系统训练成本和复杂度[1] - 该技术采用强化学习框架,允许大语言模型通过模拟方式开发高级搜索功能,无需在训练过程中与真实搜索引擎交互[2] - 使用3B参数的LLM作为模拟搜索引擎即可有效提升搜索能力,70亿参数模块性能媲美谷歌搜索,140亿参数模块甚至超越谷歌[3] 性能表现 - 在七个问答数据集测试中,ZeroSearch性能与真实搜索引擎训练模型相当或更优[3] - 表格数据显示ZeroSearch-inst在Qwen-2.5-7B模型上平均得分达40.54,显著高于传统方法[5] - 14B参数的SFT模型平均得分33.97,超越Google搜索引擎的32.47[6] 成本优势 - 使用64000个搜索查询训练时,Google API成本586.7美元,而14B参数模拟LLM仅需70.8美元,成本降低88%[7] - 技术消除了大规模RL训练中数十万次API调用产生的高额费用[2] 技术实现原理 - 通过轻量级监督微调将LLM转化为检索模块,生成相关和不相关文档响应查询[9] - 采用基于课程搜索模拟的推出策略,逐步增加训练难度[11] - 使用基于F1分数的奖励信号作为强化学习监督[12] 行业影响 - 技术突破可能改变AI开发经济模式,减少对大型技术平台的依赖[14] - 为预算有限的小型AI公司和初创企业创造公平竞争环境[14] - 显示AI系统可不依赖外部工具实现能力提升,未来技术格局或将重塑[15] 适用性与扩展性 - 技术适用于Qwen-2.5和LLaMA-3.2等多个模型系列[2] - 兼容PPO、GRPO等各种RL算法,无需单独监督预热阶段[2] - 增加GPU数量可显著提升模拟LLM生成吞吐量,实现高效大规模部署[4]