Workflow
WebDancer
icon
搜索文档
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源
量子位· 2025-06-27 04:40
阿里WebDancer技术发布 - 公司发布端到端自主信息搜索智能体WebDancer,具备多步推理、工具使用和泛化能力,可模拟人类上网行为执行网页遍历、信息搜索等复杂任务[1][3][9] - 该智能体在GAIA和WebWalkerQA基准测试中分别取得61.1%和54.6%的Pass@3分数,平均准确率达46.6%和43.2%,优于基线模型和部分开源框架[4][33] - 技术框架已开源,包含训练范式、模型代码及实现方法,支持其他智能代理获取自主搜索能力[5][11] 四阶段训练范式 - **浏览数据构建**:通过CRAWLQA收集知识网站主URL并模拟点击子链接,结合GPT-4o生成复杂QA对;E2HQA通过实体检索-信息扩展-问题重构实现难度递进[12][14][15][16][17] - **轨迹采样**:采用ReAct框架生成思维-动作-观察轨迹,通过双路径采样(短/长思维链)和漏斗式过滤保留非冗余、目标一致且逻辑准确的轨迹[20][21][22] - **监督微调**:将轨迹转换为标记化输入,计算思维/动作部分损失,保留模型原有推理能力的同时教会任务分解与工具调用[23][25][26] - **强化学习**:采用DAPO算法优化策略,结合格式奖励(权重0.1)和答案奖励(权重0.9)的混合机制提升决策泛化能力[28][29][31][32] 性能验证与对比 - 在BrowseComp英文/中文数据集上分别取得2.8/5.0和13.5/22.2分数,显著优于GPT-4o(英文0.6)和QwQ-32B(中文11.1)等对比模型[35][36] - 闭源框架OpenAI DR在GAIA测试中达74.3分最高,但WebDancer作为开源方案在同类中表现突出,尤其QwQ-32B基础版本达53.8分[33][34] - RL训练后Pass@1性能与SFT基线的Pass@3相当,证明强化学习能更有效采样正确响应,但对语言推理模型的提升主要体现在一致性而非通过率[38]
通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
机器之心· 2025-06-12 06:08
背景与挑战 - 当前信息爆炸时代需要智能体具备深度信息挖掘和多步推理能力,但面临任务复杂度高、泛化能力弱等挑战[4] - 自主信息检索智能体构建的两大难题:高质量训练数据稀缺(如GAIA仅466样本、WebWalkerQA仅680样本)和开放环境训练复杂性[5][11] - WebDancer需具备看懂网页、多步决策、适应动态环境、自主提问/行动/修正等核心能力[7] 数据创新 - 采用CRAWLQA(模拟人类浏览权威网站)和E2HQA(逐步增强问题复杂度)构建海量高质量问答对[16] - 通过三阶段数据过滤(有效性控制、正确性验证、质量评估)确保数据质量[15][17] - 使用ReAct框架进行思维链蒸馏,内化agentic能力至模型[13][14] 训练策略 - 两阶段训练:监督微调(SFT)实现冷启动,强化学习(RL)优化决策能力[21][22] - 采用DAPO算法动态采样未被充分利用数据对,提升数据效率[23][24] - 通过并行计算等技术降低RL阶段计算成本,每次回滚时间减少25%[25] 性能表现 - GAIA测试:WebDancer在Level 1/2/3任务分别达56.4%、48.1%、25%,平均46.6%,超越GPT-4o基线34.6%[32][33] - WebWalkerQA测试:中等/高难度任务提升显著,平均分达43.2%[30][32] - BrowseComp测试:英文任务达5.0分,中文任务达22.2分,显著优于GPT-4o的1.9分和6.2分[34][35] 未来方向 - 计划集成浏览器建模、Python沙盒等工具扩展能力边界[41] - 从短答案检索向开放域长文本写作任务扩展[42] - 通过6k条长思维链数据即可在GAIA实现高效训练,验证"数据贵精不贵多"[47] 技术定位 - 聚焦从头训练具备agentic能力的开源模型,而非依赖闭源模型提示工程[44] - 采用原生ReAct框架实现自主规划、自我反思和行动执行等涌现能力[45]
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 04:01
核心观点 - 通义实验室推出自主信息检索智能体WebDancer,具备多步推理与连续动作执行能力,解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法(CRAWLQA、E2HQA)和两阶段训练策略(监督微调+强化学习),显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型,最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺(现有数据集如2WIKI仅支持浅层问题)、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - **CRAWLQA**:模拟人类浏览行为爬取权威网站(arXiv、Wikipedia),生成多样化真实问答对[6] - **E2HQA**:采用"由简到难"策略构建多步推理问答,通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容,确保逻辑性与多样性[9][10] 训练方法 - **监督微调(SFT)**:屏蔽Observation干扰,专注Thought-Action损失计算,提升鲁棒性[12] - **强化学习(RL)**:采用DAPO算法动态采样低利用率数据,优化奖励函数设计,降低训练成本[13][15] 实验结果 - **GAIA数据集**:WebDancer+QwQ-32B组合达到56.4% Level 1准确率,显著高于Qwen-2.5-32B(20.5%)[20] - **WebWalkerQA数据集**:中等难度任务中WebDancer表现最优(55.0% vs 基线35.0%)[20] - **BrowseComp数据集**:中文任务得分22.2,远超GPT-4o(6.2)[21][22] 未来方向 - 扩展工具集成(浏览器建模、Python沙盒)以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸,提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]