Workflow
自主信息检索智能体
icon
搜索文档
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源
量子位· 2025-06-27 04:40
阿里WebDancer技术发布 - 公司发布端到端自主信息搜索智能体WebDancer,具备多步推理、工具使用和泛化能力,可模拟人类上网行为执行网页遍历、信息搜索等复杂任务[1][3][9] - 该智能体在GAIA和WebWalkerQA基准测试中分别取得61.1%和54.6%的Pass@3分数,平均准确率达46.6%和43.2%,优于基线模型和部分开源框架[4][33] - 技术框架已开源,包含训练范式、模型代码及实现方法,支持其他智能代理获取自主搜索能力[5][11] 四阶段训练范式 - **浏览数据构建**:通过CRAWLQA收集知识网站主URL并模拟点击子链接,结合GPT-4o生成复杂QA对;E2HQA通过实体检索-信息扩展-问题重构实现难度递进[12][14][15][16][17] - **轨迹采样**:采用ReAct框架生成思维-动作-观察轨迹,通过双路径采样(短/长思维链)和漏斗式过滤保留非冗余、目标一致且逻辑准确的轨迹[20][21][22] - **监督微调**:将轨迹转换为标记化输入,计算思维/动作部分损失,保留模型原有推理能力的同时教会任务分解与工具调用[23][25][26] - **强化学习**:采用DAPO算法优化策略,结合格式奖励(权重0.1)和答案奖励(权重0.9)的混合机制提升决策泛化能力[28][29][31][32] 性能验证与对比 - 在BrowseComp英文/中文数据集上分别取得2.8/5.0和13.5/22.2分数,显著优于GPT-4o(英文0.6)和QwQ-32B(中文11.1)等对比模型[35][36] - 闭源框架OpenAI DR在GAIA测试中达74.3分最高,但WebDancer作为开源方案在同类中表现突出,尤其QwQ-32B基础版本达53.8分[33][34] - RL训练后Pass@1性能与SFT基线的Pass@3相当,证明强化学习能更有效采样正确响应,但对语言推理模型的提升主要体现在一致性而非通过率[38]