Workflow
信息检索形式化建模
icon
搜索文档
通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
机器之心· 2025-07-29 10:31
WebShaper技术突破 - 首次提出对information-seeking(IS)任务的形式化建模并设计训练数据合成方法,采用全开源模型方案在GAIA评测中取得60.1分的SOTA表现[1][6][30] - 开创性提出"形式化驱动"新范式,通过数学建模IS任务并合成训练数据,突破传统"信息驱动"范式的局限性[9][15] - 基于集合论构建IS任务形式化模型,引入"知识投影(KP)"核心概念,实现可控、可解释、可扩展的数据合成[11][13][14][17] 技术方案创新 - 采用智能体式扩展合成方法,通过Expander模块实现种子任务的多步扩展,确保任务正确性和推理严谨性[18][25] - 提出逐层扩展结构策略,有效解决冗余性和推理捷径问题,提升数据质量[23][24][28] - 训练方案采用监督微调(SFT)+GRPO强化学习策略,生成5k高质量训练轨迹[26] 性能表现 - 在GAIA基准任务中60.1分,超越所有开源方案,接近最强闭源模型O4 mini的66.99分[6][30] - 大幅领先GPT4.1(40.7分)和Claude Sonnet4(58.2分)等闭源模型[30] - 消融实验验证形式化建模和逐层扩展策略的有效性[31] 行业影响 - 补足GAIA、Browsecomp等平台高质量训练数据缺口,推动智能体信息检索能力发展[2][7] - 实现从启发式理解到形式化定义的认知深化,为复杂任务数据合成提供新思路[2][35] - 全开源方案降低技术门槛,推动社区生态繁荣[34][35] 资源开放 - 开源高质量QA数据集和模型,包括GitHub、huggingface和modelscope平台资源[4][8] - 提供完整技术方案和训练细节,支持行业复现和应用[26][34]