通义DeepResearch重磅开源
上海证券报·2025-09-18 05:10
核心观点 - 通义首个深度研究Agent模型DeepResearch正式开源,参数为30B(激活3B),在多个权威评测集上取得SOTA成绩 [1] 模型训练 - 构建了以合成数据驱动、贯穿预训练与后训练的完整训练链路,无需依赖昂贵的人工标注 [3] - 以Qwen3-30B-A3B模型为基座进行优化,创新性地设计了覆盖真实与虚拟环境的RL算法验证与训练模块 [3] - 结合高效异步强化学习算法及自动化数据策展流程,显著提升模型迭代速度和泛化能力 [3] - 在推理阶段设计了ReAct和基于自研IterResearch的Heavy两种模式,后者通过test-time scaling策略挖掘模型性能上限 [3] 模型性能 - 在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch、WebWalkerQA以及Frames等权威Agent评测集上,以3B激活参数,性能比肩基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent [5] 模型应用 - 与高德地图共同开发的"小高老师"人工智能副驾驶,可执行复杂的旅行规划命令 [7] - 通义法睿在DeepResearch架构赋能下,能自主执行复杂的多步骤法律研究任务,模拟初级律师工作流程 [7] 模型系列 - 通义DeepResearch拥有丰富的Agent家族,包括此前开源的WebWalker、WebDancer和WebSailor等 [9] - 相关模型在Agent合成数据、Agent强化学习等领域取得业界领先成绩 [9]