Workflow
阿里开源通义DeepResearch,性能超OpenAI、DeepSeek旗舰模型
新浪科技·2025-09-17 03:33

模型性能表现 - 在Humanity's Last Exam评测中取得32.9分 超越OpenAI o3的24.9分和DeepSeek V3.1的29.8分 [2] - 在GAIA评测中获得70.9分 高于Claude-4-Sonnet的68.3分和OpenAI o3的未公布分数 [2] - 在WebWalkerQA测试中达到72.2分 超过OpenAI o3的71.7分和DeepSeek V3.1的61.2分 [2] 技术架构创新 - 采用合成数据驱动的完整训练链路 解决长周期任务中的"认知空间窒息"和"噪声污染"问题 [1] - 基于3B激活参数架构 在多个权威评测集上实现SOTA性能表现 [1][2] - 模型框架和方案已全面开源 可通过Github、Hugging Face和魔搭社区获取 [1] 竞品对比优势 - 在BrowseComp-ZH评测中获得43.4分 优于OpenAI 04-mini的28.3分但低于OpenAI o3的49.7分 [2] - 在FRAMES测试中取得90.6分 显著超越Claude-4-Sonnet的80.7分和DeepSeek V3.1的83.7分 [2] - 在xbench-deepsearch评测达到75.0分 高于DeepSeek V3.1的71.0分和Kimi Researcher的69.0分 [2]