Seek .-阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型

模型性能表现 - 在Humanity's Last Exam评测中取得32.9分超越OpenAI o3的24.9分和DeepSeek V3.1的29.8分 [2] - 在GAIA评测中获得70.9分高于Claude-4-Sonnet的68.3分和OpenAI o3的未公布分数 [2] - 在WebWalkerQA测试中达到72.2分超过OpenAI o3的71.7分和DeepSeek V3.1的61.2分 [2] 技术架构创新 - 采用合成数据驱动的完整训练链路解决长周期任务中的"认知空间窒息"和"噪声污染"问题 [1] - 基于3B激活参数架构在多个权威评测集上实现SOTA性能表现 [1][2] - 模型框架和方案已全面开源可通过Github、Hugging Face和魔搭社区获取 [1] 竞品对比优势 - 在BrowseComp-ZH评测中获得43.4分优于OpenAI 04-mini的28.3分但低于OpenAI o3的49.7分 [2] - 在FRAMES测试中取得90.6分显著超越Claude-4-Sonnet的80.7分和DeepSeek V3.1的83.7分 [2] - 在xbench-deepsearch评测达到75.0分高于DeepSeek V3.1的71.0分和Kimi Researcher的69.0分 [2]