OpenAI DeepResearch

搜索文档
阿里开源通义DeepResearch,性能超OpenAI、DeepSeek旗舰模型
新浪科技· 2025-09-17 03:33
模型性能表现 - 在Humanity's Last Exam评测中取得32.9分 超越OpenAI o3的24.9分和DeepSeek V3.1的29.8分 [2] - 在GAIA评测中获得70.9分 高于Claude-4-Sonnet的68.3分和OpenAI o3的未公布分数 [2] - 在WebWalkerQA测试中达到72.2分 超过OpenAI o3的71.7分和DeepSeek V3.1的61.2分 [2] 技术架构创新 - 采用合成数据驱动的完整训练链路 解决长周期任务中的"认知空间窒息"和"噪声污染"问题 [1] - 基于3B激活参数架构 在多个权威评测集上实现SOTA性能表现 [1][2] - 模型框架和方案已全面开源 可通过Github、Hugging Face和魔搭社区获取 [1] 竞品对比优势 - 在BrowseComp-ZH评测中获得43.4分 优于OpenAI 04-mini的28.3分但低于OpenAI o3的49.7分 [2] - 在FRAMES测试中取得90.6分 显著超越Claude-4-Sonnet的80.7分和DeepSeek V3.1的83.7分 [2] - 在xbench-deepsearch评测达到75.0分 高于DeepSeek V3.1的71.0分和Kimi Researcher的69.0分 [2]
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
量子位· 2025-05-06 04:24
核心观点 - 新基准测试集BrowseComp-ZH显示主流大模型在中文网页检索任务中表现极差,GPT-4o准确率仅6.2%,最佳模型OpenAI DeepResearch也仅42.9% [1][13][26] - 中文互联网环境具有信息碎片化、搜索入口多样、语言表达复杂等独特挑战,需原生设计测试集而非简单翻译英文基准 [4][5][6] - 模型需具备多跳推理、信息整合能力而非单纯记忆或单次检索,才能有效应对中文网页任务 [14][15][19] 测试集设计 - 采用逆向设计法构建289道高难度中文多跳检索题,覆盖11大领域,确保问题有唯一可验证答案 [7] - 题目模拟真实中文互联网痛点:信息分散于百度百科/微博等多平台、语言含省略/典故、搜索引擎质量参差 [9] - 验证显示百度/Bing/Google首屏无法直接命中答案,人工确认问题结构清晰且答案唯一 [10] 模型表现分析 - 纯记忆模型准确率普遍低于10%,DeepSeek-R1(23.2%)比无搜索版本(8.7%)高14.5%,凸显推理能力重要性 [16][18] - 多轮检索模型全面领先,单次检索模型(如Kimi、Yuanbao)准确率低至个位数 [20] - 部分模型开启搜索功能后性能反降,如DeepSeek-R1准确率从23.2%跌至7.6%,因未能融合网页与既有知识 [22][23] 头部模型排名 - OpenAI DeepResearch以42.9%居首,豆包Deep Search(26.0%)和Perplexity Research模式(22.6%)分列二三名 [27][26] 行业影响 - 数据集已开源,旨在推动LLM中文信息处理能力发展,助力构建真正"会用中文上网"的智能体 [24][25] - 研究团队计划扩充样本规模、拓展问答形式并分析模型推理路径 [26]