Workflow
Deep Research Agent
icon
搜索文档
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-20 02:33
芯片领域动态 - 谷歌推出TorchTPU芯片 [3] - 苹果研发AI服务器芯片 [3] 大模型与算法进展 - 谷歌发布Gemini 3 Flash模型 [3] - 字节跳动发布Seed1.8模型 [3] - 小米发布MiMo-V2-Flash模型 [3] - 英伟达发布Nemotron 3模型 [3] - OpenAI研究Circuit-Sparsity模型稀疏化技术 [3] - Thinking Machines发布Tinker模型 [3] - OpenAI可能正在开发GPT-5.2模型 [3] - OpenAI建立科学能力基准 [4] AI应用与产品发布 - OpenAI计划推出ChatGPT应用商店 [3] - 阶跃星辰发布Step-GUI应用 [3] - xAI为Grok推出Grok Voice功能 [3] - 行业在开发Agent API [3] - 苹果规划AI眼镜产品 [3] - OpenAI推出ChatGPT Images功能 [3] - Meta发布SAM Audio应用 [3] - 腾讯发布混元世界模型1.5 [3] - Vidu发布Vidu Agent应用 [3] - 谷歌推出Super Gems应用 [3] - 腾讯元宝推出写作模式 [3] - 通义万相推出角色扮演功能 [3] - 字节跳动发布Seedance 1.5 pro应用 [3] - 长安汽车与北汽集团推进L3级自动驾驶 [3] - Manus发布Manus 1.6应用 [3] - 谷歌推出NotebookLM应用 [3] - 通义发布Fun语音模型 [4] - Zoom推出Zoom AI功能 [4] - 行业出现医学版ChatGPT应用 [4] - Gemini推出Deep Research Agent [4] - Runway发布GWM-1应用 [4] - 谷歌将翻译功能融合进Gemini [4] - 拓竹科技与混元合作推出「印你」应用 [4] - 宇树科技推出机器人应用商店 [4] 前沿科技与行业观点 - Harmonic研究Erdos1026问题 [4] - 风险投资机构a16z提出AI泡沫判断标准 [4] - OpenAI研究记忆系统 [4] - 谷歌研究递归自我改进技术 [4] - 多款AI模型面临“AI手指”生成难题 [4] - 媒体披露OpenAI的Sora模型开发内幕 [4] - 行业关注AI生成的成人内容市场 [4] - DeepMind对AGI(通用人工智能)到来做出预测 [4] - 数据分析公司Similarweb揭示AI用户趋势 [4] - OpenAI与迪士尼探讨合作 [4]
首个开源多模态Deep Research智能体,超越多个闭源方案
量子位· 2025-08-15 06:44
开源多模态Deep Research Agent - 首个开源多模态Deep Research Agent整合了网页浏览、图像搜索、代码解释器、内部OCR等多种工具,通过全自动流程生成高质量推理轨迹 [1] - 采用冷启动微调和强化学习优化决策,使模型能自主选择合适的工具组合和推理路径 [1] - 解决跨模态、跨工具、多步骤任务需要具备深度研究能力的Agent [5] 技术方案 - WebWatcher技术方案覆盖从数据构建到训练优化的完整链路,包含三大环节:多模态高难度数据生成、高质量推理轨迹构建与后训练、高难度基准评测 [6] - 多模态高难度数据生成采用全自动多模态数据生成流程,在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本 [8] - 高质量推理轨迹构建与后训练采用Action-Observation驱动的轨迹生成方法,通过监督微调和GRPO强化学习提升决策能力 [14] 数据生成方法 - 在多源网页中进行随机游走采样,构建多领域实体图谱,问题解决路线难以预设 [10] - 生成问题时刻意隐藏关键信息并引入模糊指代词描述,迫使模型进行跨模态推理 [11] - 通过QA-to-VQA转换模块将复杂问题样本扩展为多模态版本,依赖跨模态理解能力 [12] 性能表现 - 在HLE-VL多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数领先GPT-4o(9.8%)和Gemini2.5-flash(9.2%) [20] - 在MMSearch评测中Pass@1得分55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先 [21] - 在LiveVQA场景下Pass@1成绩58.7%,领先Gemini2.5-flash(41.3%)和GPT-4o(34.0%) [22] - 在BrowseComp-VL基准上以27.0%的平均得分领先GPT-4o(13.4%)和Gemini2.5-flash(13.0%) [23]