Workflow
DeepSearchQA
icon
搜索文档
谷歌智能体发力:增强版Gemini Deep Research和专属API都来了
量子位· 2025-12-12 06:41
谷歌Gemini生态重大升级 - 谷歌正式发布增强版Gemini Deep Research智能体,该智能体基于Gemini 3 Pro构建,专门用于减少幻觉,在复杂信息检索与分析任务上表现领先 [3] - 该增强版智能体很快将被集成到谷歌搜索、NotebookLM、Google Finance以及升级版的Gemini App中 [3] - 此次更新不仅是Deep Research的升级,更是整个Gemini生态的一次大升级 [8] 增强版Deep Research的核心能力 - 增强版Gemini Deep Research能够实现迭代式推理,不仅能提出查询需求,还能读取和整合搜索结果,发现知识空白,然后针对性地开展新一轮搜索 [10][13] - 通过这种循环式操作,它大幅提升了网络搜索能力,能够深入网站抓取精确信息 [10] - 这种能力让该智能体在复杂研究任务中表现出色,在人类最后的考试HLE、BrowseComp、和DeepSearchQA等测试中刷新了SOTA成绩 [10] 配套发布的DeepSearchQA基准测试 - 谷歌配套推出了DeepSearchQA基准测试集,为深度搜索与研究任务提供了更全面的评估标准 [5] - 该基准测试集包含来自17个领域的900个手工设计的因果链任务,要求生成详尽的答案集合,比传统事实检索测试更能衡量智能体在多步推理与信息融合中的综合能力 [12] - 在DeepSearchQA基准测试中,Gemini Deep Research Agent的“完全正确”率为66.1%,领先于GPT-5 Pro的65.2%和GPT-5的59.4% [14] 全新发布的Interactions API - 谷歌同时发布了Interactions API,为开发者提供了与Gemini 3 Pro和Deep Research智能体交互的统一接口 [6] - 该API设计了原生接口,提供一个统一的RESTful端点,通过指定模型或智能体参数,就能与模型和智能体进行复杂上下文的交互 [16] - 该API特别适合需要多步骤推理、工具调用以及长程任务执行的场景,扩展了generate Content的核心能力,具备服务器端状态可选、可解释且可组合的数据模型等特性 [17][18]
对抗 OpenAI GPT-5.2,谷歌推出Gemini Deep Research智能体
环球网资讯· 2025-12-12 03:53
谷歌AI产品重大升级 - 谷歌在OpenAI发布GPT-5.2后,迅速推出Gemini Deep Research深度研究智能体、全新Interactions API,并开源深度搜索评估基准DeepSearchQA [1] - 此次升级标志着AI自主研究能力正式迈入工业化应用阶段,为各行业复杂研究任务提供新的技术解决方案 [1] Gemini Deep Research核心能力 - 该智能体基于Gemini 3 Pro构建,专为长周期内容收集与综合任务优化,其幻觉率较此前模型降低40%,是谷歌迄今“最具事实性”的智能模型 [3] - 通过扩展面向搜索的多步骤强化学习,能在复杂信息环境中以更高精度自主导航,通过反复规划研究路径实现深度信息挖掘 [3] - 在谷歌新基准测试中得分46.4%,在BrowseComp基准上表现与GPT-5 Pro相当,而价格仅为后者的十分之一左右 [3] - 在Humanity's Last Exam、DeepSearchQA及BrowseComp等多项权威评测中均取得最新最优成绩,可在显著降低成本的同时生成高质量深入研究报告 [3] 应用场景与行业价值 - 该能力未来将逐步应用于Google Search、NotebookLM、Google Finance及Gemini App等核心产品 [3] - 在金融服务领域,企业借助该智能体自动化完成尽职调查中的早期信息收集工作,整合市场信号、竞争格局与合规风险等关键信息,大幅提升研究效率 [4] - 在生物技术领域,Axiom Bio利用其处理药物毒性预测相关的文献分析,获得了更高的研究深度与颗粒度,有效加速了药物开发流程 [4] - 在市场研究等领域,该智能体也凭借其强大的信息整合能力助力企业提升决策科学性 [4] DeepSearchQA评估基准 - 为解决现有评测难以体现真实世界多步骤研究复杂性的问题,谷歌同步开放DeepSearchQA数据集与工具 [4] - 该基准涵盖17个领域、900个“因果链”任务,每个任务的每一步均依赖前序分析,要求智能体生成详尽答案集,以此精准衡量其研究精度与检索全面性 [4] - DeepSearchQA还可作为“思考时间”效益的诊断工具,谷歌内部测试显示,增加智能体的搜索与推理步骤可显著提升其任务表现 [4] - 目前,开发者可访问该数据集、排行榜与Colab示例,并查阅相关技术报告 [4] Interactions API功能特性 - 通过Interactions API,开发者可调用Gemini Deep Research构建下一代自动化研究工具 [5] - API具备统一信息综合功能,可整合上传文件(PDF、CSV等格式)与公共网页数据,且能处理大上下文量信息 [5] - 支持通过提示词定义输出结构、标题、表格格式等,实现可控的报告生成 [5] - 可为报告中各项事实提供细粒度来源引用,保障信息可信度 [5] - 支持JSON schema结构化输出,方便下游环节处理 [5] - 开发者可通过Google AI Studio的Gemini API Key使用该API构建应用 [5] 未来发展规划 - 未来将持续升级相关功能,计划加入原生图表输出能力 [6] - 计划扩展Model Context Protocol支持以接入更多自定义数据源 [6] - 将在企业服务平台Vertex AI上推出Deep Research服务,为企业用户提供更全面的技术支持,推动AI深度研究能力在更多行业场景的落地应用 [6]
谷歌深夜重磅开源,深度研究Agent拿下SOTA,比GPT-5 pro便宜90%
36氪· 2025-12-12 00:49
核心观点 - 谷歌发布三项Agent相关重大更新,包括升级并向开发者开放Deep Research Agent、开源基准测试DeepSearchQA以及推出交互API,旨在强化其Gemini生态并简化Agent开发流程 [1][5][16] Deep Research Agent功能更新 - 该Agent基于Gemini 3 Pro模型构建,专为长期上下文和复杂信息综合任务优化,通过迭代式提问、搜索和识别知识空白来运行 [3][7] - 新版本功能更新包括:针对特定数据进行更深入的网页搜索、以更低成本生成深度研究报告 [3][7][9] - 在性能基准测试中,新Gemini Deep Research Agent在完整HLE测试中得分46.4%,优于Gemini 3 Pro的43.2%和GPT-5 Pro的38.9% [7] - 在成本方面,该Agent在BrowseComp基准上与GPT-5 Pro性能相当,但价格约为后者的十分之一 [3] - 该Agent已应用于金融服务、生物技术和市场调研等需要高精度的复杂领域,帮助完成初步调研任务 [9] - 为开发者提供的核心能力包括:统一信息综合(支持文件上传、网络数据分析和长上下文处理)、报告可控性(用户可定义结构和格式)、提供详细引用来源、支持JSON结构化输出以便下游应用解析 [9] - 该Agent将很快在谷歌搜索、笔记本、谷歌金融中提供,并在Gemini应用中升级 [5] DeepSearchQA基准测试 - DeepSearchQA是一个新开源的网络研究Agent基准,旨在测试Agent在复杂、多步查询任务中的全面性 [5][11] - 该基准包含900个手工设计的“因果链”任务,涵盖17个不同领域 [5][12] - 与传统的基于事实的测试不同,它衡量的是生成详尽答案集的全面性,评估研究的准确性和检索的记忆能力 [12] - 该基准还可作为衡量“思考时长”效率的工具,谷歌内部评估发现,允许Agent执行更多搜索与推理步骤时,其性能会显著提升 [12] 交互API (Interactions API) - 交互API是一个与Gemini模型和Agent交互的统一界面,通过Google AI Studio中的Gemini API公开测试版向开发者开放 [5][14] - 它原生集成了专为Agent应用开发设计的接口,可高效处理交错式消息、思维链、工具调用及状态信息等复杂上下文管理工作 [14] - 该API提供了首个内置Agent,即Gemini Deep Research Agent,未来将扩展更多内置Agent并支持开发者引入定制Agent [14] - 核心扩展功能包括:可选的服务器端状态(简化客户端代码并可能降低成本)、可解释和可组合的数据模型(便于调试和分析)、背景执行(支持长期运行的推理环路)、远程MCP工具支持(模型可直接调用MCP服务器) [15] - 它提供了一个单一的RESTful端点用于交互 [14] 战略与生态影响 - 此次更新是谷歌Gemini生态的再次扩容,通过发布交互API简化了与Gemini模型和Agent的交互流程,旨在构建更易用的开发生态 [16] - 公司未来的更新将聚焦于更丰富的输出(如原生生成图表以支持可视化分析报告)、通过MCP支持扩展连接性以更轻松访问自定义数据源,并努力将Gemini Deep Research引入企业用的Vertex AI平台 [16]