Workflow
交互API(Interactions API)
icon
搜索文档
谷歌深夜重磅开源,深度研究Agent拿下SOTA,比GPT-5 pro便宜90%
36氪· 2025-12-12 00:49
核心观点 - 谷歌发布三项Agent相关重大更新,包括升级并向开发者开放Deep Research Agent、开源基准测试DeepSearchQA以及推出交互API,旨在强化其Gemini生态并简化Agent开发流程 [1][5][16] Deep Research Agent功能更新 - 该Agent基于Gemini 3 Pro模型构建,专为长期上下文和复杂信息综合任务优化,通过迭代式提问、搜索和识别知识空白来运行 [3][7] - 新版本功能更新包括:针对特定数据进行更深入的网页搜索、以更低成本生成深度研究报告 [3][7][9] - 在性能基准测试中,新Gemini Deep Research Agent在完整HLE测试中得分46.4%,优于Gemini 3 Pro的43.2%和GPT-5 Pro的38.9% [7] - 在成本方面,该Agent在BrowseComp基准上与GPT-5 Pro性能相当,但价格约为后者的十分之一 [3] - 该Agent已应用于金融服务、生物技术和市场调研等需要高精度的复杂领域,帮助完成初步调研任务 [9] - 为开发者提供的核心能力包括:统一信息综合(支持文件上传、网络数据分析和长上下文处理)、报告可控性(用户可定义结构和格式)、提供详细引用来源、支持JSON结构化输出以便下游应用解析 [9] - 该Agent将很快在谷歌搜索、笔记本、谷歌金融中提供,并在Gemini应用中升级 [5] DeepSearchQA基准测试 - DeepSearchQA是一个新开源的网络研究Agent基准,旨在测试Agent在复杂、多步查询任务中的全面性 [5][11] - 该基准包含900个手工设计的“因果链”任务,涵盖17个不同领域 [5][12] - 与传统的基于事实的测试不同,它衡量的是生成详尽答案集的全面性,评估研究的准确性和检索的记忆能力 [12] - 该基准还可作为衡量“思考时长”效率的工具,谷歌内部评估发现,允许Agent执行更多搜索与推理步骤时,其性能会显著提升 [12] 交互API (Interactions API) - 交互API是一个与Gemini模型和Agent交互的统一界面,通过Google AI Studio中的Gemini API公开测试版向开发者开放 [5][14] - 它原生集成了专为Agent应用开发设计的接口,可高效处理交错式消息、思维链、工具调用及状态信息等复杂上下文管理工作 [14] - 该API提供了首个内置Agent,即Gemini Deep Research Agent,未来将扩展更多内置Agent并支持开发者引入定制Agent [14] - 核心扩展功能包括:可选的服务器端状态(简化客户端代码并可能降低成本)、可解释和可组合的数据模型(便于调试和分析)、背景执行(支持长期运行的推理环路)、远程MCP工具支持(模型可直接调用MCP服务器) [15] - 它提供了一个单一的RESTful端点用于交互 [14] 战略与生态影响 - 此次更新是谷歌Gemini生态的再次扩容,通过发布交互API简化了与Gemini模型和Agent的交互流程,旨在构建更易用的开发生态 [16] - 公司未来的更新将聚焦于更丰富的输出(如原生生成图表以支持可视化分析报告)、通过MCP支持扩展连接性以更轻松访问自定义数据源,并努力将Gemini Deep Research引入企业用的Vertex AI平台 [16]