行业竞争态势 - 谷歌与OpenAI在同一天发布重磅AI更新,行业竞争进入前所未有的焦灼阶段,围绕智能体未来、基础大模型能力边界及应用生态主导权展开激烈对抗[2][3] - 两家公司的竞争节奏高度同步,其基础模型能力差距已进入毫厘级别,主要体现在特定任务场景而非全局优势[3][23] - 行业竞争焦点正从模型大战转向智能体平台与框架标准之争,谁掌握了智能体框架标准,谁就掌握了新一代计算范式的主导权[21][26] 谷歌Deep Research Agent核心能力 - 谷歌推出全新“重新构想”的Gemini Deep Research版本,并首次开放嵌入式研究智能体API[2] - 该智能体能整合海量信息,处理大量上下文数据,执行从尽职调查到药物毒性安全研究等广泛任务[5] - 谷歌计划将其集成到谷歌搜索、谷歌财经、Gemini应用及NotebookLM等服务中,标志着向由AI代理替代人类搜索的未来迈进[5] 技术架构与性能突破 - 新版Deep Research Agent基于Gemini 3 Pro核心模型构建,采用多步强化学习训练策略,旨在保持长达数十步、数百步复杂研究任务中的推理路径稳定,减少幻觉概率并确保决策一致性[6][7] - 具备超大规模上下文处理能力,能为每一条观点和结论自动附上可追溯至原文关键片段的结构化引用来源,使输出成为“提供带证据链的研究结果”[7] - 在关键基准测试中取得领先成绩:在“人类最后的考试”(HLE)数据集上得分为46.4%,显著优于GPT-5 Pro的38.9%;在DeepSearchQA上得分为66.1%,略胜GPT-5 Pro的65.2%;在BrowseComp上得分为59.2%,与GPT-5 Pro不分伯仲[13][15] 生态系统与开发者工具 - 谷歌此次发布是围绕“研究型智能体生态”的系统性发布,除更新Deep Research Agent外,还开源了用于测试智能体在复杂多步骤信息检索任务中表现的新基准DeepSearchQA[8] - DeepSearchQA包含17个领域共900道精心设计的“因果链”任务,旨在评估研究的精确度和检索召回率[9] - 推出了具有战略意义的Interactions API,允许开发者以结构化方式控制智能体的行为状态、推理步骤、长链任务执行及中间状态存储,实现了从“向模型发问”到“调教智能体如何执行任务”的转变[15] 市场与社区反应 - 技术社区对谷歌“真正把Agent做成工程化产品”表示肯定,特别关注其“可验证引用”和“端到端多步推理稳定性”的进步[18][19] - 有观点认为,如果Deep Research能实现逐步链路可审计,将是首次有大厂真正把Agent从玩具推向生产环境[19] - 同时存在谨慎声音,认为需要第三方在真实网页和任务中的测试,而非仅依赖公司自家的基准证明[19] - 网友将谷歌Deep Research Agent与同日发布的OpenAI GPT-5.2(Garlic)对比,根据OpenAI研究员在领英的发文,GPT-5.2在HLE中得分为45%,略低于谷歌新Agent的46.4%[20]
谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓!网友:Altman又该发“红色警报”了