谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓,网友:Altman又该发“红色警报”了
36氪·2025-12-12 10:02

谷歌发布全新Deep Research Agent - 谷歌发布了全新“重新构想”的Gemini Deep Research版本,并首次开放了嵌入式研究智能体API [1] - 该工具是一款智能Agent,能够整合海量信息并处理大量上下文数据,任务范围从尽职调查到药物毒性安全研究均有涉及 [4] - 谷歌计划将该Agent集成到其各项服务中,包括谷歌搜索、谷歌财经、Gemini应用以及NotebookLM [4] 新版Deep Research Agent的核心能力升级 - 模型完全基于Gemini 3 Pro构建,该模型被视为谷歌迄今最“真实”、最可靠、最适合长链推理的旗舰模型 [5] - 采用多步强化学习训练策略,目标是在长达数十步、数百步的复杂研究任务中保持推理路径稳定,减少幻觉概率,并确保决策一致性 [5] - 具备超大规模上下文处理能力,可一次性处理大量资料,并为每一条观点、每一个结论自动附上可追溯的结构化引用来源 [6] - 可以承担以往LLM无法胜任的任务,如跨天级研究、政策评估、多源数据整合和全流程尽职调查 [6] 谷歌推出新基准与API - 谷歌创建并开源了名为DeepSearchQA的全新网络研究智能体基准,旨在测试智能体在复杂的多步骤信息检索任务中的表现 [7] - DeepSearchQA包含17个领域共900道精心设计的“因果链”任务,衡量研究的精确度和检索召回率 [8] - 推出了具有战略意义的Interactions API,让开发者首次能够以结构化方式控制智能体的行为状态、推理步骤、长链任务执行和中间状态存储 [13] 基准测试表现 - 在“人类最后的考试”测试中取得46.4%的成绩,显著优于GPT-5 Pro的38.9% [10] - 在DeepSearchQA测试中取得66.1%的成绩,略胜GPT-5 Pro的65.2% [10] - 在BrowseComp测试中取得59.2%的成绩,与GPT-5 Pro不分伯仲 [10] - 有信息指出,GPT-5.2在HLE中的得分为45%,略低于谷歌新Agent的46.4% [18] 技术社区反应 - 技术社区对谷歌此次“真正把Agent做成工程化产品”表示肯定 [15] - 有观点认为,谷歌在产品层面强调“可验证引用”和“端到端多步推理稳定性”是AI Agent领域的一次明显进步 [16] - 也有观点保持谨慎,认为需要第三方在真实网页和真实任务中的测试,而非仅依赖谷歌自家的基准证明 [16] - 由于发布时间与OpenAI GPT-5.2同一天,网友对两者进行了比较,有观点认为用途不同,但GPT-5.2更好 [16] 谷歌与OpenAI的竞争态势 - 两家公司围绕智能体未来、基础大模型能力边界以及应用生态主导权的竞争,正进入一个前所未有的焦灼阶段 [2] - 基础模型能力的竞争已进入“毫厘级别”,差距常常只体现在特定任务场景,而不再是全局性优势 [20] - 谷歌通过全面重构Deep Research Agent并推出Interactions API,正式加入智能体战争,旨在提供可执行完整研究任务的专业智能体 [21] - OpenAI的智能体体系更侧重通用性和自由度,其Agent API、OpenAI Swarm、BrowserAgent、CodeAgent已形成一个完整的智能体开发框架 [22] - 两者竞争的核心在于,未来谁掌握了智能体框架标准,谁就掌握了新一代计算范式的主导权 [22]