谷歌最新 Gemini Agent 爆击GPT-5.2？人类最后考试得分见分晓，网友：Altman又该发“红色警报”了

谷歌发布全新Deep Research Agent - 谷歌发布了全新“重新构想”的Gemini Deep Research版本，并首次开放了嵌入式研究智能体API [1] - 该工具是一款智能Agent，能够整合海量信息并处理大量上下文数据，任务范围从尽职调查到药物毒性安全研究均有涉及 [4] - 谷歌计划将该Agent集成到其各项服务中，包括谷歌搜索、谷歌财经、Gemini应用以及NotebookLM [4] 新版Deep Research Agent的核心能力升级 - 模型完全基于Gemini 3 Pro构建，该模型被视为谷歌迄今最“真实”、最可靠、最适合长链推理的旗舰模型 [5] - 采用多步强化学习训练策略，目标是在长达数十步、数百步的复杂研究任务中保持推理路径稳定，减少幻觉概率，并确保决策一致性 [5] - 具备超大规模上下文处理能力，可一次性处理大量资料，并为每一条观点、每一个结论自动附上可追溯的结构化引用来源 [6] - 可以承担以往LLM无法胜任的任务，如跨天级研究、政策评估、多源数据整合和全流程尽职调查 [6] 谷歌推出新基准与API - 谷歌创建并开源了名为DeepSearchQA的全新网络研究智能体基准，旨在测试智能体在复杂的多步骤信息检索任务中的表现 [7] - DeepSearchQA包含17个领域共900道精心设计的“因果链”任务，衡量研究的精确度和检索召回率 [8] - 推出了具有战略意义的Interactions API，让开发者首次能够以结构化方式控制智能体的行为状态、推理步骤、长链任务执行和中间状态存储 [13] 基准测试表现 - 在“人类最后的考试”测试中取得46.4%的成绩，显著优于GPT-5 Pro的38.9% [10] - 在DeepSearchQA测试中取得66.1%的成绩，略胜GPT-5 Pro的65.2% [10] - 在BrowseComp测试中取得59.2%的成绩，与GPT-5 Pro不分伯仲 [10] - 有信息指出，GPT-5.2在HLE中的得分为45%，略低于谷歌新Agent的46.4% [18] 技术社区反应 - 技术社区对谷歌此次“真正把Agent做成工程化产品”表示肯定 [15] - 有观点认为，谷歌在产品层面强调“可验证引用”和“端到端多步推理稳定性”是AI Agent领域的一次明显进步 [16] - 也有观点保持谨慎，认为需要第三方在真实网页和真实任务中的测试，而非仅依赖谷歌自家的基准证明 [16] - 由于发布时间与OpenAI GPT-5.2同一天，网友对两者进行了比较，有观点认为用途不同，但GPT-5.2更好 [16] 谷歌与OpenAI的竞争态势 - 两家公司围绕智能体未来、基础大模型能力边界以及应用生态主导权的竞争，正进入一个前所未有的焦灼阶段 [2] - 基础模型能力的竞争已进入“毫厘级别”，差距常常只体现在特定任务场景，而不再是全局性优势 [20] - 谷歌通过全面重构Deep Research Agent并推出Interactions API，正式加入智能体战争，旨在提供可执行完整研究任务的专业智能体 [21] - OpenAI的智能体体系更侧重通用性和自由度，其Agent API、OpenAI Swarm、BrowserAgent、CodeAgent已形成一个完整的智能体开发框架 [22] - 两者竞争的核心在于，未来谁掌握了智能体框架标准，谁就掌握了新一代计算范式的主导权 [22]