Workflow
Gemini Deep Research
icon
搜索文档
计算机行业周报:大模型持续迭代,AI商业化加速-20251217
上海证券· 2025-12-17 11:22
行业投资评级 - 增持(维持)[1] 核心观点 - 大模型技术持续迭代升级,AI商业化应用正在加速落地[3][4][7] 市场回顾与行业表现 - 报告期(2025年12月08日至2025年12月12日),上证综指下跌0.34%,创业板指上涨2.74%,沪深300指数下跌0.08%[2] - 同期计算机(申万)指数下跌1.14%,跑输上证综指0.80个百分点,跑输创业板指3.88个百分点,跑输沪深300指数1.06个百分点,位列全行业第18名[2] 大模型技术迭代 - **OpenAI发布GPT-5.2**:于12月11日正式发布,主打通用智能、编码能力和长上下文任务处理,在信息检索、写作、翻译、数学推演与编程任务中进一步提速,能处理更长、更复杂的推理链条,在企业场景(如电子表格生成、演示文稿搭建)中表现更稳定[3] - **GPT-5.2版本划分**:分为Instant(即时响应)、Thinking(深度推理)与Pro(高性能任务)三个版本[3] - **智谱开源GLM-4.6V系列**:于12月8日上线并开源,包括面向云端与高性能集群场景的GLM-4.6V(106B-A12B)基础版和面向本地部署与低延迟应用的GLM-4.6V-Flash(9B)轻量版[3] - **GLM-4.6V技术升级**:训练时上下文窗口提升到128k tokens,视觉理解精度达到同参数规模SOTA,首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型[3] - **GLM-4.6V价格调整**:相较于GLM-4.5V降价50%[3] AI应用加速落地 - **谷歌推出Gemini Deep Research**:于12月12日推出深度研究智能体,并开放全新交互API,同时开源深度搜索评估基准DeepSearchQA,标志着AI自主研究能力进入工业化应用阶段[4] - **Gemini Deep Research性能**:基于Gemini 3 Pro构建,专为长周期内容收集与综合任务优化,幻觉率降低40%,是谷歌迄今“最具事实性”的模型[4] - **Gemini Deep Research成本优势**:在谷歌新基准测试上得分46.4%,在BrowseComp上与GPT-5 Pro相当,但价格只有其1/10左右[4] - **智谱开源AutoGLM**:于12月9日开源能操作手机的AI Agent模型,包括核心AI Agent模型、Phone Use能力框架与工具链,覆盖淘宝、抖音、美团等超过50个高频中文App,被视为全球首个具备“Phone Use”能力的AI Agent[4][7] - **AutoGLM应用场景**:能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程,旨在推动AI原生手机、AI原生硬件的出现[7] - **阿里成立千问C端事业群**:由原智能信息与智能互联两个事业群合并重组而来,包含千问App、夸克、AI硬件、UC、书旗等业务,首要目标是将千问打造成为AI时代的超级App和用户第一入口,并进一步覆盖眼镜、PC、汽车等场景[7] 投资建议 - **算力领域**:建议关注寒武纪、海光信息、中科曙光、华丰科技、申菱环境、英维克、欧陆通、中恒电气等[8] - **AIDC(AI数据中心)领域**:建议关注科华数据、云赛智联、弘信电子、润建股份、润泽科技、数据港等[8] - **AI应用领域**:建议关注金山办公、科大讯飞、福昕软件、万兴科技、鼎捷数智、汉得信息、能科科技、卓易信息等[8]
传媒行业AI周度跟踪之四十六:OpenAI 发布 GPT-5.2,谷歌开源深度研究 Agent-20251214
广发证券· 2025-12-14 08:45
行业投资评级 * 报告对传媒行业给予“买入”评级 [1] 核心观点 * 报告核心观点为关注AI技术迭代与应用落地带来的产业链变革与投资机会,尤其关注AI视频平台商业化闭环的潜在影响 [6] 国内AI动态跟踪 * **大模型产品数据**:根据SimilarWeb数据,上周(2025/12/1-2025/12/7)国内主要AI大模型产品网页端访问量中,DeepSeek以7453.49万次保持领先,但环比下降1.35% [6][20];豆包访问量为2226.72万次,环比下降0.82% [6][20];Kimi访问量为945.08万次,环比下降7.11% [6][20];腾讯元宝访问量为467.12万次,环比上升1.96% [6][20];通义千问访问量为14.93万次,环比上升21.90% [6][20];文心一言访问量为90.20万次,环比下降2.65% [6][20];智谱清言访问量为53.44万次,环比上升1.93% [6][20];讯飞星火访问量为11.10万次,环比上升11.00% [6][20];天工AI访问量为8.15万次,环比上升8.39% [6][20] * **大模型产品用户时长**:近期人均日均访问时长方面,Kimi在8分钟左右;通义千问、DeepSeek在5分钟左右;天工AI、豆包在4.5分钟左右;腾讯元宝、文心一言、智谱清言在3分钟左右;讯飞星火在2分钟左右 [12] * **应用产品数据**:上周国内AI应用产品中,AI搜索产品秘塔AI搜索网页访问量为136.00万次,环比上升4.35% [26][31];AI设计产品美图设计室网页访问量为31.37万次,环比上升14.26% [26][31];AI视频产品PixVerse网页访问量为143.92万次,环比下降5.23% [31] * **应用买量追踪**:根据APPGrowing数据,上周腾讯元宝广告投放素材量保持第一,为577812个,环比下降3.77% [32];通义千问投放素材量为466714个,环比下降30.56% [32];2025年12月至今,腾讯元宝广告投放金额为53212.44万元,通义千问为27880.12万元 [32] * **公司重点事件**:智谱AI在2025/12/8-2025/12/12期间的多模态开源周中,开源了视觉理解模型GLM‑4.6V、AutoGLM项目、语音识别模型GLM‑ASR、工业级语音合成系统GLM‑TTS以及四项视频生成核心技术 [37][38] 海外AI动态跟踪 * **大模型产品数据**:根据SimilarWeb数据,上周海外主要AI大模型产品网页端访问量中,ChatGPT以133707.15万次稳居第一,环比上升0.50% [6][42];Claude访问量为4096.75万次,环比上升3.70% [6][42];Gemini访问量为166.51万次,环比下降17.13% [6][42] * **应用产品数据**:上周海外AI应用产品中,AI陪伴产品Character AI网页访问量为4233.91万次,环比上升1.13% [47][51];AI搜索产品Perplexity AI网页访问量为4381.87万次,环比上升1.62% [47][55];AI设计产品Canva网页访问量为23174.21万次,环比上升0.70% [47][55];AI图像产品Midjourney网页访问量为407.07万次,环比上升7.77% [47][55] * **公司重点事件**:Mistral AI发布代码模型Devstral 2系列,在SWE-bench Verified基准测试中获得72.2%的高分 [56][57] 海内外科技大厂AI动态 * **OpenAI发布GPT-5.2**:OpenAI正式发布GPT-5.2模型,包含Instant、Thinking、Pro三个版本,在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录 [6][58] * **谷歌开源深度研究Agent**:谷歌开源基于Gemini 3 Pro模型的深度研究Agent Gemini Deep Research,在DeepSearchQA基准测试中达到46.4%的SOTA水平,性能与GPT-5 Pro相当,而成本仅为后者的十分之一 [6][58] * **迪士尼与OpenAI战略合作**:迪士尼公司与OpenAI达成为期三年的战略合作协议,将向OpenAI投资10亿美元并获得股权,OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权 [6][58] * **国内大厂动态**:阿里推出新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01 [59];腾讯发布混元大模型最新版混元2.0 [59];美团发布并开源图像生成模型LongCat-Image [59] 投资建议 * **云基建方向**:建议关注阿里巴巴、腾讯控股 [6][60] * **AI视频与IP产业链**:若Sora推动AI视频平台跑通商业化闭环,建议关注IP产业链的阅文集团、中文在线、上海电影、奥飞娱乐、华策影视、欢瑞世纪等,AI内容确权关注阜博集团,视频平台关注快手、哔哩哔哩 [6][60] * **AI营销方向**:建议关注汇量科技、易点天下、蓝色光标、天下秀 [6][60] * **AI细分应用方向**:AI终端关注出门问问;AI电商关注值得买;AI客服agent关注神州泰岳;AI游戏关注恺英网络;AI医疗关注京东健康、阿里健康;同时关注商业化进展较好的快手、美图、粉笔等 [6][60]
谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓,网友:Altman又该发“红色警报”了
36氪· 2025-12-12 10:02
谷歌发布全新Deep Research Agent - 谷歌发布了全新“重新构想”的Gemini Deep Research版本,并首次开放了嵌入式研究智能体API [1] - 该工具是一款智能Agent,能够整合海量信息并处理大量上下文数据,任务范围从尽职调查到药物毒性安全研究均有涉及 [4] - 谷歌计划将该Agent集成到其各项服务中,包括谷歌搜索、谷歌财经、Gemini应用以及NotebookLM [4] 新版Deep Research Agent的核心能力升级 - 模型完全基于Gemini 3 Pro构建,该模型被视为谷歌迄今最“真实”、最可靠、最适合长链推理的旗舰模型 [5] - 采用多步强化学习训练策略,目标是在长达数十步、数百步的复杂研究任务中保持推理路径稳定,减少幻觉概率,并确保决策一致性 [5] - 具备超大规模上下文处理能力,可一次性处理大量资料,并为每一条观点、每一个结论自动附上可追溯的结构化引用来源 [6] - 可以承担以往LLM无法胜任的任务,如跨天级研究、政策评估、多源数据整合和全流程尽职调查 [6] 谷歌推出新基准与API - 谷歌创建并开源了名为DeepSearchQA的全新网络研究智能体基准,旨在测试智能体在复杂的多步骤信息检索任务中的表现 [7] - DeepSearchQA包含17个领域共900道精心设计的“因果链”任务,衡量研究的精确度和检索召回率 [8] - 推出了具有战略意义的Interactions API,让开发者首次能够以结构化方式控制智能体的行为状态、推理步骤、长链任务执行和中间状态存储 [13] 基准测试表现 - 在“人类最后的考试”测试中取得46.4%的成绩,显著优于GPT-5 Pro的38.9% [10] - 在DeepSearchQA测试中取得66.1%的成绩,略胜GPT-5 Pro的65.2% [10] - 在BrowseComp测试中取得59.2%的成绩,与GPT-5 Pro不分伯仲 [10] - 有信息指出,GPT-5.2在HLE中的得分为45%,略低于谷歌新Agent的46.4% [18] 技术社区反应 - 技术社区对谷歌此次“真正把Agent做成工程化产品”表示肯定 [15] - 有观点认为,谷歌在产品层面强调“可验证引用”和“端到端多步推理稳定性”是AI Agent领域的一次明显进步 [16] - 也有观点保持谨慎,认为需要第三方在真实网页和真实任务中的测试,而非仅依赖谷歌自家的基准证明 [16] - 由于发布时间与OpenAI GPT-5.2同一天,网友对两者进行了比较,有观点认为用途不同,但GPT-5.2更好 [16] 谷歌与OpenAI的竞争态势 - 两家公司围绕智能体未来、基础大模型能力边界以及应用生态主导权的竞争,正进入一个前所未有的焦灼阶段 [2] - 基础模型能力的竞争已进入“毫厘级别”,差距常常只体现在特定任务场景,而不再是全局性优势 [20] - 谷歌通过全面重构Deep Research Agent并推出Interactions API,正式加入智能体战争,旨在提供可执行完整研究任务的专业智能体 [21] - OpenAI的智能体体系更侧重通用性和自由度,其Agent API、OpenAI Swarm、BrowserAgent、CodeAgent已形成一个完整的智能体开发框架 [22] - 两者竞争的核心在于,未来谁掌握了智能体框架标准,谁就掌握了新一代计算范式的主导权 [22]
谷歌的阳谋:在GPT-5.2发布日,推出史上“最深度”研究型Agent
硬AI· 2025-12-12 09:34
核心观点 - 谷歌在OpenAI发布GPT-5.2的同日,同步推出了其迄今最强的深度研究型Agent——Gemini Deep Research的“重制版”,此举被视为一场主动的正面竞争,旨在定义并抢占未来AI Agent时代的基础设施级入口[2][3][10] - 谷歌正试图将Gemini Deep Research从传统的报告生成工具,转变为可处理海量信息、支持长链推理、并能被嵌入各类应用的“AI研究内核”,其目标是成为未来信息访问的底层能力,即“搜索引擎底层能力”[4][5] - 未来的信息获取方式可能发生根本性转变,从用户主动“谷歌一下”变为由用户的Agent代理一切信息检索与研究任务[2][7] 产品定位与战略意图 - 全新Gemini Deep Research被定位为三个方向:可处理大规模上下文、消化“信息山脉”的深度研究Agent;可被开发者直接嵌入App的“AI研究内核”;能持续执行数分钟至数小时多步骤任务的长链式推理Agent[5] - 谷歌推出全新的Interactions API,旨在将“搜索+多步骤推理+评估”打包成操作系统级服务,以方便开发者将Deep Research能力嵌入自身应用,这标志着谷歌正把Agent推向操作系统级能力[3][5] - 谷歌宣布Deep Research将陆续进入谷歌搜索、谷歌财经、Gemini应用以及NotebookLM等核心产品,加速其能力的内嵌与普及[6] - 谷歌此举的战略意图是在AI Agent化快速发展之际,提前占据开发者入口,其与OpenAI的竞争已从模型战争转向争夺未来信息访问方式的基础设施主导权[10] 技术性能与基准测试 - 谷歌称Deep Research受益于其最先进的Gemini 3 Pro模型的“更高事实性”,旨在降低在持续数十分钟甚至数小时的长链推理任务中因幻觉累积导致的结果失真,这是AI走向Agent后的最大痛点之一[8] - 为验证性能,谷歌发布了新的DeepSearchQA基准用于测试多步骤信息检索,并已开源该基准[8] - 在谷歌自有基准和“人类最后考试”(Humanity‘s Last Exam)基准测试中,新的Deep Research Agent击败了竞争对手,但OpenAI的ChatGPT 5 Pro表现接近,并在BrowserComp测试中略胜谷歌[8] - 文章指出,这些基准比较在发布时几乎已过时,因为同一天OpenAI发布了GPT-5.2,号称智能体编码最强并赶超人类专家,且声称在一系列典型基准测试中击败了包括谷歌在内的竞争对手[9] 行业竞争格局 - 谷歌选择与OpenAI GPT-5.2发布日同步公布Deep Research,是一次极具戏剧性的“正面交锋”,凸显了两大巨头在AI Agent时代的直接竞争[3][10] - 同日,谷歌旗下DeepMind还宣布将在英国建立首个自动化研究实验室,利用AI与机器人加速材料科学实验,展示了其在AI应用前沿的全面布局[3] - 行业正处在走向“Agent时代”的关键节点,AI Agent被视为有望成为新一代的“搜索框”,基础设施级的入口争夺战已经打响[3][10]
GPT-5.2获封“最强打工人”,谷歌同日以Gemini“性价比”系列应战
钛媒体APP· 2025-12-12 08:22
行业竞争格局 - OpenAI面临空前竞争压力 竞争对手包括DeepSeek、Grok、Claude 特别是谷歌Gemini 3表现突出[2] - 谷歌在OpenAI发布GPT-5.2前约一小时抢先发布Gemini Deep Research 试图抢占市场关注[10] - 大模型竞争已扩展至AI芯片领域 英伟达与谷歌TPU的竞争同样激烈[12][13] OpenAI最新产品GPT-5.2表现 - GPT-5.2发布Instant、Thinking、Pro三款模型 基准测试全面反超竞争对手[4] - GPT-5.2 Thinking在GPQA Diamond评估得分达92.4% 高于GPT-5.1 Thinking的88.1%和Gemini 3 PRO的91.9%[4] - 在无需工具情况下 GPT-5.2在美国数学邀请赛AIME2025中获得满分[4] - 在GDPval专业技能评估中 GPT-5.2 Thinking得分70.9% 较GPT-5.1 Thinking高出32.1% 领先Gemini 3 PRO达17.4% 领先Claude Opus 4.5达11.3%[5] - 具体基准测试对比显示 GPT-5.2在SWE-Bench、CharXiv、FrontierMath、ARC-AGI等多个评估中领先[6] - 新模型在编写代码、制作PPT、图像感知、理解长上下文、使用工具、处理复杂多步骤项目方面表现出色 错误率大幅减少[7] - 公司称GPT-5.2 Thinking是“目前最能够胜任现实中各类专业用途的模型”[4] 产品定价与性能问题 - GPT-5.2输入输出价格较前代上涨40% 输入价格21美元 输出价格高达168美元[7] - 一些用户反映GPT-5.2 Thinking和Pro的应答时间较慢 比前代产品更慢[8] - 普通即时版GPT-5.2仍会在一些常识问题上犯错[9] 竞争对手谷歌的动向 - 谷歌发布深度研究智能体Gemini Deep Research 基于Gemini 3 PRO构建 减少“幻觉”[10] - 在人类终极大考HLE中 Gemini Deep Research得分46.4% 高于GPT-5.2 Thinking的45.5% 但低于GPT-5 Pro的50%[10] - 谷歌产品经理透露 新版智能体在与GPT-5 Pro表现相当时 成本仅为后者的十分之一左右[12] - 谷歌同步开源基准测试工具DeepSearchQA 包含覆盖17个领域的900项复杂任务[12] 公司未来计划与行业展望 - OpenAI CEO表示下周将继续带来“小圣诞礼物” ChatGPT“成人模式”预计明年一季度面世[9] - 有消息称OpenAI正加速开发全新模型“Garlic” 旨在重建绝对领先优势[12] - 英伟达指出 大部分大模型仍用上一代H系列芯片训练 用Blackwell芯片训练的大模型预计2026年上线 其优势届时才会显现[13] - 2025年末AI大模型与AI芯片竞争加剧 预计2026年战况将继续升级[13]
谷歌的阳谋:在GPT-5.2发布日,推出史上“最深度”研究型Agent
美股IPO· 2025-12-12 07:34
产品发布与战略定位 - 谷歌在OpenAI发布GPT-5.2的同日,同步推出了迄今最强的深度研究型Agent——Gemini Deep Research的“重制版”,该产品基于其最先进的Gemini 3 Pro模型 [3] - 此次发布被视为一场精心策划的阳谋,谷歌以一款更具战略意味的产品进行回应,旨在将Agent能力推向操作系统级别 [4] - 全新Gemini Deep Research被定位为:可处理大规模上下文、消化“信息山脉”的深度研究Agent;可被开发者直接嵌入App的“AI研究内核”;能持续执行数分钟至数小时多步骤推理任务的长链式推理Agent [5] - 谷歌推出了全新的Interactions API,旨在让开发者更轻松地将Deep Research嵌入自己的应用,这相当于把“搜索+多步骤推理+评估”打包成操作系统级服务 [5] - 谷歌宣布,Deep Research将陆续进入谷歌搜索、谷歌财经、Gemini应用以及NotebookLM [6] 核心能力与行业趋势 - 谷歌正试图把Deep Research变成未来AI时代的“搜索引擎底层能力”,其能力普遍指向一个趋势:未来可能不是用户“谷歌一下”,而是用户的Agent替用户谷歌一切 [5][7] - 谷歌开发Deep Research旨在解决AI走向Agent后的最大痛点:幻觉率 该公司称Deep Research受益于Gemini 3 Pro的“更高事实性”,能降低在长链推理任务中累积幻觉所导致的结果失真 [8] - 在AI Agent即将成为新一代“搜索框”的背景下,谷歌与OpenAI的争夺已经从模型战争转向谁能成为未来信息访问方式的基础设施 [12] 性能验证与竞争格局 - 为验证性能,谷歌发布了新的DeepSearchQA基准用于测试多步骤信息检索,并开源了该基准 [9] - 在谷歌自有基准和“人类最后考试”基准测试中,其新Agent击败了竞争对手,但OpenAI的ChatGPT 5 Pro表现接近,并在BrowserComp测试中略胜谷歌 [10] - 发布当日成为谷歌与OpenAI同台竞争的“正面交锋”,OpenAI发布的GPT-5.2号称智能体编码最强,赶超人类专家,并声称在一系列典型基准测试中击败了竞争对手,特别是谷歌 [10][11] - 谷歌选择在GPT-5.2发布日同步公布Deep Research,被视为一种主动竞争姿态,既回应OpenAI的新模型,也试图在Agent化快速发展之际提前占据开发者入口 [11] 相关战略动态 - 同日,谷歌旗下DeepMind宣布将在英国建立首个自动化研究实验室,利用AI与机器人加速材料科学实验 [3]
谷歌智能体发力:增强版Gemini Deep Research和专属API都来了
量子位· 2025-12-12 06:41
谷歌Gemini生态重大升级 - 谷歌正式发布增强版Gemini Deep Research智能体,该智能体基于Gemini 3 Pro构建,专门用于减少幻觉,在复杂信息检索与分析任务上表现领先 [3] - 该增强版智能体很快将被集成到谷歌搜索、NotebookLM、Google Finance以及升级版的Gemini App中 [3] - 此次更新不仅是Deep Research的升级,更是整个Gemini生态的一次大升级 [8] 增强版Deep Research的核心能力 - 增强版Gemini Deep Research能够实现迭代式推理,不仅能提出查询需求,还能读取和整合搜索结果,发现知识空白,然后针对性地开展新一轮搜索 [10][13] - 通过这种循环式操作,它大幅提升了网络搜索能力,能够深入网站抓取精确信息 [10] - 这种能力让该智能体在复杂研究任务中表现出色,在人类最后的考试HLE、BrowseComp、和DeepSearchQA等测试中刷新了SOTA成绩 [10] 配套发布的DeepSearchQA基准测试 - 谷歌配套推出了DeepSearchQA基准测试集,为深度搜索与研究任务提供了更全面的评估标准 [5] - 该基准测试集包含来自17个领域的900个手工设计的因果链任务,要求生成详尽的答案集合,比传统事实检索测试更能衡量智能体在多步推理与信息融合中的综合能力 [12] - 在DeepSearchQA基准测试中,Gemini Deep Research Agent的“完全正确”率为66.1%,领先于GPT-5 Pro的65.2%和GPT-5的59.4% [14] 全新发布的Interactions API - 谷歌同时发布了Interactions API,为开发者提供了与Gemini 3 Pro和Deep Research智能体交互的统一接口 [6] - 该API设计了原生接口,提供一个统一的RESTful端点,通过指定模型或智能体参数,就能与模型和智能体进行复杂上下文的交互 [16] - 该API特别适合需要多步骤推理、工具调用以及长程任务执行的场景,扩展了generate Content的核心能力,具备服务器端状态可选、可解释且可组合的数据模型等特性 [17][18]
对抗 OpenAI GPT-5.2,谷歌推出Gemini Deep Research智能体
环球网资讯· 2025-12-12 03:53
谷歌AI产品重大升级 - 谷歌在OpenAI发布GPT-5.2后,迅速推出Gemini Deep Research深度研究智能体、全新Interactions API,并开源深度搜索评估基准DeepSearchQA [1] - 此次升级标志着AI自主研究能力正式迈入工业化应用阶段,为各行业复杂研究任务提供新的技术解决方案 [1] Gemini Deep Research核心能力 - 该智能体基于Gemini 3 Pro构建,专为长周期内容收集与综合任务优化,其幻觉率较此前模型降低40%,是谷歌迄今“最具事实性”的智能模型 [3] - 通过扩展面向搜索的多步骤强化学习,能在复杂信息环境中以更高精度自主导航,通过反复规划研究路径实现深度信息挖掘 [3] - 在谷歌新基准测试中得分46.4%,在BrowseComp基准上表现与GPT-5 Pro相当,而价格仅为后者的十分之一左右 [3] - 在Humanity's Last Exam、DeepSearchQA及BrowseComp等多项权威评测中均取得最新最优成绩,可在显著降低成本的同时生成高质量深入研究报告 [3] 应用场景与行业价值 - 该能力未来将逐步应用于Google Search、NotebookLM、Google Finance及Gemini App等核心产品 [3] - 在金融服务领域,企业借助该智能体自动化完成尽职调查中的早期信息收集工作,整合市场信号、竞争格局与合规风险等关键信息,大幅提升研究效率 [4] - 在生物技术领域,Axiom Bio利用其处理药物毒性预测相关的文献分析,获得了更高的研究深度与颗粒度,有效加速了药物开发流程 [4] - 在市场研究等领域,该智能体也凭借其强大的信息整合能力助力企业提升决策科学性 [4] DeepSearchQA评估基准 - 为解决现有评测难以体现真实世界多步骤研究复杂性的问题,谷歌同步开放DeepSearchQA数据集与工具 [4] - 该基准涵盖17个领域、900个“因果链”任务,每个任务的每一步均依赖前序分析,要求智能体生成详尽答案集,以此精准衡量其研究精度与检索全面性 [4] - DeepSearchQA还可作为“思考时间”效益的诊断工具,谷歌内部测试显示,增加智能体的搜索与推理步骤可显著提升其任务表现 [4] - 目前,开发者可访问该数据集、排行榜与Colab示例,并查阅相关技术报告 [4] Interactions API功能特性 - 通过Interactions API,开发者可调用Gemini Deep Research构建下一代自动化研究工具 [5] - API具备统一信息综合功能,可整合上传文件(PDF、CSV等格式)与公共网页数据,且能处理大上下文量信息 [5] - 支持通过提示词定义输出结构、标题、表格格式等,实现可控的报告生成 [5] - 可为报告中各项事实提供细粒度来源引用,保障信息可信度 [5] - 支持JSON schema结构化输出,方便下游环节处理 [5] - 开发者可通过Google AI Studio的Gemini API Key使用该API构建应用 [5] 未来发展规划 - 未来将持续升级相关功能,计划加入原生图表输出能力 [6] - 计划扩展Model Context Protocol支持以接入更多自定义数据源 [6] - 将在企业服务平台Vertex AI上推出Deep Research服务,为企业用户提供更全面的技术支持,推动AI深度研究能力在更多行业场景的落地应用 [6]
Google launched its deepest AI research agent yet — on the same day OpenAI dropped GPT-5.2
TechCrunch· 2025-12-12 00:18
谷歌发布新版Gemini Deep Research - 谷歌发布了基于其先进基础模型Gemini 3 Pro的“重新构想”版研究代理Gemini Deep Research [1] - 新版代理不仅能生成研究报告,还允许开发者通过新的Interactions API将谷歌的SATA模型研究能力嵌入自己的应用程序中 [1] - 该工具旨在综合海量信息并处理提示中的大型上下文,客户将其用于从尽职调查到药物毒性安全研究等任务 [2] 产品集成与性能特点 - 谷歌计划很快将该深度研究代理集成到多项服务中,包括谷歌搜索、谷歌财经、Gemini应用及其流行的NotebookLM [3] - 深度研究受益于Gemini 3 Pro作为其“最真实”模型的地位,该模型经过训练可最大限度减少复杂任务中的幻觉 [3] - 对于需要长时间深度推理的代理任务,幻觉问题尤为关键,因为即使一个错误选择也可能使整个输出无效 [4] 基准测试与竞争对比 - 谷歌创建并开源了名为DeepSearchQA的新基准,用于测试代理在复杂、多步骤信息检索任务上的表现 [5] - 谷歌还在名为“Humanity's Last Exam”的独立通用知识基准和浏览器代理任务基准BrowserComp上测试了Deep Research [7] - 谷歌的新代理在其自有基准和Humanity's基准上超越了竞争对手,但OpenAI的ChatGPT 5 Pro在所有方面都紧随其后,并在BrowserComp上略微领先谷歌 [7] 行业竞争动态 - 在谷歌发布基准测试结果几乎同时,OpenAI推出了备受期待的GPT 5.2(代号Garlic)[8] - OpenAI表示其最新模型在一系列典型基准测试(包括其自研基准)上超越了竞争对手,尤其是谷歌 [9] - 谷歌选择在业界等待Garlic发布的时间点宣布其AI新闻,这一时机选择是此次公告最有趣的部分之一 [9]
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch
机器之心· 2025-10-16 07:34
搜索智能体的安全风险 - 大模型通过搜索智能体实时连接互联网时,可能采纳低质量或虚假网页信息,生成带有风险的回答[2] - 真实案例显示,因搜索返回不可靠的GitHub页面代码,导致开发者私钥泄露并损失约2500美元[4] - 在从Google Search收集的近9000个搜索结果中,有4.3%被判定为疑似内容农场等低质量网站[11] - 搜索智能体在接触低质量搜索结果后,更倾向于在健康等敏感领域认可不安全的治疗方式[11] SafeSearch基准与评估方法 - 研究提出自动化红队框架SafeSearch,涵盖广告推广、偏见诱导、有害输出、提示注入和错误信息五类风险[14][15] - 基准包含300个高质量测试案例,每类风险60个,通过模拟式红队方法向搜索结果注入一篇不可靠网页进行测试[19][21] - 评估采用攻击成功率(ASR)和有用性得分(Helpfulness Score)两项关键指标,分别衡量安全性和任务效用[23] - 测试设定了能力、知识和目标限制,确保用例的可行性和挑战性,以及评估的公平性[17] 主流模型与架构安全性表现 - 对15个主流大模型在三类搜索智能体架构下的评估显示,整体平均攻击成功率为68.3%[24] - 在最极端情况下(GPT-4.1-mini + 搜索工作流),智能体受不可靠搜索结果影响的比例高达90.5%[24][26] - GPT-5和GPT-5-mini展现出独一档的鲁棒性,整体ASR分别为18.4%和18.9%[24][26] - 搜索智能体架构设计影响关键,以GPT-4.1-mini为例,其ASR从搜索工作流的90.5%在Deep Research架构下可降至57.4%[24][36] 防御措施有效性分析 - 常见的提醒防御策略几乎无效,模型即使能识别不良来源,在实际生成时仍会受影响[36][37] - 利用辅助模型对搜索结果进行过滤的防御策略更有效,可将ASR减半,但无法完全杜绝风险[36][37] - 研究凸显了“知识-行动鸿沟”,即模型即使知道内容不可靠,在真实场景中仍可能被误导[32] - 合理的架构设计(如Deep-research scaffold)能在保持高效实用性的同时大幅降低风险,但意味着更多成本[37]