量子位
搜索文档
量子位编辑作者招聘
量子位· 2025-12-13 04:34
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 跟进AI基建层新进展,包括但不限于芯片、AI Infra、云计算领域新进展,核心玩家动态; 做前沿论文、开源社区、技术大会 (Hot Chips、NeurIPS、MLSys) 技术报告大众化解读; 参与 ...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25
量子位· 2025-12-13 04:34
行业背景与挑战 - 卫星星座已成为数字经济时代的关键基础设施,具备全球覆盖、快速响应和高频观测能力,支撑遥感、通信、导航、气象预测等行业[4] - 随着星座规模扩大,人工任务规划效率已无法满足需求,调度规划成为高维、动态、强约束的难题[2][4] - 具体挑战包括:任务量大(如SkySat星座13颗卫星日均处理超百项任务)[8]、观测时间窗口紧张(常不足5分钟)[9]、突发任务响应能力有限(如“女娲星座”紧急任务完成率常不足60%)[10]、以及复杂的物理约束条件[11] 技术解决方案:AEOS-Bench基准数据集 - 北航团队为AI星座规划构建了首个大规模真实星座调度基准AEOS-Bench,旨在拟合真实卫星场景[4][13] - 该数据集基于高保真仿真平台开发,还原了轨道动力学、姿态控制、功耗等物理特性[13] - 核心特征:1) 大规模:包含超过16,000个任务场景,覆盖1至50颗卫星、50至300项成像任务及3600个时间步长[13];2) 真实性:在仿真平台生成并引入真实卫星数据测试集[13];3) 全面性:涵盖任务完成率、周转时间、功耗等6类评估指标[14] 技术解决方案:AEOS-Former调度模型 - 北航团队提出了基于Transformer架构的内嵌约束调度模型AEOS-Former,将Transformer泛化能力与航天工程需求深度融合[4] - 模型核心模块:1) 内嵌约束模块:显式建模卫星成像设备视场、电池状态等限制,预测任务可行性[16];2) 编码器解码器:嵌入卫星静态与动态状态,实现卫星-任务匹配[16] - 该研究已发表于顶级会议NeurIPS 2025[5] 模型性能评估 - 在AEOS-Bench数据集上的闭环测试显示,AEOS-Former在任务完成度、时效性和能源效率等六项指标上均优于随机模型、优化模型及强化学习等基线模型[19] - 具体数据:在Seen划分中,AEOS-Former综合得分(CST)为5.00,任务完成率(CR)达30.47%,功耗(PC)为71.27 Wh,均优于最佳基线模型MSCPO-SHCS(CST: 5.85, CR: 28.77%, PC: 135.93 Wh)[20] - 在Unseen划分中,AEOS-Former综合得分为4.43,任务完成率为35.42%,功耗为68.99 Wh,同样全面领先[20] - 分析表明,任务完成率与资源消耗之间存在权衡关系,卫星数量增加能提升联合观测能力,但边际效益会趋于稳定[21] 行业意义与前景 - 人工智能技术是破解卫星星座高效调度难题的关键钥匙,让太空设施具备感知、决策与协同的自主能力[4][23] - AEOS-Bench与AEOS-Former为卫星星座规划提供了高效解决方案,印证了“空天具身智能”的巨大潜力[23] - 该技术发展标志着行业正站在新时代的起点,将不断拓宽人类探索与利用太空的边界[23][24]
美国视频生成老炮儿,入局世界模型
量子位· 2025-12-13 04:34
公司发布通用世界模型GWM-1 - Runway公司发布了其首个通用世界模型GWM-1,该模型基于其最新的视频生成模型Gen-4.5构建 [1][8] - GWM-1采用了自回归架构,能够根据之前的记忆内容进行逐帧预测生成 [9] - 模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频 [10] 世界模型三大变体 - **GWM Worlds**:用于实时环境的模拟与探索,允许用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间 [12][13] - GWM Worlds能够根据用户提供的静态参考场景,实时生成一个包含几何图形、光照和物理效果的沉浸式、无限且可探索的空间 [13] - 该模型在智能体移动时能实时生成新场景,并保持长序列移动过程中的空间一致性,优于普遍只能生成有限长度帧序列的其他世界模型 [13] - 用户可通过文本提示改变环境的物理规则,例如约束地面骑行或解除重力实现空中导航,这有助于训练智能体在真实物理世界中的行动 [15][16] - GWM Worlds还可通过实时生成虚拟环境,为VR沉浸式体验提供支持 [17] - **GWM Avatars**:这是一个由音频驱动的交互式视频生成模型,能够模拟自然的人类表情和动作,适用于写实或风格化角色 [18] - 该模型能够渲染出逼真的面部表情、眼部动作、口型与语音同步以及自然的手势,并在长时间交互中保持稳定质量 [19] - 应用场景广泛,可作为个性化导师解释复杂概念,改变客户服务方式生成数字人,用于面试谈判等高压场景的模拟练习,以及让游戏NPC变得栩栩如生 [20] - GWM Avatars即将正式上线,并提供API供用户集成到自己的产品或服务中 [22] - **GWM Robotics**:这是一个更偏向于学习型模拟器的模型,通过学习机器人相关数据形成模拟能力,用于机器人操作 [23] - 该模型在机器人数据上训练,会根据机器人动作预测视频序列,主要承担两大任务:用于策略训练的合成数据增强,以及在模拟中进行策略评估 [24][25] - 通过生成合成训练数据,可以从新物体、任务指令和环境变化多个维度扩充现有机器人数据集,无需昂贵的真实世界数据收集,提升已训练策略的泛化能力和鲁棒性 [24][25] - 在GWM Robotics中可直接测试策略模型可行性,无需部署到实体机器人,这种方法比真实世界测试更快、重复性更高、安全性更显著,并能提供贴合实际的行为评估 [25][26] - 该模型能有效解决物理硬件成本高、损耗快、场景难复现等瓶颈问题,通过模拟环境替代实体硬件场景,让训练和评估更高效、更具性价比 [27] - 公司同时发布了GWM Robotics的Python软件开发工具包,该SDK支持多视角视频生成和长上下文序列,旨在无缝集成到现代机器人策略模型中 [29] Gen-4.5模型升级 - Runway公司对其视频生成模型Gen-4.5进行了升级,新增支持原生音频生成和原生音频编辑 [30] - Gen-4.5现在可以生成逼真的对话、音效和背景音频,从而将创作内容扩充到更广的故事类型 [31] - 用户可以根据特定需求对现有音频进行任意方式的调整 [32] - 升级引入了多镜头编辑功能,可以在初始场景中进行任意长度的修改,并实现整段视频的一致变换 [33]
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了
量子位· 2025-12-13 04:34
事件概述:AI辅助解决Erdős 1026数学难题 - 陶哲轩与多名数学家合作,在多种AI工具的辅助下,仅用48小时便完全解决了尘封50年的Erdős 1026数学难题[1][2][3] - 陶哲轩指出,若使用传统方法,可能需要数周或数月才能解决[5] - 此次问题的快速解决,体现了“人与人的协作”与“人与AI的协作”相结合的新趋势[46][47] 问题背景与定义 - Erdős 1026问题最早于1975年被提出,初始表述模糊[8] - 数学家Desmond Weisenberg引入最大常数c(n)进行研究,使得S(x1,…,xn) ≥ c(n) * Σxi,其中c(n)针对所有长度为n的不同实数序列[10][11] - 博弈论解释:Alice将N个硬币分为n堆,Bob选择一个单调子序列的堆并拿走其中硬币,c(n)是Bob能保证拿走的最小比例[12][13] - 通过计算得到c(n)的前几个近似值:1, 1, 2/3, 1/2, 1/2, 3/7, 2/5, 3/8, 1/3[15] 解决过程与AI工具应用 - 数学家Boris Alexeev使用Harmonic的数学AI模型“亚里士多德”,在证明助手Lean中自动构造并证明了关键不等式,将原问题转化为计算几何领域的矩形填充问题[16][17] - 数学家Koishi Chan随后给出了基于原始Erdős–Szekeres定理的替代证明,印证了AI的发现[18] - 陶哲轩将问题放入AlphaEvolve,要求其通过生成总和为10的6次方的实数序列来获取c(n)的上界,运行一小时后,AI生成了包含结构清晰潜在极值解的上界结果[18][19] - 陶哲轩利用John Cook的公开专用工具整理序列,为c(n)的值提供了猜想[21] - Boris Alexeev找到了该猜想的简洁表述:c(k²+2a+1) = k / (k²+a),其中0 ≤ a ≤ k[22] - 使用ChatGPT Pro生成1/c(n)的图像,直观显示其基本是对平方根函数的分段线性逼近[26] - 数学家Lawrence Wu结合正方形填充问题(Erdős 106)进行阐述,引入f(n)并设定c(n) ≥ 1/f(n)[28][30] - Lawrence Wu通过AI论文检索,找到一篇去年发表的论文,最终证明了猜想中的公式,从而完成了整体证明[32] AI在数学研究中的广泛应用 - 陶哲轩近期还借助Gemini 2.5 Deep Think破解了Erdős问题 367,全程只用了十分钟[34][35] - 陶哲轩利用GPT-5进行半自动化文献检索,对相关数列进行高精度计算后输入OEIS数据库检索对照,发现部分Erdős问题其实早已在既有研究中被解决[37] - 来自Harmonic的数学AI模型被曝独立证明了Erdős问题 124,微软前AI副总裁Sebastien Bubeck表示该解决方案100%由AI生成,总计耗时6小时[43][44] - Erdős问题网站公开鼓励使用AI辅助解题,但需满足公开说明、用户独立验证及评论长度合理等条件[45] - 陶哲轩表示,在Erdős问题网站上,AI辅助已经变得很常见[42] Erdős问题背景 - Erdős问题出自20世纪著名匈牙利数学家Paul Erdős,他一生合作了超500位数学家,发表了约1525篇数学论文[39] - 他提出或转述了上千道问题,被收录于erdosproblems.com网站,目前绝大多数难题依然悬而未解[39][41]
交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026
量子位· 2025-12-13 02:00
文章核心观点 - AI的出现正在从根本上改变经济学的基础概念,特别是“稀缺性”的定义,并可能重塑资源配置、生产结构和收入分配的逻辑 [2][6] - 面对AI,不应再寻找不会被替代的安全行业,而应转向思考如何掌握AI技术并与之共生 [3][14][33] - AI将引发全球范围内经济格局、财富分配、国际秩序以及行业工作性质的深刻变革 [26][29][31] AI时代的经济学范式转变 - 经济学的核心是研究在资源稀缺条件下如何做出选择,但AI的出现改变了“稀缺”的概念,过去稀缺的时间、算力、创意等正变得不再稀缺 [9][11] - 当AI替代人类进行工作和决策时,资源配置的主体和标准可能发生变化,未来可能出现人与算法、算法与算法之间的竞争 [6][21][22] - 生产与消费的传统关系受到挑战,随着AI替代越来越多的工作,全社会的收入结构、财政与社保体系将面临巨大挑战 [16][17] AI对全球经济的宏观影响 - 据诺贝尔经济学奖得主估算,AI在未来十年可能每年推动全球经济增长0.5%到0.7% [14][24] - AI能力获取的不平等将加剧全球分化,只有不超过20家大型企业能负担大模型的巨额成本,这可能导致全球财富分配出现新一轮变化 [28][29] - AI驱动的贸易将越来越多地超越物理形态,带来新的跨境监管、治理与责任划分问题,需要建立新的全球治理体系 [29][30] AI对行业与工作的具体影响 - 工作性质发生改变,AI与机器人技术的进步正在打破白领与蓝领之间的传统界限 [31] - 最初认为知识密集型行业(如律师、会计师)易被替代,但随着AI向复杂多模态发展,各行业都将面临更深刻的冲击 [31][33] - 算法无需休息,极大改变了人类在时间维度的能力,一方面将人从时间束缚中解放,另一方面也对许多人的生存技能造成颠覆性冲击 [23]
中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子
量子位· 2025-12-12 06:41
文章核心观点 - 中国在具身智能(特别是人形机器人)领域,凭借量产能力、完整的产业链和聚焦实战应用的赛事,已取得全球领先地位,引发了美国网友和行业的高度关注与焦虑 [1][3][5][9][33][40][53][56] 国际反响与对比 - 美国网友在Reddit等平台热议,对比中国机器人已在参与应急救援等实战比赛,而美国同类产品仍停留在演示和娱乐阶段,感到“破防”和落后 [1][3][5][6][8] - 国际关注度高涨,外国网友对中国具身智能发展的关注度甚至超过国内,GDPS 2025大赛的规模和实战性给其带来强烈刺激 [9][10][11][12] - 美国机器人公司(如特斯拉)在技术路径上曾受中国公司(如宇树科技)影响,例如从经典控制方法转向强化学习以提升运动能力 [30][31][33] - 硅谷行业人士(如Sunday机器人联创Tony Zhao)警示,中国公司在“硬件量产”与“AI驱动运动控制”结合的垂直整合模式上可能超越硅谷,后者若沉溺于软件优势的假设可能会输掉竞争 [34][35] 中国具身智能的领先优势:量产与实战 - 核心优势在于实现了大规模量产,例如优必选和智元机器人,这与Figure、特斯拉、1X等仍处于原型或小规模试点阶段形成鲜明对比 [36][40][41][42] - 量产(如智元机器人达成5000台交付)能暴露并解决硬件设计潜在问题,推动技术可靠性、供应链稳定性与场景适配性三大核心难题的攻克,使机器人从局限场景进入成熟的产业化部署阶段 [37][38][39] - 量产带来的规模效应将进一步推动算法和数据的标准化,形成正向循环 [41] GDPS 2025大赛作为展示窗口 - 大赛是全球开发者先锋大会暨国际具身智能技能大赛,设有机器人应急救援等实战比赛项目,首次对标世界技能大赛 [7][46] - 规模庞大,参赛队伍超过百支,涵盖复旦、交大等高校及智元、宇树、新松、开普勒等企业,设立六大赛道、17个赛项,覆盖工业、医疗等多领域 [46] - 首创“三元评审”机制(科学家、AI专家、技能大师),将人类老师-机器学生的经典设定现实化,聚焦实战能力考核 [46] - 大赛作用在于将中国已落地的技术实力摆上台面,形成训练-评估的正反馈循环,并揭示了硅谷可能回避的技术代差 [45][47][48][52] 产业链与生态支撑 - 以上海为代表的机器人产业规模已占全国三分之一,形成了以张江机器人谷为核心的密集产业链,核心部件企业集聚,实现“上下楼就是上下游”,将硬件迭代周期从“月”级缩短至“天”级 [49][50] - 发展由真实工业焊锡、消防救援、医疗康养等场景需求驱动,技术落地目的明确 [50] - 政策、场景与生态协同发力,通过开放百个核心试验场景、推出最高4000万元算力券、支持物理世界常识库建设等系统化产业政策,推动技术与商业双重突破 [50] - 完整的产业链和生态支撑使具身智能从“展示品”变为“量产品”,并赋予举办高规格赛事的底气 [49][51] 行业现状与影响 - 中国具身智能技术展示的内容(如机器人车间操作、长距离行走)在国内已是“日常”而非“作秀”,标志着产业化进入新阶段 [16][18][26][54] - 产业链持续运转,应用场景不断开拓,生态拼图日趋完整,上海是这一进程最先和最完整的呈现者 [55] - 中国在该领域的进展已达到令国际社会不得不高度重视的程度 [56]
只需三步,就能认领一台AI手机!
量子位· 2025-12-12 06:41
核心观点 - 智谱公司开源的AutoGLM项目,是一个能让手机通过自然语言指令自动执行操作(如点外卖、比价)的AI智能助理框架,实现了从“对话”到“行动”的范式转变[12][13] - 通过结合Claude Code与GLM-4.6等工具,用户现可通过简化步骤在本地或云端部署使用AutoGLM,降低了使用门槛[7][8] 产品功能与效果 - AutoGLM能够理解用户自然语言描述的任务意图,“看懂”手机屏幕并自动执行点击、输入、跳转等操作,模拟人类操作手机[13] - 具体应用场景包括:通过一句话指令在美团自动点一杯冰豆花[4][5],以及自动完成“货比三家”等复杂操作[6] 技术部署与使用 - 部署方法使用工具组合Claude Code + GLM-4.6,主要分为三步:安装ADB Keyboard并连接手机、在Claude Code中输入特定提示词、在安装过程中确认弹窗[8][9][11] - 开源后,用户可选择在本地设备上部署以完全掌控数据与流程,或在云端环境中快速体验,即开即用[14] 项目发展历程 - 智谱AutoGLM项目历时共计32个月,有三个关键发展节点[14] - 2024年10月,发布全球首个具备Phone Use能力、能自动操作手机的AI Agent[15] - 2024年11月,完成人类历史上第一个由AI全自动发出的红包,完全打通从理解意图到在真实手机上进行操作的全链路[15] - 2025年8月,发布AutoGLM2.0云机版,将系统置于云端虚拟手机中,以实现对敏感数据的严格隔离[15]
量子位编辑作者招聘
量子位· 2025-12-12 06:41
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - AI产业方向关注基建层创新,包括芯片、AI Infra、云计算[6] - AI财经方向关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向关注AI在应用和硬件终端方向的进展[6] - 社招岗位覆盖编辑、主笔、主编各个层级,按能力匹配[6] - 校招面向应届毕业生,接受实习且可转正[6] 岗位职责与要求 - AI产业方向岗位需跟进芯片、AI Infra、云计算等领域新进展及核心玩家动态[6] - AI产业方向需对前沿论文、开源社区、技术大会报告进行大众化解读[6] - AI产业方向需参与核心采访,对话产业专家并撰写落地案例[7] - AI产业方向任职要求包括对芯片、GPU、服务器、云计算等有基本理解[11] - AI产业方向需熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达[11] - AI财经方向岗位需聚焦创投、AI创业公司、上市公司及产业链资本动向[11] - AI财经方向需产出创投融资、财报解析、公司战略分析等稿件[11] - AI财经方向需访谈投资人、创业者及产业分析人士[11] - AI财经方向任职要求包括对数据敏感,对财报、股权结构感兴趣[11] - AI财经方向需逻辑结构强,对商业叙事敏感,并热爱对话采访[11] - AI产品方向岗位需关注AI在软件应用和硬件终端的落地[11] - AI产品方向需撰写AI应用深度评测,跟踪手机、PC、XR、车机等新品发布[11] - AI产品方向需对话AI应用创业者、产品专家及终端技术专家[11] - AI产品方向任职要求包括对智能硬件和AI终端趋势敏锐,是重度产品体验人士[11] - AI产品方向需熟悉各大终端厂商业态,并具备强逻辑和结构化表达能力[11] - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能用通俗语言解读AI进展[6] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人会由主编级编辑担任导师,提供一对一指导以加速成长[6] - 公司提供扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了
量子位· 2025-12-12 06:41
OpenAI与迪士尼战略合作的核心内容 - OpenAI与迪士尼正式达成为期三年的战略合作,迪士尼成为Sora的首个主要内容授权合作伙伴,第一年的授权具有排他性[10][11] - 作为协议的一部分,迪士尼将向OpenAI进行10亿美元的股权投资,并获得未来增持的认股权证[2][21] - 合作范围不仅限于Sora,ChatGPT Images也将获得同等授权,用户可通过简短文字生成相关IP图像[8][14] 授权IP的具体范围与限制 - Sora获得迪士尼旗下超过200个热门IP角色的授权,涵盖迪士尼经典、皮克斯、漫威及星球大战系列角色[6][12][13] - 授权范围包括角色、服装、道具、载具和标志性场景,但不包含任何真人的肖像或声音[12][15] - 部分由粉丝创作的Sora短视频未来可能在Disney+流媒体平台播出[16] 合作对OpenAI产品Sora APP的潜在影响 - Sora APP近期用户留存率数据堪忧,从上线首日(day1)的10%降至第7天(day7)的2%、第30天(day30)的1%以及第60天(day60)的0%[27] - 获得迪士尼IP授权后,Sora APP的创作素材和玩法天花板被大幅打开,有望借助IP自带的用户情感连接与热度改善用户留存与生态活跃度[30][32][33][35] - 该授权功能预计于2026年初正式上线[17] OpenAI寻求版权合规的背景与动机 - OpenAI早期面临多起版权诉讼,例如2023年底《纽约时报》起诉其未经授权使用数百万篇文章训练GPT模型[39] - 随着生成式AI内容创作普及,涉及热门IP侵权的案例增多,最出圈的争议是“斯嘉丽·约翰逊事件”,其声音相似性引发侵权质疑[40][41][42] - 今年10月Sora APP上线后,迪士尼曾致函OpenAI,明确指出未授权其使用迪士尼版权内容,并质疑其“选择退出”版权保护机制的不合理性[46][47] - 此次以股权换取版权授权的合作,被视为OpenAI在经历多次版权纠纷后,为规避法律风险、寻求合规运营的重要举措[38][48] 迪士尼的AI战略与行业影响 - 迪士尼将积极利用OpenAI的API构建新产品、工具和体验,应用范围包括Disney+流媒体平台,并为员工部署ChatGPT用于内部工作流程[22][23][24] - 迪士尼CEO鲍勃·艾格表示,与OpenAI的合作将负责任地通过生成式AI扩展故事触达范围,让粉丝以新方式与角色和故事建立联系[25] - 在OpenAI之后,迪士尼已就版权侵权问题向谷歌发出停止侵权函,指控其利用AI模型大规模侵犯迪士尼版权并进行商业化使用[48][49][50]
谷歌智能体发力:增强版Gemini Deep Research和专属API都来了
量子位· 2025-12-12 06:41
谷歌Gemini生态重大升级 - 谷歌正式发布增强版Gemini Deep Research智能体,该智能体基于Gemini 3 Pro构建,专门用于减少幻觉,在复杂信息检索与分析任务上表现领先 [3] - 该增强版智能体很快将被集成到谷歌搜索、NotebookLM、Google Finance以及升级版的Gemini App中 [3] - 此次更新不仅是Deep Research的升级,更是整个Gemini生态的一次大升级 [8] 增强版Deep Research的核心能力 - 增强版Gemini Deep Research能够实现迭代式推理,不仅能提出查询需求,还能读取和整合搜索结果,发现知识空白,然后针对性地开展新一轮搜索 [10][13] - 通过这种循环式操作,它大幅提升了网络搜索能力,能够深入网站抓取精确信息 [10] - 这种能力让该智能体在复杂研究任务中表现出色,在人类最后的考试HLE、BrowseComp、和DeepSearchQA等测试中刷新了SOTA成绩 [10] 配套发布的DeepSearchQA基准测试 - 谷歌配套推出了DeepSearchQA基准测试集,为深度搜索与研究任务提供了更全面的评估标准 [5] - 该基准测试集包含来自17个领域的900个手工设计的因果链任务,要求生成详尽的答案集合,比传统事实检索测试更能衡量智能体在多步推理与信息融合中的综合能力 [12] - 在DeepSearchQA基准测试中,Gemini Deep Research Agent的“完全正确”率为66.1%,领先于GPT-5 Pro的65.2%和GPT-5的59.4% [14] 全新发布的Interactions API - 谷歌同时发布了Interactions API,为开发者提供了与Gemini 3 Pro和Deep Research智能体交互的统一接口 [6] - 该API设计了原生接口,提供一个统一的RESTful端点,通过指定模型或智能体参数,就能与模型和智能体进行复杂上下文的交互 [16] - 该API特别适合需要多步骤推理、工具调用以及长程任务执行的场景,扩展了generate Content的核心能力,具备服务器端状态可选、可解释且可组合的数据模型等特性 [17][18]