Workflow
Gemini 3 Deep Think
icon
搜索文档
谷歌Gemini 3 Deep Think点燃算力板块,人工智能AIETF(515070)持仓股新易盛大涨8.43%
每日经济新闻· 2025-12-08 05:29
文章核心观点 - 谷歌发布新一代AI模型Gemini 3 Deep Think,其在复杂推理任务上表现卓越,推动了市场对人工智能产业链的关注和投资热情,A股相关科技板块及ETF午后表现强势 [1][2] 市场表现 - A股科技赛道午后延续强势,CPO、元件、商业航天板块活跃,煤炭板块调整 [1] - 人工智能AIETF(515070)午后持续攀升,盘中涨幅扩大至3.61% [1] - 该ETF持仓股表现突出,新易盛大涨8.43%,中际旭创涨7.29%,寒武纪-U、光迅科技、复旦微电等股领涨 [1] 行业与公司动态 - 谷歌在Gemini应用中正式推出Gemini 3 Deep Think模式,面向Google AI Ultra订阅用户 [1] - 该新模式显著提升推理能力,旨在应对复杂的数学、科学和逻辑问题 [1] - 谷歌正构建商业化闭环并已初现成效,将构建起行业护城河 [2] 技术突破与性能 - Gemini 3 Deep Think在“人类最后的考试”基准测试中,未使用工具情况下取得41.0%的成绩 [1] - 在ARC-AGI-2测试中,使用代码执行时达到前所未有的45.1% [1] - 其出色表现得益于采用先进的并行推理技术,能够同时探索多个假设 [1] - 谷歌Gemini 3 Pro采用稀疏混合专家架构,支持高达100万token的上下文窗口,并能输出64K token文本内容 [2] - 该模型在多模态处理、数学推理和长文本理解等关键领域实现显著突破 [2] 产业链与投资标的 - 人工智能AIETF(515070)跟踪CS人工智能主题指数(930713) [2] - 其成分股选取为人工智能提供技术、基础资源以及应用端的个股,聚集人工智能产业链上中游 [2] - 前十大权重股包括中际旭创、新易盛、寒武纪-U、中科曙光、科大讯飞、豪威集团、海康威视、澜起科技、金山办公、紫光股份等国内科技龙头 [2]
谷歌IMO金牌级Gemini 3深夜上线,华人大神挂帅,OpenAI无力反击
36氪· 2025-12-05 10:08
产品发布:Gemini 3 Deep Think - 谷歌DeepMind发布全新推理模型Gemini 3 Deep Think,基于前代Gemini 2.5 Deep Think迭代,在复杂数学、科学和逻辑难题的推理能力上实现质的飞跃[7] - 该模型的核心能力是“并行思考”,可同时探索多种假设以解决超高难度问题[2][14] - 模型在多项基准测试中取得行业领先成绩:在Humanity‘s Last Exam(无工具辅助)上获得41%的高分,在ARC-AGI-2(配合代码执行)上创下45.1%的新纪录[2][7],在ARC-AGI系列测试中实力被描述为无“模”能敌[10] - 产品已上线,所有Gemini App的Ultra订阅用户即可体验[5][11] 技术演示与能力 - 在3D场景生成任务中,Gemini 3 Deep Think相比Gemini 3 Pro展现出更高的还原度和符合物理逻辑的交互光影[5] - 该模型能够根据草图创建精确的交互式3D场景[5],并能生成具备真实物理效果(如碰撞模拟)的游戏关卡和动画[14][16] - 在程序化生成内容(如创建地球类行星)的任务中,Deep Think版本被评价为比Pro版本更具创造力[14] - 开发者实测表明,该模型具备根据静态照片(如玻璃瓶)生成相应3D动画的惊人能力[15][16] 团队与人才战略 - 谷歌DeepMind宣布在新加坡组建一支全新的精英团队,专注于高级推理、大语言模型/强化学习,并推进Gemini及Deep Think等前沿模型的发展[18] - 该团队由华人科学家Yi Tay领导,并向位于山景城、由谷歌Fellow Quoc Le领导的团队汇报,后者是Gemini Deep Think在IMO和ICPC竞赛中获得金牌突破的核心团队之一[18][20] - 团队组建理念强调“人才密度”,初期规模小但能力极强,并已从全球招募顶尖人才[20][21][23] - 团队将与包括“推理之王”Denny Zhou、Noam Shazeer在内的多位AI领域顶尖研究者联动[23] - 该项目得到了谷歌DeepMind内部高层(如Demis Hassabis、Jeff Dean)的大力支持[23] 市场动态与竞争格局 - 随着Gemini 3 Pro的发布,谷歌Gemini的网页端市场份额突破15%大关,目前达到15.1%[26][27] - Gemini的网站访问量达到13.51亿次,较上月(10月)增长14.3%[30] - 尽管ChatGPT在流量上仍断崖式领先,但其市场份额持续下降,目前为71.3%,网站访问量降至58.44亿次,这是其在2025年第二次出现环比下滑[26][27][30] - Grok凭借4.1版本的发布持续增长,市场份额升至2.7%,网站访问量达到2.344亿次,创历史新高,较10月增长14.7%,并首次实现连续两个月流量增长[26][27][33]
谷歌全线开挂!Gemini 3 Deep Think夺多项推理SOTA,Gemini亚洲新团队也官宣了
AI前线· 2025-12-05 08:41
Gemini 3 Deep Think模式发布与性能表现 - 谷歌正式上线Gemini 3的Deep Think模式,该模式显著加强推理能力,能处理复杂、多步骤及创新的问题,包括超难的科学和数学题 [2] - 在衡量通用智能核心能力的ARC-AGI基准测试中,Gemini 3 Deep Think在两个榜单均拔得头筹 [3][4] - 在测试基础抽象推理的ARC-AGI-1中,其答题正确率达87.5%,击败了GPT-5系列和Claude Opus 4.5等模型 [4] - 在测试高阶推理场景的ARC-AGI-2中,其正确率达45.1%,比非深度思考模式的Gemini 3 Pro(正确率31.1%)高出14%,而GPT-5 Pro在此项正确率仅为18.3% [6] - 在人类最后考试(HLE)和聚焦高阶科学问题的GPQA Diamond两项高难度评测中,Gemini 3 Deep Think也均取得第一名 [7][8] - 目前该模式仅向Google AI Ultra订阅用户开放 [11] 市场与用户反馈 - 社交媒体用户对Deep Think模式在HLE和ARC测试中超过40%的收益率表示赞赏 [13] - 有用户分享实例,称Gemini 3 Deep Think成功解决了一个让其耗费数日的stack underflow bug,其答案比同样能解决该问题的Claude Opus 4.5更明确,且能自信指出bug确切位置,但运行速度较慢 [14][15] - 有用户称赞其创意场景推理能力,称获得了前所未见的最佳输出之一 [16] - 也有用户提出实际使用效果未达预期,希望优化AGI相关功能 [17] 谷歌DeepMind组织与团队动态 - 谷歌DeepMind宣布在新加坡成立全新的Gemini研究团队,由95后华人科学家Yi Tay带队 [20][21] - 新团队将专注于高级推理、LLM/RL以及改进Gemini、Gemini Deep Think等前沿SOTA模型,并向Google Brain创始成员之一Quoc Le汇报 [21] - 位于美国Mountain View的团队近期凭借Gemini Deep Think,已在国际数学奥林匹克竞赛(IMO)和国际大学生程序设计竞赛(ICPC)中斩获金牌 [21] - 团队规模不会很大但人才密度极高,正在招募全球顶尖人才,并与Quoc Le、Denny Zhou、Mostafa Dehghani、Noam Shazeer等AI领域传奇人物合作 [27] - 团队还将吸纳Victor Tran、Lê Minh Thang、薛之、Shane Gu等当代行业顶尖人才 [27] - Gemini团队诞生于2023年谷歌将Google Brain与DeepMind合并为Google DeepMind的重组,旨在整合科研与工程以打造与GPT系列竞争的基础模型 [29][30] - 该团队是一个覆盖算法设计、超大规模训练、多模态系统构建到产品化落地的全链路超级团队,已推出Ultra、Pro、Flash三大全系模型 [30] 谷歌其他AI产品进展 - 谷歌正式推出Google Workspace Studio,深度整合Gmail、Docs、Sheets、Drive、Chat、Calendar等办公应用,允许用户不写代码、在几分钟内创建自己的AI Agent,以自动化从简单提醒到跨系统流程的复杂办公任务 [31] - Workspace Studio基于谷歌最强大的Gemini 3,具备推理、多模态理解和跨应用调用能力,可根据示例自动执行情感分析、内容生成、优先级排序、智能通知等任务 [32] - 有社交媒体用户表示该产品解决了痛点,希望马上使用 [33] - 有用户看好谷歌(股票代码$GOOGL),并猜测是否会有更多企业采用Google Workspace并放弃微软 [34] - 有用户分享使用体验,称其彻底改变了邮件处理方式 [35]
谷歌最强大模型付费上线,在DeepSeek开源后被吐槽太贵
量子位· 2025-12-05 05:33
Gemini 3 Deep Think 模型发布与性能 - 谷歌正式上线最新最强模型Gemini 3 Deep Think,其推理能力表现突出[2] - 新模型在复杂数学、科学推理和逻辑问题上相比前代有大幅提升,旨在解决最强模型都难以处理的问题[9] - 模型采用迭代推理的“深度思考”模式,能多轮打磨代码,生成更精细程序,在可视化、原型设计和实验方面交付细节更丰富的结果[9] - 模型底层技术衍生于曾在IMO、ICPC World Finals上获得金牌的Gemini 2.5 Deep Think,并借助更先进的并行推理机制,可同时从多个思路进攻高难度问题[14][15] 模型演示与能力展示 - 模型能将草图转化为逼真的3D场景,结构、镂空花纹与光影处理到位[3] - 能用几句话搭建出运行丝滑的3D多米诺骨牌解压游戏[4] - 用户可与其进行视觉艺术创作,在虚拟宇宙中探索[5] 基准测试表现 - 在Humanity‘s Last Exam基准测试中,Gemini 3 Deep Think在不使用工具的前提下准确率达到41.0%,比GPT-5 Pro高出10个百分点[10] - 在ARC-AGI-2基准测试中,其代码执行准确率达到前所未有的45.1%,比Gemini 3 Pro高14%,领先GPT-5.1近30%[11] - 根据提供的基准测试数据表,Gemini 3.0 Pro在多项测试中表现优异,例如在HMMT Feb 2025哈佛MIT数学竞赛中得分为97.5,在LiveCodeBench世界级编程竞赛中得分为90.7,在GPQA Diamond理工科博士生测试中得分为91.9[26] 定价策略与市场反馈 - Gemini 3 Deep Think目前仅向Ultra会员开放,月费为249.9美元,折合人民币约1800元[18] - 该定价策略引发Pro用户强烈不满,用户认为未提供试用额度或按次付费选项,难以判断模型价值[18][21] - 与竞争对手相比,OpenAI为Plus用户提供每周100条o3模型额度,谷歌此策略被指“小气”[23] - 模型发布后市场反响平平,评论区焦点集中于吐槽定价[24] 行业竞争格局 - 谷歌在Gemini 3 Pro取得优势后,迅速推出Gemini 3 Deep Think,被描述为“不给对手任何喘息的机会”[8] - 竞争对手DeepSeek近期更新的V3.2版本在推理能力上直逼Gemini 3 Pro,同样获得了IMO 2025、ICPC World Finals 2025等竞赛金牌,且为开源模型,对谷歌形成直接竞争压力[25][26] - 行业观点认为,DeepSeek作为开源模型,正像一条“大鲶鱼”一样搅动整个行业[28]
计算机行业重大事项点评:Google:Gemini3开启全模态革命
华创证券· 2025-11-24 14:15
报告行业投资评级 - 计算机行业投资评级为“推荐(维持)” [4] 报告核心观点 - Google正式发布Gemini 3,该模型不仅是全球领先的多模态理解模型,更是Google迄今为止最强大的智能体和氛围编程模型,其性能全面进化,强化了Google在AI竞赛中的领先地位 [2][7] - Gemini 3 Deep Think增强推理模式开启了深度思考新纪元,显著拓展智能边界 [7] - Google推出全新智能体开发平台Antigravity,迈向以任务为导向的Agent新阶段 [7] - Google凭借“芯片-模型-生态”三位一体的全栈式战略,构筑了深厚的竞争壁垒 [7] 一、Gemini 3:性能全面进化,强化 Google AI 竞赛领先地位 - Gemini 3以1501分登顶LMArena排行榜,在推理、数学及多模态领域均创下最佳成绩 [7][10] - 模型在“人类终极考试”中无工具辅助得分率达37.5%,GPQA Diamond基准测试准确率达91.9%,MathArena Apex测试成绩达23.4% [10] - 多模态理解方面表现突出,在MMMU-Pro和Video-MMMU上分别获得81%与87.6%的成绩,SimpleQA Verified基准测试得分72.1% [10] - 依托百万token上下文窗口,实现“学习、构建、规划”三大突破,可将视频、论文转化为交互学习材料 [7][13] - 在编程基准中表现卓越,WebDev Arena Elo评分1487,Terminal-Bench 2.0成绩54.2%,SWE-bench Verified成绩76.2%,LiveCodeBench Pro成绩2439分 [7][14] 二、Gemini 3:Deep Think 开启深度思考新纪元 - Gemini 3 Deep Think模式在“人类最终考试”中无工具辅助得分率达到41.0%,GPQA Diamond测试准确率提升至93.8% [7][15] - 在启用代码执行的ARC-AGI-2基准测试中取得45.1%的突破性成绩 [7][15] 三、Google:全新智能体开发平台 Antigravity,迈向 Agent 新阶段 - Antigravity平台深度集成Gemini 3的强大推理与编码能力,将模型从辅助工具升级为能自主规划、执行并验证复杂软件工程的活跃伙伴 [7][17] - 平台为智能体提供专属界面,赋予其直接操作编辑器、终端和浏览器的权限,并融合了Gemini 2.5 Computer Use模型及Nano Banana图像编辑模型 [7][17] - Gemini 3在Vending-Bench 2测试中展现出卓越长期规划能力,面向订阅用户推出可处理多步骤工作流程的Gemini Agent功能 [7][17] 四、Google:“芯片-模型-生态”全栈式战略,构筑深厚壁垒 - 硬件层面基于自研Trillium TPU实现算力较前代提升4倍,新一代Ironwood TPU有望将性能提升10倍,支持单集群连接9,216颗芯片 [7][20] - 开发者生态方面,通过AI Studio、Antigravity等平台提供完整工具链,拥有1300万开发者 [7][20] - 应用层面深度整合至月活20亿的搜索等产品,Gemini系列月活用户突破6.5亿,获超70%云端客户采用 [7][20] 五、投资建议 - 建议关注AI细分景气方向,包括国产算力、企业服务(办公、多模态、ERP、OA、编程、营销)以及多个应用场景(金融、教育、法律、医疗、电商、安全、工业、军用) [7][22][24]
都别争了,放着我来:Gemini 3生成一切
36氪· 2025-11-19 00:08
产品发布与性能表现 - Gemini 3 Pro 已正式上线,其预览版可在 Google AI Studio 体验,面向大众的网站和 App 版本将很快推出 [1][2] - 在多项基准测试中,Gemini 3 Pro 性能全面超越前代产品 Gemini 2.5 Pro 及主要竞争对手 Claude Sonnet 4.5 和 GPT-5.1 [3] - 在代表抽象推理能力的 ARC-AGI-2 测试中取得 31.1% 的成绩,显著领先于第二名 Claude Sonnet 4.5 的 13.6% [3][4] - 在数学能力测试中表现突出,AIME 2025(无工具)得分达 95.0%,MathArena Apex 得分 23.4%,远超对手的不足 2% [3][4] - 在“人类最后一场闭卷考试”Humanity's Last Exam 中取得当前最高分 37.5%,优于 GPT-5.1 的 26.5% [3][7] - 开启 Deep Think 模式后,模型性能进一步提升,在 Humanity's Last Exam 中得分提升至 41%,在 GPQA Diamond 科学知识测试中得分达 93.8%,在 ARC-AGI-2 中得分高达 45.1% [7][8] 多模态与交互能力 - 模型具备强大的多模态理解和生成能力,可一句话生成高质量、可交互的 3D 模型和 SVG 图像,例如在 35 秒内生成带开关的可操作灯泡 SVG [9][12] - 在屏幕理解测试 ScreenSpot-Pro 中得分 72.7%,远超其他模型,表明其能像人类一样理解并操作 UI 界面 [3][4] - 未来将推出“生成式 UI”功能,模型可直接生成动态、可交互的界面来回答问题,例如生成一个包含可交互元素的罗马旅行计划 [15] - 在长程智能体任务测试 Vending-Bench 2 中,以平均净值 $5,478.16 的表现大幅领先于其他模型,展示了其在复杂跨场景任务中的执行能力 [3][4] 编程与开发能力 - 在竞技编程 LiveCodeBench Pro 测试中,Elo 评级达 2,439 分,高于 GPT-5.1 的 2,243 分 [3] - 具备强大的代码生成与系统构建能力,可根据一段描述生成功能完整的“macOS 操作系统”,并能在此系统内进行上网、运行终端等操作 [22] - 能快速生成功能完备的网站,例如在 1.5 分钟内生成包含四个页面、具有有效交互元素的个人网站,并能根据反馈(如要求更具设计感)在 45 秒内完成迭代 [26][29] - 谷歌发布了名为 Antigravity 的集成开发环境,该平台能让 AI 作为智能体自主跟进开发进度、编写代码、验证效果并学习开发者的编码风格 [38][39] 行业影响与产品定位 - 模型通过与谷歌全家桶的深度集成,在开启 Agent 模式并授权后,能调动用户设备中的数据,实现复杂的个人助理功能,如根据邮件信息预订租车 [5][7] - 技术的进步显著降低了从构思到实现的技术门槛,将竞争的核心转向了想象力 [39] - 公司产品发展路径清晰:Gemini 1 奠定多模态基础,Gemini 2 强化推理与智能体能力,Gemini 3 则通过生成式 UI 实现输出格式的多样化,完成了能力的持续迭代 [39]
谷歌Gemini 3夜袭全球,暴击GPT-5.1,奥特曼罕见祝贺
36氪· 2025-11-19 00:07
产品发布核心 - 谷歌正式发布新一代旗舰人工智能模型Gemini 3 Pro,该模型被定位为“史上最强推理+多模态+氛围编程”三合一的AI模型 [1] - 此次发布标志着公司在通往AGI的道路上迈出重要一步,被视为开启了AI的下一个时代 [3][9] - 发布获得了行业高度关注,包括OpenAI CEO在内的业界人士表达了祝贺 [1] 核心性能优势 - 在多项关键基准测试中,Gemini 3 Pro性能相较于前代Gemini 2.5 Pro实现全方位跃升,并在多项测试中超越竞争对手包括GPT-5.1和Claude Sonnet 4.5 [3][4][18] - 模型在LMArena排行榜上以1501 Elo分数名列榜首,在WebDev Arena排行榜上以1487 Elo分数登顶,展示了顶尖的推理和编码能力 [5][6][31] - 其核心优势体现在博士级推理能力,在Humanity‘s Last Exam测试中取得37.5%(无工具)和45.8%(使用搜索和代码执行)的成绩,在GPQA Diamond测试中取得91.9%的成绩 [4][17] 多模态与复杂任务处理能力 - 模型具备世界领先的多模态理解力,能处理文本、图像、视频、音频、代码等多种信息形态,在MMMU-Pro测试中获81.0%高分,在Video-MMMU测试中获87.6%高分 [4][19][28] - 在长程规划和智能体任务方面表现卓越,在Vending-Bench 2测试中以平均净值$5,478.16的成绩大幅领先于其他模型,展示了出色的长期规划能力 [4][38][40] - 模型具备100万token的上下文长度,能够帮助用户以个性化方式进行学习,例如破译手写食谱、分析教学视频并生成训练计划等 [28][30] 编程与开发能力 - Gemini 3在“氛围编程”和智能体编码方面实现突破,能够根据简单提示生成美观灵动的应用和复杂的Web UI [14][31][34] - 在编码基准测试中表现强劲,在LiveCodeBench Pro测试中获得2,439 Elo评分,在SWE-Bench Verified测试中取得76.2%的成绩 [4][32] - 公司同步推出革命性智能体开发平台Google Antigravity,该平台与Gemini 3紧密集成,允许开发者以任务为维度与智能体协同,实现端到端的软件任务开发 [42][45][47] 市场应用与生态整合 - 即日起,Gemini 3 Pro预览版全面上线,而更高级的Deep Think模式将稍后向Google AI Ultra订阅用户开放 [11][41] - 模型的API定价针对不同上下文长度设定,对于不超过20万token的请求,输入价格为每百万tokens $2.00,输出价格为每百万tokens $12.00 [24] - 模型已接入Google AI Studio、Vertex AI等多个开发平台,并与Cursor、GitHub、JetBrains等第三方平台集成,供全球开发者使用 [36] 技术实现与行业影响 - Gemini 3完全在谷歌自研的TPU上完成训练,这被视为公司重要的技术护城河 [54] - 早期实测演示显示模型能力强大,可一次性生成复杂的3D乐高编辑器、重现经典iOS游戏甚至构建Game Boy模拟器,展示了其在游戏开发和复杂应用构建上的潜力 [48][49][52] - 模型的发布在行业内引发广泛关注和讨论,一系列实测Demo展示了其在实际应用中的卓越表现 [48][52]