Gemini 3的意义：AI已超越“幻觉阶段”，逼近人类，“人机协作”将从“人对AI纠错”走向“人指导AI工作”

产品发布与定位 - 谷歌正式发布迄今最强大人工智能模型Gemini 3，并于发布首日立即在谷歌搜索、Gemini应用程序App及多个开发者平台同步上线，在多个盈利产品中投入使用[1] - 公司高管强调，在衡量人工智能模型性能的几个热门行业排行榜上，Gemini 3处于领先地位[2] - 谷歌AI研究实验室DeepMind的CEO表示，Gemini 3是"世界上最好的多模态理解模型"，也是公司迄今最强大的智能体和代码生成模型[3] 性能突破与能力演进 - 与三年前的GPT-3模型相比，AI不再仅仅是生成文本，而是能够编写代码、构建可交互的应用、执行多步骤任务，展示了从"描述"到"行动"的飞跃[3][4] - 模型能够根据简单指令创建一个可交互的"糖果动力超光速飞船模拟器"迷你游戏，体现了从只能描述引擎到能把引擎写出来、把界面画出来的进步[6][7][8] - 模型所犯的错误已不再是无中生有的"幻觉"，而更接近人类在判断或意图理解上的偏差，表明行业已越过"幻觉"阶段，进入更微妙、更"人类"的缺陷区[4][25] 智能体工具与产品化 - 伴随Gemini 3，谷歌发布了Antigravity工具，其本质是"会写代码的智能体"，能获得电脑权限，在指导下自主写程序，将"能完成任何在电脑上才能完成的活儿"这一理念产品化[11] - 工具允许用户用自然语言（如英语）分派任务，智能体用代码替用户干活，擅长做计划，知道该干什么、何时请示，用户感觉更像管理一位队友[11][12][17] - 智能体能够执行复杂任务，例如读完所有文件、跑代码、搜索网页、建站、接管浏览器验效果，再把成品打包，并可根据用户意见进行迭代修改[12][14] 高级认知与判断力 - 模型展现了真正的"判断力"，能够自主处理复杂研究任务，例如恢复损坏的STATA格式数据文件，并摸透复杂数据结构[18] - 在接到"写一篇原创论文"的典型博士级任务时，模型能够自己选题、提假设、跑统计、出图表、排版成文，并自创指标（如用NLP衡量"众筹创意独特性"），最终生成14页论文[19][21][22][23] - 其表现类似于一个合格的研究生，统计方法虽有瑕疵、理论跳跃过大，但可通过开放建议（如"再多补文献以确立方法"）显著提升[25] 行业范式迁移 - 行业正从"聊天机器人时代"迈向"数字同事时代"，AI正从一个对话伙伴演变为一个可以接入计算机并完成实际工作的通用工具[4][28] - "人在回路"的模式正从"人替AI擦屁股"演变为"人指导AI干活"，人类所做的将不再是修正AI的低级错误，而是为其提供高阶的战略指引和方向，这被认为是自ChatGPT发布以来AI领域发生的最大变革[4][28] - 三年前，行业为"机器能写水獭诗"而惊叹，不到1000天后，用户已在跟一个自建研究环境的智能体辩论统计方法，表明AI演进速度并未放缓[27]