Nano Banana Pro 之后,谷歌 CEO Pichai 要的不是“好看”,是好用
36氪·2025-11-21 00:57

文章核心观点 - 谷歌CEO桑达尔·皮查伊认为,人工智能的发展重心正从对话交流转向完成真实任务的“智能体”体验,谷歌DeepMind发布的Nano Banana Pro(Gemini 3 Pro Image)是这一转变的重要例证,它标志着图像AI从创作工具转变为能处理数据、完成工作任务的工作站[1][3] - 当前AI热潮并非泡沫,而是行业进行合理且史无前例的“基建投资”阶段,谷歌和整个行业正在投入数万亿美元构建底层设施[1][6][7] - 谷歌致力于将图像AI打造成连接其全线产品的“入口”,而非孤立应用,其战略是通过端到端的全链条路径实现产品真正“好用”[1][18][24] - 要实现AI的真正“好用”,必须解决能源、版权和信任三大关键挑战[1][25] AI行业投资与基建 - 谷歌CEO认为当前AI投资整体是理性的,市场存在真实客户需求,而满足需求的能力尚跟不上,因此投资热潮是合理的[6] - 将当前阶段类比20多年前的互联网热潮,认为AI将引发根本性革命,现在是提前下重注的时间点,未来几年将建成原本需要10到20年才能完成的东西[7] - 谷歌今年在AI基建上的支出将超过900亿美元[7] - 全行业在AI相关基础建设上的投资已累计超过1万亿美元[7] - 谷歌采取全链条、端到端的路径,覆盖从底层物理设施、芯片、数据中心、研究到最终应用于搜索、YouTube、Android等产品的完整价值链[10] AI发展方向:从对话到行动 - AI的重心正从交流转向帮助用户做事,接下来的12个月,AI将开始做更复杂的事情[12] - 这种转变被称为“智能体”体验,即让AI成为能完成任务的智能体[13] - 以购买生日礼物为例,展示了AI未来可代为完成此类生活化任务的前景[12] Nano Banana Pro的产品定位与能力 - 产品标志着图像AI的角色转变:从一个图像创作工具转变为一个能接入搜索、处理数据、完成工作任务的AI工作站[3] - 核心能力升级一:能看懂实时信息。可连接谷歌搜索调取最新数据,例如根据地点生成天气图,根据财报数据截图制作图表,或拉取资料自动设计结构化图像[14] - 核心能力升级二:能把内容直接变成图像。能生成文字正确、不乱码的图像,支持多语言直接输出,并能将一段故事变成电影式分镜图[14] - 核心能力升级三:能微调和控制,提供如改变图像纵横比、修改画面焦点、调整光线等按钮级操作,使普通人也能进行专业图像创作[16][17] - 其真正价值在于帮助用户节省表达和沟通时间,而非让用户变成艺术家[23] 图像AI作为战略入口 - 谷歌的战略是将图像AI打造成连接各个产品的入口,而非独立应用[19][20] - Nano Banana Pro被同时部署到谷歌搜索、谷歌广告、Workspace、Gemini App以及API和AI Studio等多个产品线中,实现全线铺开[20] - 选择图像作为入口,是因为许多实际任务(如医疗诊断、财报分析、信息解读)都需要图像作为媒介,而旧的工具只能出图,不能“用”图[21] - 该产品的目标是让AI生成的图像能自己说清用意,并能引导用户进行下一步行动[22] - 这种“入口”思维是谷歌之后布局AI产品的关键逻辑[24] 实现AI“好用”的关键挑战 - 能源挑战:数据中心耗电量巨大,预计到本十年末可能比整个印度还高,比所有电动车耗电总和多50%[26]。谷歌坚持2030年净零碳排目标,但承认速度受影响,正通过投资新能源应对,措施包括签署全球最大商业核聚变能源采购协议、投资小型核反应堆等地热能源、以及计划在2026年实现英国数据中心95%无碳电力覆盖[27] - 版权挑战:针对使用图书、音乐、新闻内容训练模型的问题,谷歌强调机制,允许用户选择退出被训练,并在生成内容时尊重版权,致力于与内容生态共赢[28] - 信任挑战:承认最先进的AI仍然可能出错(如“披萨配胶水”等错误信息)[29]。应对策略包括将AI模型与谷歌搜索结合以提高准确性,以及为Nano Banana Pro生成的图像嵌入SynthID数字水印,方便用户验证图像来源[30]。强调不能盲信AI,而应有方法去理解、验证和使用它[30]