Workflow
多模态原生
icon
搜索文档
Nano Banana Pro深夜炸场,但最大的亮点不是AI生图
36氪· 2025-11-21 10:17
产品发布与核心功能 - Google发布了其AI图像生成模型Nano Banana Pro (Gemini 3 Pro Image),该模型在图像生成能力上实现显著进化,对设计行业构成冲击 [6][7] - 核心功能包括:支持最高4K分辨率图像输出、支持对话式多轮次图像编辑、最多可将14张输入图像组合为1张输出图像、集成Google搜索能力以提供更精确和最新的知识支持 [9] - 模型具备强大的跨模态理解能力,可生成多种语言的文字,并实现一键本地化、翻译及图文重排,例如为漫画上色并将英文翻译成中文 [12][13] - 在生成图像前,模型会进行物理模拟和逻辑推演,而非仅依赖视觉模式,例如能生成四宫格图片,并确保人物外貌、口型与发音文字准确对应 [14] - 模型支持极长的文本提示词,输入Token上限达到64k,能够理解详细的分镜脚本和复杂的多语言排版需求 [23] - 支持最多14张输入图像的组合编辑,并能保持最多5个角色的外貌一致性 [28] - 具备专业级创意控制能力,允许用户选择、微调或变换图像中的任何部分,包括调整镜头角度、改变风格、应用高级调色及改变场景光照 [31][32] 技术架构与核心优势 - Nano Banana Pro的核心进化在于完整接入了Gemini 3的深度思考能力,实现了“先理解再表达” [11][50] - 模型最具颠覆性的能力在于其原生多模态架构,将搜索(Gemini 3的“左脑”)与图像生成(“右脑”)深度融合,引入了搜索增强功能 [33][34] - 搜索增强功能使创造过程具备事实基础、实时性和可验证性,例如可根据提示词生成包含最新天气数据的可视化信息图,或生成详细的旅游行程可视化图片 [36][38][40] - Google在产品定位上采用双模型策略:旧版Nano Banana用于快速日常编辑,而Nano Banana Pro专注于复杂构图与顶级画质的专业需求 [39] - 在AI透明度方面,所有AI生成的内容都会嵌入不可见的SynthID数字水印,用户可上传图像询问是否由Google AI生成,该能力将扩展至音频与视频 [43] 市场策略与产品定位 - 对于消费者与学生,Nano Banana Pro已在Gemini应用中全球开放,免费用户可获得有限额度,超出后自动切回原版Nano Banana [39] - Google AI Plus、Pro和Ultra订阅用户拥有更高使用额度,在美国地区,Pro与Ultra用户已在Google搜索的AI模式中可体验Nano Banana Pro,NotebookLM中的该模型也面向全球订阅用户开放 [42] - 官方提供了专业的使用指南,建议用户采用包含主体、构图、动作、场景、风格、编辑指令六要素的“摄影指导式”提示词写法,以实现更精细的控制 [46][47] 行业影响与未来展望 - Google通过Gemini 3 Pro和Nano Banana Pro等产品,试图证明通往通用人工智能的道路必须是多模态原生的,即模型需具备看、听、理解结构和处理逻辑的能力,才能对世界进行完整“思考” [48][49] - 从技术层面看,该系列模型让图像生成进入了“先理解再表达”的阶段,当AI能理解路径、结构、文字含义及交互逻辑时,它便成为一个具备视觉思维能力的智能体,而不仅是画图工具 [50][52] - 从商业层面看,极低的推理成本和生成式UI的出现,将彻底改变内容生产和信息分发的逻辑,未来的互联网可能是随需求即时生长的界面,而非固定网页 [52] - 设计将不再只是人的手艺,界面也不再仅由团队打磨,越来越多的视觉内容会先由AI生成,再由人进行补充或微调 [53] - Google通过连环发布产品,展示了其对未来新世界的预见,并正在将入口推向所有人面前 [54][55]
Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图
36氪· 2025-11-20 23:53
产品发布与定位 - Google DeepMind于2025年11月20日发布Nano Banana Pro(代号Gemini 3.0 Pro Image)[11] - 公司采用双模型策略,旧版Nano Banana用于快速日常编辑,Nano Banana Pro专注于复杂构图与顶级画质的专业需求[29] - 产品已在Gemini应用中全球开放,免费用户获得有限额度,Google AI Plus、Pro和Ultra订阅用户拥有更高额度,美国地区Google搜索的AI模式中Pro与Ultra用户已可体验[29][31] 核心技术能力 - 图像生成支持最高4K分辨率输出,并允许自由设定多种长宽比,如电影海报、宽屏壁纸等[3][16] - 模型具备64k输入Token上限,能理解极长的文本提示词和复杂指令[14] - 核心进化在于完整接入Gemini 3的深度思考能力,生成图像前会进行物理模拟和逻辑推演,而非仅凭视觉模式猜测[6][36] - 支持多轮对话式图像编辑工作流,最多可将14张输入图像组合为1张输出图像,并保持最多5个角色外貌一致[3][17][20] 多模态与跨模态功能 - 凭借Gemini 3增强的多语言推理能力,可直接生成多种语言文字或一键进行内容本地化与翻译[5][8] - 集成Google搜索能力(Grounding with Search),使创造过程具备事实基础、实时性和可验证性,例如根据实时天气数据生成信息图[25][27][29] - 跨模态理解能力彻底,能连贯处理从识别、翻译到设计的任务,如为漫画上色并翻译气泡内文字[7][8] 专业级创意控制 - 支持对图像任何部分进行选择、微调或变换,包括调整镜头角度、改变风格、应用高级调色及改变场景光照[23] - 文字生成能力显著提升,能生成清晰可读的文字,支持多种纹理、字体与书法风格的精细排版,解决了前代乱码问题[10][12] - 采用“摄影指导式”提示词写法,模型能理解专业术语并转化为视觉输出,提示词需包含主体、构图、动作、场景、风格、编辑指令六要素[33][34] 行业影响与战略方向 - 产品标志着图像生成进入“先理解再表达”阶段,AI不再是画图工具而是具备视觉思维能力的智能体[36][38] - Google通过多模态原生模型证明其通往AGI(通用人工智能)的道路,模型需能看、能听、能理解结构、能处理逻辑[36] - 极低的推理成本和生成式UI将彻底改变内容生产和信息分发逻辑,视觉内容将先由AI生成再由人微调,改变设计行业[38]