Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图
36氪·2025-11-20 23:53

产品发布与定位 - Google DeepMind于2025年11月20日发布Nano Banana Pro(代号Gemini 3.0 Pro Image)[11] - 公司采用双模型策略,旧版Nano Banana用于快速日常编辑,Nano Banana Pro专注于复杂构图与顶级画质的专业需求[29] - 产品已在Gemini应用中全球开放,免费用户获得有限额度,Google AI Plus、Pro和Ultra订阅用户拥有更高额度,美国地区Google搜索的AI模式中Pro与Ultra用户已可体验[29][31] 核心技术能力 - 图像生成支持最高4K分辨率输出,并允许自由设定多种长宽比,如电影海报、宽屏壁纸等[3][16] - 模型具备64k输入Token上限,能理解极长的文本提示词和复杂指令[14] - 核心进化在于完整接入Gemini 3的深度思考能力,生成图像前会进行物理模拟和逻辑推演,而非仅凭视觉模式猜测[6][36] - 支持多轮对话式图像编辑工作流,最多可将14张输入图像组合为1张输出图像,并保持最多5个角色外貌一致[3][17][20] 多模态与跨模态功能 - 凭借Gemini 3增强的多语言推理能力,可直接生成多种语言文字或一键进行内容本地化与翻译[5][8] - 集成Google搜索能力(Grounding with Search),使创造过程具备事实基础、实时性和可验证性,例如根据实时天气数据生成信息图[25][27][29] - 跨模态理解能力彻底,能连贯处理从识别、翻译到设计的任务,如为漫画上色并翻译气泡内文字[7][8] 专业级创意控制 - 支持对图像任何部分进行选择、微调或变换,包括调整镜头角度、改变风格、应用高级调色及改变场景光照[23] - 文字生成能力显著提升,能生成清晰可读的文字,支持多种纹理、字体与书法风格的精细排版,解决了前代乱码问题[10][12] - 采用“摄影指导式”提示词写法,模型能理解专业术语并转化为视觉输出,提示词需包含主体、构图、动作、场景、风格、编辑指令六要素[33][34] 行业影响与战略方向 - 产品标志着图像生成进入“先理解再表达”阶段,AI不再是画图工具而是具备视觉思维能力的智能体[36][38] - Google通过多模态原生模型证明其通往AGI(通用人工智能)的道路,模型需能看、能听、能理解结构、能处理逻辑[36] - 极低的推理成本和生成式UI将彻底改变内容生产和信息分发逻辑,视觉内容将先由AI生成再由人微调,改变设计行业[38]