图像生成和编辑 - 财报，业绩电话会，研报，新闻

图像生成和编辑

搜索文档

36氪· 2025-11-27 10:02

产品发布与市场反响 - Google最新推出的图像模型与编辑模型Gemini 2.5 Flash Image，代号Nano Banana，于8月26日正式上线后迅速引爆社交媒体，获得大量博主和用户关注[2][3][6] - 该模型最初隐藏在LMArena"模型比武场"中，需要通过"抽卡"才能体验，由于抽中概率低，用户甚至研究出提高中签率的技巧，如上传照片后垫透明图[3] - 模型生成速度极快，通常只需十几秒就能完成一张图片的生成，符合其"快如闪电"的官方宣传点[5][6] 核心功能与技术特点 - 具备SOTA级别的图像生成和编辑能力，主打功能包括将平面图生成一整套摆放在桌上的手办模型图片，包含包装盒和显示模型的电脑屏幕，立体感和逼真程度高[3][5] - 拥有难以置信的角色一致性，用户上传人物图片后，通过简单指令如"改成长发"、"改成浅金色长直发"即可保持人物主体不变的情况下修改细节[9][11] - 模型基于Gemini架构，拥有世界知识，不仅能生成图像，还能识别图像内容并进行推理，如准确标注景点信息生成AR视觉介绍卡片[21][24] - 具备视觉推理能力，例如根据地图中的红色箭头方向生成该方向的真实世界景观，或根据等高线地形图绘制出指定位置的场景[27][29] 应用场景与用户案例 - 手办生成：用户可将游戏角色平面图转化为立体手办模型图片，展示高度立体化的衣服褶皱、纹理和光影效果[7][9] - 虚拟试衣：解决网购痛点，用户上传全身照和单品图，可生成穿着效果图进行云试穿，如将西装外套替换为大花棉袄并保持其他部分不变[12][14] - 场景替换：支持换人、换景功能，如将照片中的人物替换为特朗普，并将背景改为海边，创造虚拟场景[18][20] - 家装设计：与Lovart等平台结合，用户通过简单示意图即可将家具放入房间指定位置生成效果图，简化装修设计流程[33] - 内容创作：可将任意建筑转换为等距风格图标，根据手绘动作示意图调整人物姿态，甚至生成多张分镜图片用于漫画制作[34][35][36] 竞争优势与市场定位 - 相比同类产品Flux Kontext，Nano Banana在人物一致性方面表现更优，且操作门槛更低，不需要复杂工作流，直接对话即可出图改图，支持多轮互动[31][32] - 与国内豆包相比，虽然豆包在中文语境和生态绑定上有优势，但生成图像带有较浓AI感，人脸细节和一致性不够自然[31] - 市场定位清晰：Flux面向专业设计师追求画面质感，豆包适合职场人快速生成展示图，Nano Banana则定位全能派，兼顾创意性和易用性，适合博主、手办玩家等创意用户[32] 技术演进与未来展望 - 模型研究员提出未来发展的两条主线：Smartness（更聪明）与Factuality（更靠谱），旨在提升指令理解能力和输出准确性[38] - 计划开发"自动化个人审美打分器"，让模型逐步学习用户审美偏好，实现个性化输出[38] - 当前多样化的应用场景只是起点，模型正从"炫技工具"向"日常工具"转变，用户不断重塑其使用边界[33][38]

图像生成和编辑

AI模型

Artificial Intelligence

Nano Banana

Gemini 2.5 Flash Image

Flux Kontext

图像生成和编辑

AI模型

Artificial Intelligence

Nano Banana

Gemini 2.5 Flash Image

Flux Kontext

顶级邪修再战 Nano Banana Pro ，超多玩法，太猛了这玩意！

歸藏的AI工具箱· 2025-11-20 17:30

模型核心能力 - 模型在中文支持、世界知识、实时信息整合及多模态生成方面表现卓越，将图片模型能力推向新高度 [2][69] - 模型具备增强的推理能力，可基于实时信息生成准确且上下文丰富的视觉内容，例如根据当前天气生成UI设计稿 [5][6][7][9] - 支持在图像中直接生成高质量、易读的多语言文本，中文表现优异 [9][14][15][17] 技术性能与规格 - 模型可混合多达14张图片元素，并保持最多5位人物的一致性和相似性 [9] - 支持多种纵横比以及2K和4K分辨率 [9] - 在多图片场景下展现出卓越的一致性与风格融合能力，例如将五件风格迥异的家具自然融入同一室内环境 [32][33] 实际应用场景 - 在电商设计领域潜力巨大，能高精度保持商品细节一致性并生成高质量产品海报 [24][25][27][29] - 具备实用的人像编辑功能，可实现轻度美颜、换发型等操作，效果自然且能被设备面部识别算法识别 [35][36][37][40] - 强大的风格迁移与UI设计能力，能模仿给定设计稿风格生成全新应用界面，保留关键视觉元素 [64][65] 内容生成与版权 - 模型在IP内容生成方面限制较少，可成功生成如《大闹天宫》风格杰瑞鼠、权游关系图、宝可梦游戏截图等各类版权角色内容 [43][44][46][48] - 具备漫画翻译、上色、超分放大等能力，笔触细节保持完好，显著提升内容制作效率 [52][54] - 在复杂美学设计如酸性海报生成中表现出色，能精确抠图、重构背景并添加符合主题的文案排版 [56][57][58][59][60][62] 模型可用性 - 模型已集成至多个第三方应用，如Lovart、Listenhub等 [67] - 谷歌Gemini APP提供免费使用但分辨率受限为1K，Ultra用户可在Flow中使用满血版Nano Banana Pro，AI Studio需付费API账号 [67]

谷歌偷偷搞了个神秘模型Nano-Banana？实测：强到离谱，但有3大硬伤

36氪· 2025-08-26 10:02

模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台被发现但未公开列出且无官方开发者认领[1] - 网友推测其可能为谷歌研究模型依据包括谷歌AI产品负责人发布香蕉表情符号[1]及DeepMind产品经理发布胶带香蕉艺术作品图片[2] - 其他推测依据包括谷歌曾将较小模型称为"Nano"且生成图像质感与Imagen或Gemini系列相似[4] 功能特点与技术表现 - 模型在文本编辑、风格融合和场景理解方面表现优异支持上传两张图片并输入提示词融合元素[5] - 能精准理解复杂文本提示例如将横放书本立起并添加书挡摆放至柜子[5] - 编辑后图片保留复杂细节如刺绣图案同时保持光线、视角和构图一致性[8] - 在产品照片、场景搭建及广告等商业场景中表现稳定[10] - 存在生成缺陷包括反射/光照逻辑不一致、物体位置错误及人物手指畸形书籍文字可能出现乱码[13] 访问方式与市场乱象 - 目前仅能通过LMArena平台Battle模式随机体验无官方API或正式官网链接[16] - 体验不稳定需靠运气遇到该模型[16] - 出现多个假网站声称提供Nano-Banana服务造成用户混淆[16] 实测性能对比 - 文生图测试中生成化妆师图像背景包含眼影盘/指甲油等职业相关元素人物动作服装自然且手部无瑕疵[19][20] - 对比ChatGPT生成结果背景单一且存在拇指虚化问题[20] - 图片编辑功能可添加类人机器人至公园场景并完美融入环境[25] - 逆向工程功能可还原摄影棚布景过程包括模特玩手机、发型师整理头发及工作人员悬挂幕布等细节[27] - 人物融合测试中成功将马斯克与奥特曼生成自拍照但奥特曼形象严重失真[31][33] - 在融合扎克伯格与马斯克至风景照测试中模型将二人完美融入环境但手指细节存在瑕疵 Gemini 2.0 Flash则完全无法识别名人[35] 进阶应用与生态整合 - 可与谷歌Veo3结合生成长视频例如提取视频帧后通过Nano-Banana生成新场景再经Veo3动画化[37] - 支持将插画转化为手办模型生成结果保留五官细节且真实感强无明显AI痕迹[38][43] - 结合Gemini 2.5 Pro视频功能可将生成图片转化为8秒视频需约1分钟处理时间[46] - 谷歌Veo3目前向所有Gemini用户免费开放至8月24日每日限生成3个8秒视频普通情况下该功能仅限Pro/Ultra订阅用户使用[46]