图像生成和编辑
搜索文档
从手办到试穿,最适合普通人的Nano Banana玩法
36氪· 2025-11-27 10:02
产品发布与市场反响 - Google最新推出的图像模型与编辑模型Gemini 2.5 Flash Image,代号Nano Banana,于8月26日正式上线后迅速引爆社交媒体,获得大量博主和用户关注[2][3][6] - 该模型最初隐藏在LMArena"模型比武场"中,需要通过"抽卡"才能体验,由于抽中概率低,用户甚至研究出提高中签率的技巧,如上传照片后垫透明图[3] - 模型生成速度极快,通常只需十几秒就能完成一张图片的生成,符合其"快如闪电"的官方宣传点[5][6] 核心功能与技术特点 - 具备SOTA级别的图像生成和编辑能力,主打功能包括将平面图生成一整套摆放在桌上的手办模型图片,包含包装盒和显示模型的电脑屏幕,立体感和逼真程度高[3][5] - 拥有难以置信的角色一致性,用户上传人物图片后,通过简单指令如"改成长发"、"改成浅金色长直发"即可保持人物主体不变的情况下修改细节[9][11] - 模型基于Gemini架构,拥有世界知识,不仅能生成图像,还能识别图像内容并进行推理,如准确标注景点信息生成AR视觉介绍卡片[21][24] - 具备视觉推理能力,例如根据地图中的红色箭头方向生成该方向的真实世界景观,或根据等高线地形图绘制出指定位置的场景[27][29] 应用场景与用户案例 - 手办生成:用户可将游戏角色平面图转化为立体手办模型图片,展示高度立体化的衣服褶皱、纹理和光影效果[7][9] - 虚拟试衣:解决网购痛点,用户上传全身照和单品图,可生成穿着效果图进行云试穿,如将西装外套替换为大花棉袄并保持其他部分不变[12][14] - 场景替换:支持换人、换景功能,如将照片中的人物替换为特朗普,并将背景改为海边,创造虚拟场景[18][20] - 家装设计:与Lovart等平台结合,用户通过简单示意图即可将家具放入房间指定位置生成效果图,简化装修设计流程[33] - 内容创作:可将任意建筑转换为等距风格图标,根据手绘动作示意图调整人物姿态,甚至生成多张分镜图片用于漫画制作[34][35][36] 竞争优势与市场定位 - 相比同类产品Flux Kontext,Nano Banana在人物一致性方面表现更优,且操作门槛更低,不需要复杂工作流,直接对话即可出图改图,支持多轮互动[31][32] - 与国内豆包相比,虽然豆包在中文语境和生态绑定上有优势,但生成图像带有较浓AI感,人脸细节和一致性不够自然[31] - 市场定位清晰:Flux面向专业设计师追求画面质感,豆包适合职场人快速生成展示图,Nano Banana则定位全能派,兼顾创意性和易用性,适合博主、手办玩家等创意用户[32] 技术演进与未来展望 - 模型研究员提出未来发展的两条主线:Smartness(更聪明)与Factuality(更靠谱),旨在提升指令理解能力和输出准确性[38] - 计划开发"自动化个人审美打分器",让模型逐步学习用户审美偏好,实现个性化输出[38] - 当前多样化的应用场景只是起点,模型正从"炫技工具"向"日常工具"转变,用户不断重塑其使用边界[33][38]
顶级邪修再战 Nano Banana Pro ,超多玩法,太猛了这玩意!
歸藏的AI工具箱· 2025-11-20 17:30
模型核心能力 - 模型在中文支持、世界知识、实时信息整合及多模态生成方面表现卓越,将图片模型能力推向新高度 [2][69] - 模型具备增强的推理能力,可基于实时信息生成准确且上下文丰富的视觉内容,例如根据当前天气生成UI设计稿 [5][6][7][9] - 支持在图像中直接生成高质量、易读的多语言文本,中文表现优异 [9][14][15][17] 技术性能与规格 - 模型可混合多达14张图片元素,并保持最多5位人物的一致性和相似性 [9] - 支持多种纵横比以及2K和4K分辨率 [9] - 在多图片场景下展现出卓越的一致性与风格融合能力,例如将五件风格迥异的家具自然融入同一室内环境 [32][33] 实际应用场景 - 在电商设计领域潜力巨大,能高精度保持商品细节一致性并生成高质量产品海报 [24][25][27][29] - 具备实用的人像编辑功能,可实现轻度美颜、换发型等操作,效果自然且能被设备面部识别算法识别 [35][36][37][40] - 强大的风格迁移与UI设计能力,能模仿给定设计稿风格生成全新应用界面,保留关键视觉元素 [64][65] 内容生成与版权 - 模型在IP内容生成方面限制较少,可成功生成如《大闹天宫》风格杰瑞鼠、权游关系图、宝可梦游戏截图等各类版权角色内容 [43][44][46][48] - 具备漫画翻译、上色、超分放大等能力,笔触细节保持完好,显著提升内容制作效率 [52][54] - 在复杂美学设计如酸性海报生成中表现出色,能精确抠图、重构背景并添加符合主题的文案排版 [56][57][58][59][60][62] 模型可用性 - 模型已集成至多个第三方应用,如Lovart、Listenhub等 [67] - 谷歌Gemini APP提供免费使用但分辨率受限为1K,Ultra用户可在Flow中使用满血版Nano Banana Pro,AI Studio需付费API账号 [67]
谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
36氪· 2025-08-26 10:02
模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台被发现但未公开列出且无官方开发者认领[1] - 网友推测其可能为谷歌研究模型 依据包括谷歌AI产品负责人发布香蕉表情符号[1]及DeepMind产品经理发布胶带香蕉艺术作品图片[2] - 其他推测依据包括谷歌曾将较小模型称为"Nano"且生成图像质感与Imagen或Gemini系列相似[4] 功能特点与技术表现 - 模型在文本编辑、风格融合和场景理解方面表现优异 支持上传两张图片并输入提示词融合元素[5] - 能精准理解复杂文本提示 例如将横放书本立起并添加书挡摆放至柜子[5] - 编辑后图片保留复杂细节如刺绣图案 同时保持光线、视角和构图一致性[8] - 在产品照片、场景搭建及广告等商业场景中表现稳定[10] - 存在生成缺陷 包括反射/光照逻辑不一致、物体位置错误及人物手指畸形 书籍文字可能出现乱码[13] 访问方式与市场乱象 - 目前仅能通过LMArena平台Battle模式随机体验 无官方API或正式官网链接[16] - 体验不稳定需靠运气遇到该模型[16] - 出现多个假网站声称提供Nano-Banana服务 造成用户混淆[16] 实测性能对比 - 文生图测试中生成化妆师图像 背景包含眼影盘/指甲油等职业相关元素 人物动作服装自然且手部无瑕疵[19][20] - 对比ChatGPT生成结果背景单一且存在拇指虚化问题[20] - 图片编辑功能可添加类人机器人至公园场景并完美融入环境[25] - 逆向工程功能可还原摄影棚布景过程 包括模特玩手机、发型师整理头发及工作人员悬挂幕布等细节[27] - 人物融合测试中成功将马斯克与奥特曼生成自拍照 但奥特曼形象严重失真[31][33] - 在融合扎克伯格与马斯克至风景照测试中 模型将二人完美融入环境但手指细节存在瑕疵 Gemini 2.0 Flash则完全无法识别名人[35] 进阶应用与生态整合 - 可与谷歌Veo3结合生成长视频 例如提取视频帧后通过Nano-Banana生成新场景再经Veo3动画化[37] - 支持将插画转化为手办模型 生成结果保留五官细节且真实感强 无明显AI痕迹[38][43] - 结合Gemini 2.5 Pro视频功能可将生成图片转化为8秒视频 需约1分钟处理时间[46] - 谷歌Veo3目前向所有Gemini用户免费开放至8月24日 每日限生成3个8秒视频 普通情况下该功能仅限Pro/Ultra订阅用户使用[46]