谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
36氪·2025-08-26 10:02

模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台被发现但未公开列出且无官方开发者认领[1] - 网友推测其可能为谷歌研究模型 依据包括谷歌AI产品负责人发布香蕉表情符号[1]及DeepMind产品经理发布胶带香蕉艺术作品图片[2] - 其他推测依据包括谷歌曾将较小模型称为"Nano"且生成图像质感与Imagen或Gemini系列相似[4] 功能特点与技术表现 - 模型在文本编辑、风格融合和场景理解方面表现优异 支持上传两张图片并输入提示词融合元素[5] - 能精准理解复杂文本提示 例如将横放书本立起并添加书挡摆放至柜子[5] - 编辑后图片保留复杂细节如刺绣图案 同时保持光线、视角和构图一致性[8] - 在产品照片、场景搭建及广告等商业场景中表现稳定[10] - 存在生成缺陷 包括反射/光照逻辑不一致、物体位置错误及人物手指畸形 书籍文字可能出现乱码[13] 访问方式与市场乱象 - 目前仅能通过LMArena平台Battle模式随机体验 无官方API或正式官网链接[16] - 体验不稳定需靠运气遇到该模型[16] - 出现多个假网站声称提供Nano-Banana服务 造成用户混淆[16] 实测性能对比 - 文生图测试中生成化妆师图像 背景包含眼影盘/指甲油等职业相关元素 人物动作服装自然且手部无瑕疵[19][20] - 对比ChatGPT生成结果背景单一且存在拇指虚化问题[20] - 图片编辑功能可添加类人机器人至公园场景并完美融入环境[25] - 逆向工程功能可还原摄影棚布景过程 包括模特玩手机、发型师整理头发及工作人员悬挂幕布等细节[27] - 人物融合测试中成功将马斯克与奥特曼生成自拍照 但奥特曼形象严重失真[31][33] - 在融合扎克伯格与马斯克至风景照测试中 模型将二人完美融入环境但手指细节存在瑕疵 Gemini 2.0 Flash则完全无法识别名人[35] 进阶应用与生态整合 - 可与谷歌Veo3结合生成长视频 例如提取视频帧后通过Nano-Banana生成新场景再经Veo3动画化[37] - 支持将插画转化为手办模型 生成结果保留五官细节且真实感强 无明显AI痕迹[38][43] - 结合Gemini 2.5 Pro视频功能可将生成图片转化为8秒视频 需约1分钟处理时间[46] - 谷歌Veo3目前向所有Gemini用户免费开放至8月24日 每日限生成3个8秒视频 普通情况下该功能仅限Pro/Ultra订阅用户使用[46]