谷歌偷偷搞了个神秘模型Nano-Banana？实测：强到离谱，但有3大硬伤

模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台被发现但未公开列出且无官方开发者认领[1] - 网友推测其可能为谷歌研究模型依据包括谷歌AI产品负责人发布香蕉表情符号[1]及DeepMind产品经理发布胶带香蕉艺术作品图片[2] - 其他推测依据包括谷歌曾将较小模型称为"Nano"且生成图像质感与Imagen或Gemini系列相似[4] 功能特点与技术表现 - 模型在文本编辑、风格融合和场景理解方面表现优异支持上传两张图片并输入提示词融合元素[5] - 能精准理解复杂文本提示例如将横放书本立起并添加书挡摆放至柜子[5] - 编辑后图片保留复杂细节如刺绣图案同时保持光线、视角和构图一致性[8] - 在产品照片、场景搭建及广告等商业场景中表现稳定[10] - 存在生成缺陷包括反射/光照逻辑不一致、物体位置错误及人物手指畸形书籍文字可能出现乱码[13] 访问方式与市场乱象 - 目前仅能通过LMArena平台Battle模式随机体验无官方API或正式官网链接[16] - 体验不稳定需靠运气遇到该模型[16] - 出现多个假网站声称提供Nano-Banana服务造成用户混淆[16] 实测性能对比 - 文生图测试中生成化妆师图像背景包含眼影盘/指甲油等职业相关元素人物动作服装自然且手部无瑕疵[19][20] - 对比ChatGPT生成结果背景单一且存在拇指虚化问题[20] - 图片编辑功能可添加类人机器人至公园场景并完美融入环境[25] - 逆向工程功能可还原摄影棚布景过程包括模特玩手机、发型师整理头发及工作人员悬挂幕布等细节[27] - 人物融合测试中成功将马斯克与奥特曼生成自拍照但奥特曼形象严重失真[31][33] - 在融合扎克伯格与马斯克至风景照测试中模型将二人完美融入环境但手指细节存在瑕疵 Gemini 2.0 Flash则完全无法识别名人[35] 进阶应用与生态整合 - 可与谷歌Veo3结合生成长视频例如提取视频帧后通过Nano-Banana生成新场景再经Veo3动画化[37] - 支持将插画转化为手办模型生成结果保留五官细节且真实感强无明显AI痕迹[38][43] - 结合Gemini 2.5 Pro视频功能可将生成图片转化为8秒视频需约1分钟处理时间[46] - 谷歌Veo3目前向所有Gemini用户免费开放至8月24日每日限生成3个8秒视频普通情况下该功能仅限Pro/Ultra订阅用户使用[46]