产品发布与定位 - 谷歌正式推出图像生成与编辑模型Gemini-2.5-Flash-Image-Preview,具备SOTA图像生成与编辑能力、角色一致性和高速性能 [2][3] - 该模型在Google AI Studio和Gemini API中提供免费预览,支持32k上下文长度及温度等高级参数控制 [5][9] - 模型暂不支持中文输入图像生成与编辑功能,仅返回文本响应 [6] 技术能力与创新 - 核心突破在于跨图像的人物形象一致性保持,支持对人物、宠物等主体进行换装、换场景编辑而不改变特征 [16][17] - 支持多轮迭代编辑(如从空房间逐步添加家具)、多图合成新场景、风格迁移(如将花瓣纹理应用于雨靴) [21][22][23] - 集成Gemini原生世界知识,可结合教育场景实现交互式应用(如画布生成教育内容) [24] 商业化与成本 - 定价为文本输入/输出每百万token 0.3/2.5美元,图像输入/输出每百万token 0.3/30美元 [10] - 单张图像生成成本约0.039美元(约0.28元),显著低于OpenAI同类服务成本 [11] - 所有生成图像均附带可见水印及隐形SynthID数字水印以标识AI生成属性 [26] 市场表现与竞争地位 - 在Artificial Analysis图像编辑排行榜以1212 ELO分数位列第一,超越GPT-4o(1101分)和FLUX.1 Kontext(1092分) [37][38] - 在文生图榜单中位列第三(1161分),仅次于字节跳动Seedream 3.0(1166分)和GPT-4o(1164分) [39] - 在LM Arena榜单中同时获得文生图(1147分)和图像编辑(1362分)双料冠军,投票量超220万次 [40] 应用生态与案例 - 谷歌提供定制化演示模板(如“Past Forward”展示年代变换效果、“CoDrawing”教育工具) [19][24] - 公司高层及行业专家(如Jeff Dean、Demis Hassabis)公开测试并展示足球运动员卡牌、个人形象编辑等用例 [27][28] - 用户可基于单张照片生成视频内容,或通过多轮编辑实现渐进式场景构建 [16][22]
谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%