Workflow
Gemini 2.5 Flash Image(nano banana)
icon
搜索文档
谷歌图像模型nano banana正式上线:能力超强,且定价低于OpenAI同类模型
Founder Park· 2025-08-27 03:16
模型性能与市场表现 - 谷歌最新图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)在LMArena盲测中获得超250万选票,以171分优势领先第二名flux-1-knotext-max,创下该竞技场历史上最大的Elo分数领先优势[2] - 该模型在LMArena排名中以1362分位列第一,远超第二名flux-1-kontext-max的1191分,投票数达2,521,035次[3] - 模型具备四大核心能力:角色一致性、提示编辑、原生世界知识和多图像融合,支持最多三个输入元素的创意融合[19][20] 技术能力特性 - 角色一致性功能可通过参考图像生成新内容,在不同姿势、光照、环境或风格中保持主体相似性,适用于电影制作、品牌资产生成等场景[8][24] - 支持自然语言目标化转换和精确局部编辑,包括模糊背景、去除污渍、更改主体姿势、黑白照片上色等功能[28] - 原生世界知识能力基于Gemini全球知识库,可理解手绘图、解答现实问题并执行复杂编辑指令,突破传统图像模型在语义理解方面的局限[30][32][33] - 多图像融合能力允许将对象嵌入场景、重新设计房间风格或通过单提示融合图像,例如将过道、人像和手机融合成自然场景照片[22][35] 商业化与定价策略 - 模型已通过Gemini API、Google AI Studio面向开发者开放,并通过Vertex AI向企业提供[4] - 定价为每百万输出token 30.00美元,单张图片消耗1290个输出token,成本仅0.039美元(约人民币0.3元),显著低于OpenAI同类模型[38][39] 应用场景与案例 - 可生成房地产列表卡片、统一员工徽章、动态产品效果图等商业模板[26] - 教育领域应用示例:将手绘图转换为交互式教育导师,展示模型理解与编辑能力[33] - 创意构图案例:将山峰与跃出水面鲸鱼融合,实现多元素自然统一[13]