谷歌AI生图工具更新:擅长“图文并茂”,几乎“以假乱真”
产品发布与定位 - 谷歌旗下图像生成工具Nano Banana 2于11月20日晚间更新上线,该工具首次发布于8月并迅速引起巨大反响,一度被誉为“最强图像生成引擎”[3] - 公司正努力将该工具从娱乐工具升级为效率与创作神器,官方简介称其提供更高的图像质量、更一致的编辑、更强的3D生成以及针对复杂任务更深入的推理能力[5] 产品性能与功能提升 - 模型新增的文字理解功能堪称惊艳,将图像生成模型的能力边界拓展至PPT等图文并茂的解释性图片生成[5] - 相比初代模型,Nano Banana 2在理解复杂指令方面有显著提升,例如在生成解释“三国鼎立”历史故事的图片时,能基本还原魏蜀吴三国的相对地理位置,而初代模型的理解则更“扁平”且出现大量错别字[13] - 在生成现实内容方面达到“以假乱真”的效果,例如在生成街角抓拍照时,能自主增添马路、斑马线、路边咖啡店等要素,并保持细节一致性如中英文店名[13][15] - 面对漫画生成等创作任务表现出合格审美,例如生成的高楼火灾逃生四格漫画几乎可直接打印作为消防知识普及海报使用[15] 技术规格与市场背景 - Nano Banana 2生成单张图片普遍消耗75积分,而初代模型消耗50积分;生成速度略慢于初代模型,但仍能控制在半分钟内[5] - 到2030年,全球AI图像引擎市场预计将增加至917.45万美元,2023年至2030年的复合年增长率达17.4%[21] - Nano Banana 2的性能和能力表明其可能建立在Gemini人工智能家族的基础之上,但谷歌尚未正式宣布Gemini与Nano Banana的具体关系[21]