文章核心观点 - OpenAI近期发布了其图像生成模型GPT Image 1.5,但该模型在多项关键能力上仍落后于其主要竞争对手Google的Nano Banana Pro模型 [1][4][77] - 自2024年3月OpenAI发布GPT-4o以来,其在AI领域的领先地位已发生逆转,目前Google在AI模型(特别是图像生成)的进化速度和能力上展现出显著优势 [4][79][80][81] 模型发布与市场背景 - OpenAI在沉寂半年后发布了图像生成模型GPT Image 1.5,而非市场传闻的GPT Image 2.0,此举被解读为可能因竞争压力而采取的保守升级策略 [4][78] - 同期,ChatGPT平台上线了全新的图像生成界面,提供了风格转换、快捷指令等用户体验功能,但在交互设计上被评价为存在界面跳转混乱的问题 [4][8][13] 模型能力对比:信息准确性 - 在文字生成的准确性上,GPT Image 1.5表现不及Banana Pro,尤其是在处理中文文字时出现严重错误,而Banana Pro的中文生成则相对稳定 [27][29][32][38] - 在生成包含特定信息(如日历、Instagram界面)的图片时,GPT Image 1.5在遵循指令细节(如日期范围、界面元素)方面出现明显失误,而Banana Pro的执行则更为精准 [27][29][34][37] 模型能力对比:图像真实质感 - 在生成具有真实照片质感的图像时,两家模型均能较好地理解并实现复杂提示词中的语义元素 [39][40][41] - 在最终成像风格上,GPT Image 1.5生成的图像倾向于更高的饱和度和对比度,显得更具“AI感”或“油腻感”,而Banana Pro生成的图像质感更为自然和日常 [41][43][44] 模型能力对比:图像精准编辑 - 在根据指令对图像内容进行精准编辑(如替换人物、服装、改变天气)的能力上,Banana Pro在人物一致性、光影处理、透视关系等方面整体优于GPT Image 1.5 [45][46][50][52][54][58] - GPT Image 1.5在进行复杂编辑时可能出现指令理解偏差,例如在只要求替换服装时错误地改变了整体画风与色调,或在替换人物时忽略了基本的空间透视关系 [52][54][58] 模型能力对比:世界知识 - 在涉及特定领域知识(如动漫角色、历史事件)的图像生成与解读上,双方表现互有胜负 [62][63][75] - GPT Image 1.5在个别测试中出现了明显的知识性错误(如混淆动漫角色名称),但在另一项需要理解抽象指令(如包含特定时间、手指数量的画面)的测试中表现优于Banana Pro [63][64][71][73] 行业竞争格局 - Google的AI模型进化速度被描述为“恐怖”,其画图模型在6个月内从Gemini 2.5快速迭代至Banana,再进化至Banana Pro [79][80] - 文章明确指出,Google已成为当前AI领域的王者,而OpenAI则需要奋起直追以应对竞争 [80][81][82]
实测GPT Image 1.5,拼尽全力还是没能打败Banana。