产品性能表现 - 在文生图能力评测中排名第一,得分1147,获得220,674票投票 [1] - 在图像编辑能力评测中排名第一,得分1362,获得2,521,035票投票,远超第二名flux-1-kontext-max的1191分 [2] - 解决了多模态模型生成文字乱码的行业难题,能够准确生成包含文字的图像 [4] - 能够生成以假乱真的手办图像,精度极高 [6] - 支持逼真的场景、风格化插图、贴纸、产品模型和商业摄影等多种图像生成功能 [9] - 在图像编辑方面支持添加移除元素、局部重绘、风格迁移、组合多张图片和高保真细节保留等功能 [9] 技术优势 - 实现像素级修图编辑,能够保持图像其他部分的一致性 [10][12] - 具备三维空间理解能力,可从不同角度渲染角色和物体 [14] - 采用交错式生成新范式,将复杂提示分解为多个步骤处理 [15] - 具备超越用户预期的智能感,能够对模糊或错误指令进行修正优化 [16][17] - 采用文本渲染度量作为关键评估指标,该指标优化带动了整体图像质量提升 [23] - 采用多模态统一模型架构,实现跨模态的正向迁移 [24][25] - 通过收集Twitter等平台用户反馈驱动模型迭代优化 [26] - 融合Gemini团队的指令遵循能力和Imagen团队的视觉质量专长 [27] 商业化策略 - 当前API定价为文字输入$0.30/百万tokens,文字输出$2.50/百万tokens,图像输入$0.30/张,图像输出$0.039/张 [20] - 在Google AI Studio提供免费使用额度,性价比极高 [19] - 已出现第三方平台以更低价格提供API服务 [21] - 主要通过吸引用户进入生态系统和收集真实用户数据来实现长期价值 [21] - 训练成本高昂,需要大量人类偏好信号和资源投入 [18] - 人工评分方式成本效益低下,目前仅获得约22万投票 [18] 行业影响 - 重新定义AI图像领域,带来革命性变化 [28] - 有效保持公司在AI领域的领导地位,应对OpenAI和Midjourney等竞争对手 [21] - 改变多个行业现状,满足大多数人的图像生成需求 [28] - 推动人机协作进入新阶段,重塑全球软件行业格局 [2][28]
谷歌“香蕉”杀死Photoshop,全球软件业彻底变天了