Imagen

搜索文档
谷歌在人工智能训练版权诉讼中取得部分胜利
新浪财经· 2025-09-11 23:17
谷歌(Google LLC)在其备受关注的版权纠纷案中,因多项指控获得了驳回动议。该纠纷涉及该公司 使用创意作品来训练其人工智能模型。同时,一名联邦法官允许某些侵权指控继续进行。与 10 个人工 智能模型(不包括其主打产品 Gemini 模型)相关的指控已被驳回。裁决称,原告未能提供将其受版权 保护的内容与这些机器人联系起来的指控。加利福尼亚州北区美国地方法院的法官Eumi K. Lee还驳回 了针对谷歌母公司 Alphabet Inc. 的所有指控,驳回了有关母公司应为其子公司涉嫌的版权侵权行为承担 责任的论点。根据该命令,针对谷歌的六款人工智能模型(包括 Gemini、Bard 和 Imagen)的指控将继 续进行。 ...
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 08:33
文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力 官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景 包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限 部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结 照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写 例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例 强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板 白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸 采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像 需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案 案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景 强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置 案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景 主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合 采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事 需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照 案例为黑白 noir 风格侦探场景[36][37]
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 01:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
Nano-Banana 核心团队分享:文字渲染能力才是图像模型的关键指标
Founder Park· 2025-09-01 05:32
技术突破与核心能力 - 谷歌Gemini 2.5 Flash Image(代号Nano-Banana)在角色一致性、自然语言理解和空间感知方面显著优于其他模型,社交平台热度超过Elon Musk推荐的Grok视频生成[2][11] - 模型通过完全内生的多模态能力实现自然对话式图像创作,支持模糊指令和多轮迭代,无需依赖精确提示词[9][10] - 在LM Arena测试中展现出色的角色一致性保持能力,支持任意风格迁移、环境融合及多元素组合生成[13][14][17] 创新方法论与指标优化 - 团队将文字渲染能力作为关键代理指标(Proxy metric),因其要求像素级精准控制,可客观反映模型整体性能提升[22][23][24] - 通过优化文字渲染(需处理字母形状、间距、背景融合等),模型整体图像质量同步提升,验证该指标对系统优化的牵引作用[24][25] - 采用交错生成(Interleaved Generation)技术,模型在统一上下文中串行生成多图,保持系列作品的协调性与差异性[26][29][30] 产品哲学与用户体验 - 生成速度降至秒级(如13秒生成5张风格一致图片),支持用户无负担快速迭代调整,接近人类创作中的草图探索过程[21][29][32] - 与谷歌Imagen定位差异:Imagen专注于高质量一次性生成(类似Photoshop),而Gemini强调通过对话迭代实现创意探索(类似创意总监)[33][34] - 团队直接收集社交媒体用户失败案例作为基准测试集,针对性优化光影一致性、风格融合等痛点[33][35] 应用场景与行业影响 - 角色一致性能力实现跨角度3D渲染(如固定角色生成多场景),对故事叙述、品牌IP塑造及视频创作(如MetaPuppet视频生成)至关重要[35][38][39] - 支持从线稿控制造型生成、实拍转换真人cosplay等复杂创作需求,拓展了艺术设计、娱乐内容生产场景[18][20][36] - 模型具备"智能感"(Smartness),可超越用户指令预期(如自动添加创意标题),同时追求事实性(Factuality)以支持工作用图表、幻灯片生成[29][39][41] 技术原理与系统设计 - 图像理解与生成能力双向强化:通过视觉学习弥补语言描述中的"报告偏差"(Reporting bias),通过生成验证对世界的理解[30] - 采用类似思维链(Chain of Thought)的分解迭代方法,将复杂任务拆解为多步骤处理,突破单次处理能力上限[32] - 基于世界模型的空间想象能力实现合理3D视角转换(如俯视图生成),体现Gemini在物理空间理解方面的进展[20][22]
Nano Banana为何能“P图”天衣无缝?谷歌详解原生多模态联合训练的技术路线 | Jinqiu Select
锦秋集· 2025-08-29 07:53
文章核心观点 - Nano Banana凭借强大的原生图片编辑能力迅速出圈,在人物一致性和风格泛化上取得显著进步,实现了理解图像与创造图像的融合[1] - Gemini 2.5 Flash通过迭代式创作、复杂指令分解和像素空间思考等技术突破,极大扩展了图像生成的应用边界[2][8][11] - 模型从2.0到2.5版本的进化主要得益于系统化收集用户反馈和跨团队融合,实现了图像自然度和美学表现的质的飞跃[12][14][15] - Gemini模型的核心目标是在同一次训练运行中实现原生多模态理解与生成,并通过视觉信号作为知识捷径促进不同能力间的正向迁移[16][17][18] - 未来发展方向聚焦于提升模型的智能性和真实性,使其从创意娱乐工具向高效生产力工具跨越[25][26][28] 迭代式创作与复杂指令的分解 - 模型具备快速生成能力,生成五张图文并茂的图片仅需约13秒,使其成为强大的迭代式创作工具[8] - 用户可通过低摩擦试错过程快速微调指令并重新运行,极大提升创作体验和效率[9] - 新范式利用模型强大的上下文理解和像素级完美编辑能力,将复杂任务分解成多个步骤通过多轮对话逐步完成[10] - 增量式生成方式类似于语言模型中的思维链,通过增加计算量让模型在像素空间进行分步思考和构建,理论上可处理任何复杂度的生成任务[11] 从用户反馈中汲取养分 - 团队直接在社交媒体上搜集用户反馈,将失败案例整理成专门的基准测试集并随新模型发布不断扩充[13] - 2.5版本通过融合Gemini团队和Imagen团队的视角,解决了2.0版本添加元素突兀缺乏融合的问题,实现图像自然度和美学表现的质的飞跃[14] - 2.5版本核心突破在于能够从不同角度重新渲染同一个角色或将家具放置到完全不同的场景并重新定向,同时保持核心特征的忠实度[15] 核心理念 - 模型在同一次训练运行中实现原生多模态理解与生成,并促进不同能力间的正向迁移[16] - 视觉信号是模型学习世界知识的有效捷径,能用比文本更少的token传达复杂信息[17] - 图像理解能力与生成能力存在双向促进关系,在交错生成等高级任务中充分体现理解与生成手拉手的关系[18] 模型评估挑战与突破 - 图像质量具有高度主观性,难以量化和迭代优化[19] - 传统依赖人类偏好数据的方法成本高昂且耗时,获取一次反馈需数小时[20] - 团队将文本渲染能力作为核心评估标准,因其是图像中高度结构化的信息,能可靠评估模型对图像结构和纹理的生成能力[21] 模型定位 - Imagen系列为特定任务高度优化的模型,擅长文本到图像生成,适合根据清晰文本提示词快速高效低成本生成单张高质量图像[23] - Gemini定位为多模态创意伙伴,适合复杂任务如多轮编辑、创意构思或需要模型理解并创造性解读模糊指令的工作流[24] - 现阶段专用模型和多模态模型各有独特价值和应用场景,但最终目标是将所有模态整合进统一Gemini模型以实现向AGI迈进的知识迁移[24] 未来展望 - 未来发展方向是注入智能和真实性两大核心要素,在提升图像美学表现的同时赋予模型更高阶能力[25] - 智能性体现在模型基于更广博的世界知识对用户可能存在认知偏差或描述不充分的指令进行优化和再创作,带来远超用户设想的生成结果[26] - 真实性强调在专业领域图像必须准确无误和功能性,未来发展重点是大副提升模型在任务上的可靠性和准确性,实现从创意娱乐工具向高效生产力工具的跨越[28]
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 07:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
谷歌Nano Banana全网刷屏,起底背后团队
36氪· 2025-08-29 07:08
Gemini 2.5 Flash Image模型技术亮点 - 引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力 [1] - 拥有原生图像生成与编辑能力,能快速生成高质量图像,在多轮对话中保持场景一致 [1] - 模型能够通过自然语言指令进行多轮互动,在多次编辑中保持场景一致性,无需输入冗长提示词 [27] - 能在图中正确生成简短的文字,团队将文本渲染能力当作模型评估的新指标 [27][29] - 模型在原生图像生成与多模态理解方面实现紧密结合,图像理解为生成提供信息,生成又反过来强化理解 [30] - 通过图像、视频甚至音频从世界中学习额外知识,从而提升文本理解与生成能力 [30] - 面对复杂任务时将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现像素级别的完美编辑 [30] - 生成一张图只需十几秒,失败了也能迅速重试,极大提升了创作效率 [32] 核心研发团队成员背景 - Logan Kilpatrick是Google DeepMind的高级产品经理,负责领导Google AI Studio和Gemini API的产品开发工作,曾在OpenAI担任开发者关系负责人,在Apple担任机器学习工程师,在NASA担任开源政策顾问 [4][6] - Kaushik Shivakumar是Google DeepMind的研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用,毕业于加利福尼亚大学伯克利分校,在DeepMind参与了Gemini 2.5模型的开发 [10][11] - Robert Riachi是Google DeepMind的研究工程师,专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献,参与了Gemini 2.0和Gemini 2.5系列模型的研发工作 [14][15] - Nicole Brichtova是Google DeepMind的视觉生成产品负责人,专注于构建生成模型,推动Gemini应用、Google Ads和Google Cloud等产品的发展,本科和研究生分别毕业于美国乔治敦大学和美国杜克大学富卡商学院 [17][19] - Mostafa Dehghani是Google DeepMind的研究科学家,主要从事机器学习,特别是深度学习方面的工作,研究兴趣包括自监督学习、生成模型、大模型训练和序列建模,参与了多模态视觉语言模型PaLI-X等项目的开发 [22] 实际应用场景与产品定位 - 在家居设计中,用户可以快速查看多种方案,如房间不同窗帘效果可视化,模型能精准修改而不破坏整体环境 [32] - 在人物OOTD中,无论是换衣服、变角度,还是生成80年代复古风形象,人物的面部和身份一致性都能保持稳定 [32] - Gemini的终极目标是整合所有模态,向AGI方向迈进,能够利用知识转移,在跨模态的复杂任务中发挥作用 [33] - Imagen专注文本到图像任务,在Vertex平台中提供多种变体,针对特定需求进行了优化,例如单张图像的高质量生成、快速输出以及成本效益 [33] - 如果任务目标明确、追求速度和性价比,Imagen是理想选择,而在复杂多模态工作流中,Gemini的优势更加突出,支持生成+编辑、多轮创意迭代,能理解模糊指令 [33] - Gemini能利用世界知识理解模糊提示,适合创意场景,可以直接将参考图像作为风格输入,比Imagen的操作更方便 [33] 未来模型能力展望 - 期待模型能展现出智能,即使不完全遵循指令,也能生成比实际描述的更好的结果 [34] - 对事实性感到非常兴奋,希望未来的模型能够生成既美观又具功能性且准确无误的图表或信息图,甚至能自动制作工作简报 [34]
谷歌Nano Banana全网刷屏,起底背后团队
机器之心· 2025-08-29 04:34
产品发布 - Google DeepMind团队推出Gemini 2.5 Flash Image模型 具备原生图像生成与编辑能力 可快速生成高质量图像并在多轮对话中保持场景一致性 [2] - 模型引入交错生成机制 将复杂指令拆解为多轮操作 实现像素级完美编辑 用户仅需自然语言指令即可完成操作 [46] - 生成单张图像仅需十几秒 支持快速重试 显著提升创作效率 [49] 技术能力 - 模型具备优秀文本渲染能力 可在图像中正确生成简短文字如Gemini Nano 团队将文本渲染作为评估图像结构能力的新指标 [39][41] - 模型通过多模态理解与生成的紧密结合提升性能 图像理解为生成提供信息 生成反过来强化理解 [44] - 模型能利用视觉信号从世界学习额外知识 从而提升文本理解与生成能力 视觉信号成为理解世界的捷径 [45] 应用场景 - 在家居设计场景中 用户可快速可视化多种方案 如房间不同窗帘效果 模型能精准修改而不破坏整体环境 [49] - 在人物形象设计中 无论是更换服装 调整角度或生成复古风格 模型均能保持面部和身份一致性 [49] - 模型适合处理以某公司风格设计广告牌等任务 可直接将参考图像作为风格输入 操作比Imagen更方便 [52] 团队构成 - Logan Kilpatrick担任高级产品经理 领导Google AI Studio和Gemini API产品开发 曾任职OpenAI开发者关系负责人和Apple机器学习工程师 [6][8] - Kaushik Shivakumar担任研究工程师 专注于机器人技术 人工智能和多模态学习 参与Gemini 2.5模型开发 [12][14] - Robert Riachi担任研究工程师 专注于多模态AI模型开发 参与Gemini 2.0和2.5系列研发 致力于图像生成与对话AI结合 [17][20] - Nicole Brichtova担任视觉生成产品负责人 专注于构建生成模型 推动Gemini应用 Google Ads和Google Cloud产品发展 [24][26] - Mostafa Dehghani担任研究科学家 主要从事机器学习研究 参与开发多模态视觉语言模型PaLI-X和220亿参数Vision Transformer [29] 产品定位 - Gemini目标为整合所有模态向AGI方向迈进 利用知识转移在跨模态复杂任务中发挥作用 [50] - Imagen专注于文本到图像任务 在Vertex平台提供多种优化变体 适合目标明确 追求速度和性价比的场景 [50][51] - Gemini在复杂多模态工作流中优势突出 支持生成加编辑 多轮创意迭代 能理解模糊指令和利用世界知识 [52] 未来展望 - 期待模型展现智能 即使不完全遵循指令也能生成比描述更好的结果 让用户感受与更聪明系统互动 [53] - 关注模型事实性与功能性 希望生成既美观又准确无误的图表或信息图 甚至自动制作工作简报 [53]
谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
机器之心· 2025-08-26 08:53
模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台Battle模式中被发现 但未公开列出且无官方开发者认领[2][3] - 社区推测其可能为谷歌研究模型 依据包括谷歌AI Studio产品负责人发布香蕉表情符号及DeepMind产品经理发布相关艺术作品[4][5][6][7] - 其他佐证包括谷歌曾将较小模型称为"Nano" 且生成图像质感与Imagen或Gemini系列相似[10] 技术能力与表现 - 模型在文本编辑、风格融合和场景理解方面表现优异 支持上传两张图片并输入提示词融合元素[8] - 能精准理解复杂文本提示 例如将横放书籍立起并添加书挡摆放到柜子上[9] - 在商业场景如产品照片、广告中表现稳定 能保留复杂细节如刺绣图案并保持光线视角一致性[13][15] - 存在局限性:可能产生反射、光照逻辑或物体位置不一致问题 人物手指偶现畸形 书籍文字可能出现乱码[20] 使用体验与比较 - 目前仅能通过LMArena平台随机体验 无官方API或正式官网链接 导致体验不稳定[22][23] - 文生图测试中生成图像更符合提示词细节(如化妆师背景道具) 人物动作服装更自然且手部无瑕疵 对比ChatGPT生成效果更优[29][30] - 图片编辑功能可无缝添加元素 如将类人机器人融入公园环境且毫无违和感[33][34] - 支持复杂指令如逆向工程描绘摄影创作过程 生成场景搭建图像[36] - 在人物融合任务中表现优于Gemini 2.0 flash 但细节处理仍有瑕疵(如手指变形)[43][44][45] 创新应用案例 - 与谷歌Veo3结合可制作长视频 例如提取视频帧后生成下一场景并用Veo3动画化[47][48][49] - 可将插画转化为手办模型 生成图像保留五官细节且真实感强 再通过Veo3制作展示视频[51][55][56] - 谷歌Veo3近期免费开放体验 普通用户每日可生成3个8秒视频片段 Pro和Ultra订阅用户分别有3个和10个配额[61][62]
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 04:40
核心观点 - AI的"创造力"本质上是扩散模型架构的确定性产物,而非高级智能表现[1][19] - 扩散模型的局部性和等变性限制(技术缺陷)反而成为其创造力的来源[13][16][19] - 该机制与生物形态发生学中的图灵模式高度相似,解释了AI生成图像常见缺陷(如多余手指)的成因[9][12][19] 研究背景 - 扩散模型(DALL·E/Stable Diffusion核心)设计初衷是精确复制训练数据,但实际表现出"即兴创作"能力[3][5] - 去噪过程中像素块的局部重组导致信息丢失,类似拼图丢失说明书后的创造性重组[6][8] - 物理学家团队(跨学科背景)从生物自组装过程获得启发,建立ELS数学模型验证假设[9][16] 关键发现 - ELS模型仅基于局部性+等变性规则,即能以90%准确率复现扩散模型输出[18][19] - 创造力源于系统动态:模型过度关注局部像素块而缺乏全局协调(类似生物发育中的多指畸形)[12][15][19] - 该机制可数学形式化,证明创造力是去噪过程的必然副产品[16][19] 未解问题 - 非扩散模型(如LLM)的创造力机制尚未被该理论覆盖[21] - 人类与AI创造力可能共享"不完整认知→填补空白"的底层逻辑[21][22] 行业意义 - 首次将AI创造力归因于底层技术架构而非抽象能力[1][19] - 为理解人类创造性思维提供新视角(神经科学类比)[19][21] - 可能推动新一代生成模型的设计范式转变[16][19]