Workflow
交错式生成
icon
搜索文档
一根香蕉引发的AI狂潮
虎嗅APP· 2025-09-16 08:58
以下文章来源于刺猬公社 ,作者刺猬公社编辑部 刺猬公社 . 互联网内容行业观察与研究 本文来自微信公众号: 刺猬公社 (ID:ciweigongshe) ,作者:朗宁,头图来自:AI生成 八月中旬,一个低调的匿名模型悄然登陆海外AI测评平台LMArena,没有开发者标签,也没有品牌背书,只有一个奇怪的代号"Nano Banana"。 虽然看起来老实巴交的,但Nano Banana却在平台的Battle模式中,展现出惊人的图像一致性和自然语言编辑能力,轻松击败了众多知名对 手。网友们被其一骑绝尘的硬实力折服,自发为它打上"一致性之王"和"Photoshop杀手"等标签。 很快,Nano Banana的热度从AI测评平台蔓延至Reddit和Discord的技术论坛中,人们激烈讨论模型本身的同时,都试图揭开背后开发者的 神秘面纱。 正当网友众说纷纭、如火如荼地解谜时,谷歌AI Studio负责人Logon在X平台发布了一个香蕉表情符号,DeepMind产品经理Naina也分享了 一张香蕉艺术贴墙作品,加上谷歌以往就有将小型模型命名为Nano的历史,答案变得呼之欲出。 当Nano Banana的热度攀升到峰值时,谷歌 ...
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 01:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
猿大侠· 2025-08-31 04:11
模型发布与市场反响 - 谷歌匿名发布的图像编辑模型nano-banana在LMArena平台突然爆火后由官方确认为Gemini 2 5 Flash Image模型[5][7][8] - 该模型在国内外社交平台引发大规模试玩热潮 尤其在手办生成领域形成刷屏现象[2][4][9] 核心功能与技术特性 - 支持通过文本提示词生成1/7比例写实风格手办 需指定亚克力底座 电脑屏幕显示ZBrush建模过程及TAMIYA风格包装盒等细节[10][11] - 采用原生多模态架构 实现图像理解与生成的深度整合 通过交错式生成技术支持多轮复杂编辑 可分解包含50个编辑要求的任务[61][63][64] - 创新性使用文本渲染作为核心评估指标 该指标具备客观可量化特性 能持续指引模型改进并带来意外性能提升[55][56][58][59] 实际应用表现 - 能够识别动漫角色名称(如艾伦耶格尔)并生成对应手办 对非全身像参考图可能产生局部异常但整体效果逼真[13][15][16] - 支持宠物照片转手办 生成效果引发用户主动寻求购买链接 并可结合3D打印实现实体化[18][20][21] - 真人照片需使用全身图生成 包括动态姿势 需额外提示词添加支撑结构防止模型漂浮[24][26][28][29] 多元化应用场景 - 支持三图联合创作 通过姿态控制实现角色互动(如搭肩比心 战斗动作)[33][44][46] - 可生成漫展场景下的真人化二次元角色 效果接近真实cosplayer生图[41][42][48][51] - 结合视频生成模型创作连贯动画 仅需火柴人草图即可驱动完整动作[36][37] 模型优化路径 - 团队通过社交平台系统性收集用户失败案例构建评估基准 新版本需通过真实场景测试[65][66] - 针对Imagen 2 0存在的像素级编辑偏差 角色一致性不足及图像质感不自然等问题进行专项优化[68][69][70] 生态建设与访问方式 - 谷歌计划举办为期2天的Nano Banana Hackathon活动 提供免费API额度及奖品激励[72][73] - 模型可通过AI Studio Gemini API或直接集成至Gemini使用 支持中文提示词但建议英文以降低错误率[11][73][75]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
量子位· 2025-08-29 04:21
文章核心观点 - 谷歌Gemini 2.5 Flash Image模型(匿名代号nano-banana)因卓越的图像生成能力爆火 尤其在手办生成领域引发社交媒体创作热潮 [5][7][9] - 该模型通过原生多模态架构和交错式生成技术实现复杂图像编辑 其文本渲染能力成为核心性能评估指标 [57][64][66] - 模型改进基于对前代产品Imagen 2.0用户反馈的系统性收集与测试 解决了像素级编辑 角色一致性和图像质感三大痛点 [68][71][73] 技术特性 - 采用文本渲染作为核心评估指标:提供客观可量化的性能衡量标准 解决传统人类偏好评估的主观性与高成本问题 [58][59][61] - 原生多模态架构实现深度整合:图像理解与生成能力协同工作 支持视觉信号与世界知识的正向迁移 [64][65] - 交错式生成技术支持多轮复杂编辑:可分解包含6-50个编辑要求的提示词 通过连续对话历史理解实现精细化输出 [66][67] 应用场景实测 - 手办生成效果显著:使用英文提示词生成1/7比例实体模型 支持动漫角色 宠物及真人全身像转换 需搭配圆形透明亚克力底座等细节描述 [10][13][25] - 多图结合控制姿态:支持同时参考3张图片进行创作 包括控制角色战斗姿势和双人互动动作 [34][47][49] - 跨次元转换能力:将二次元插画转换为真人cosplay照片 背景可设置为漫展等特定场景 [43][51][54] 生态发展计划 - 举办Nano Banana Hackathon黑客马拉松:提供2天免费API额度 获奖者可获得开发者积分及Gemini相关奖品 [75][76] - 开放多平台体验通道:用户可通过AI Studio Gemini API或直接集成至Gemini使用该模型 [76][78][80]