Workflow
AI图像生成
icon
搜索文档
GPT Image 1.5 上线:AI 图像开始走向真实生产
36氪· 2025-12-18 05:46
2025 年年底,OpenAI 再次更新了其图像生成能力,向公众开放了新一代模型 GPT Image 1.5。这次发布并未伴随激进的视觉宣传,也没有试图制造「下 一次颠覆创意行业」的宏大叙事。相反,OpenAI 把这项能力直接嵌入到 ChatGPT 的日常使用中,让图像生成成为对话流程的一部分。 从表面看,这依然是一次模型升级:速度更快,编辑能力更强,对指令的理解更加稳定。但如果结合近一年 AI图像领域的变化来看,会发现 GPT Image 1.5 所体现的重点,已经不再是单纯的「生成能力展示」,而是一次围绕使用方式和工作流的调整。 GPT Image 1.5 的革新,首先体现在产品形态的重构上。它并非独立的绘图应用,而是被深度整合进 ChatGPT 的图像功能模块。生成、修改、确认全流程 都在同一对话环境中完成,用户无需在多个工具间来回切换,省去了繁琐的跳转成本。 这种设计背后,是 OpenAI 对真实创作场景的深刻洞察。实际工作里,图片从来不是一次性成型的成品,而是需要反复打磨的过程。颜色校准、构图调 整、细节优化、文案排版,都可能在多轮沟通中不断修正。GPT Image 1.5 着重强化的,正是这种 「 ...
Nano Banana Pro再次封神,我总结了9种邪修用法
36氪· 2025-11-26 08:13
产品核心能力 - 模型Nano Banana Pro基于Gemini 3 Pro Image构建,具备卓越的图像生成一致性,能锁定人物特征,在多画面、多角度下保持同一张脸、同一束光、同一套风格,避免画面混乱或特征突变[2] - 模型能够自动统一不同图像的光影、颜色和风格,将多个独立角色自然融合到同一宇宙或场景中,并自主判断画面主角,实现无缝拼接[2] - 支持将动画角色无缝转换为真人风格,或将真人角色改造为动画风格,甚至实现真人与卡通人物同框,自动统一光影并融合不同世界观至同一镜头效果[4] 应用场景与功能 - 具备从基础角色自动续画漫画的能力,上传一个角色后,后续所有页面均沿用同一张脸和特征,保证连续性非常稳定[7] - 支持风格迁移,可将简单线条的表情包或美式漫画转换为更写实的图像效果,并保持人物姿势和五官不变[10][11] - 能够理解和可视化复杂信息,可处理长文、PDF、论文、蓝图等资料,提取结构、因果关系、流程和关键数据,并以图像、排版或动画方式重新呈现[13] - 可将纯文字稿自动生成杂志内页,包含主标题、副标题、配图、正文、引用和视觉点图示,结构清晰且一致性极高[14][15] - 能将论文内容转换为白板式思维图,拆解实验流程、关键变量和结论关系,输出可直接用于幻灯片的横版图[17][18] - 支持从艺术画作或设计手稿生成真实照片,准确理解蓝图的结构、比例、材质和空间关系,补充细节并呈现真实质感[18][19] - 可将财报等长文档直接转换为信息图,提取营收、毛利率等关键指标,并以趋势折线和要点列表形式可视化[21][22] - 支持将教学文本拆分为分镜表格,明确每个分镜的画面要素、旁白要点和关键数据,便于视频制作团队直接使用[24][25] 技术特点与行业影响 - 模型标志着AI生图进入“专业成片”时代,能直接生成广告级成片,同时优化文案、排版、光影和构图,摆脱过往玩具感效果[27] - 生成图像效果真实、高级,可直接满足业务需求并交付,因此在短时间内迅速出圈[27]
测完Nano Banana Pro的时空重现,我人傻了……
36氪· 2025-11-26 03:57
产品核心功能 - Nano Banana Pro具备“时空重现”能力,可根据用户提供的坐标和可选时间生成该时空的拟真影像[1] - 该功能是产品能力的“逆向进化”,从早期版本通过照片反推坐标,升级为基于坐标和时间直接重构现实[22] - 产品能理解并模拟特定时代的影像特征,例如生成黑白图片并添加照片瑕疵以增强历史真实感[37] 产品技术表现 - 产品能精准识别用户提供的时空坐标所对应的历史事件并进行场景分析[28] - 生成结果在“惊艳”与“离谱”间波动,存在明显事实错误,如将北京奥运会开幕式生成在鸟巢外部而非内部[23] - 出现严重时代错乱幻觉,例如在明末场景中生成清末的龙旗[35] - 产品对自身生成结果表现出高度自信,即使通过提示词要求修改也难以纠正错误[28] 用户应用与影响 - 产品在发布5天后热度依旧屠榜,相关推文在2025年11月24日获得130万次浏览[1][8] - 用户积极尝试不同历史坐标,包括公元33年耶稣受难、1963年肯尼迪遇刺等重大历史事件[6][9][12] - 用户探索虚实结合的新玩法,如在现实坐标上叠加虚拟世界背景设定[39] - 产品能力可结合其他AI工具(如Veo 3.1)生成视频,拓展了自动化创作的可能性[49]
测完Nano Banana Pro的时空重现,我人傻了……
机器之心· 2025-11-26 01:36
核心观点 - Nano Banana Pro展现出革命性的“时空重现”能力,能够基于坐标和时间生成拟真影像,实现了从“推理”到“创造”的跃升[1][7] - 该技术在历史事件重建和虚实结合场景中展现出巨大潜力,但存在显著的不稳定性和“时代错乱”等严重幻觉问题[9][17][21] 技术能力分析 - 基于坐标和时间直接重构特定时空的光影与现实,完成从画面推导坐标到逆向创造的进化[7] - 能够理解时代影像特征,如生成黑白图片并添加照片瑕疵和做旧效果增强真实感[24] - 支持虚实结合玩法,可将现实坐标与虚拟世界背景设定叠加生成拟真照片[27] 应用场景探索 - 历史事件现场重建,如911事件、泰坦尼克号幸存经历、秦始皇泰山封禅等场景模拟[1][3][12] - 创意内容生成,包括动漫人物真实化映射、迷因图处理和视频内容自动生成[31][33][34] - 实用功能开发,如人物年龄分析等潜在应用方向[29] 性能表现评估 - 在诺曼底登陆场景中表现出色,正确识别坐标并生成符合时代特征的影像[22][24] - 存在严重的地理位置偏差和时代错乱问题,如北京奥运会开幕式场地错误、崇祯帝场景出现清末龙旗等明显幻觉[10][21] - 对生成结果表现出迷之自信,即使通过提示词要求修改也难以纠正错误[17]
藏师傅用 Nano Banana Pro 帮你想去哪就去哪
歸藏的AI工具箱· 2025-11-25 12:59
产品核心功能 - 基于Nano Banana Pro的实时检索能力,通过输入经纬度可直接生成对应地点的照片,并整合当前位置的实时时间和天气信息以增强场景真实性[1][2] - 产品具备两种主要图像生成模式:Scenery风景模式仅生成当前位置的实时风景照,Travel Portrait人像打卡模式支持用户上传个人或合照,生成结合当地实时时间、天气和温度的个性化打卡照片,系统会根据气温自动调整人物着装[8][13][15][17][18] - 特色功能包括时间机器(Time Machine),可模拟生成任意历史或未来年代(如公元1000年的伊斯坦布尔)的打卡照,以及平行宇宙模式,支持输入影视作品名称或风格(如黑客帝国)生成对应主题图像[20][21] - 恶搞模式(Prank Mode)可在生成的图像中添加意外元素,例如在外景中插入外星人等趣味内容[23] 技术实现与平台支持 - 产品通过AI Studio的Build模式快速开发完成,目前提供官网(https://bananacamera.trickle.host/)支持地址搜索或地图点击触发图像生成[4][7][8] - 多平台接入方式包括:AI Studio(功能最全但需付费API Key)、Poe(消耗订阅积分,当前Nano Banana Pro模型可能存在繁忙问题)、Youware(支持免费试用但使用普通模型,中文生成效果可能受限)[30] - 底层技术依赖Nano Banana Pro的实时数据检索能力,用户可通过替换提示词中的经纬度(例如40.00023661635351, 116.27808154448789)自定义生成目标地点的图像[31] 应用场景与潜力 - 产品可模拟全球任意地点(如太平洋中央、南极冰盖、珠穆朗玛峰)的虚拟打卡,突破物理限制[26] - 时间机器与风格自定义功能允许用户通过组合提示词元素生成多样化结果,例如基于历史建筑风格或影视主题的创意图像[20][21][25] - 官网提供预设地址示例,用户上传照片后可快速生成打卡照,降低操作门槛[28]
Nano Banana新玩法无限套娃,“GPT-5都不会处理这种级别的递归”
36氪· 2025-11-25 05:54
产品性能与用户反馈 - Nano Banana Pro(推测为Gemini 3的图像生成功能)在理解复杂递归提示词方面表现突出,能够生成包含细节如老式显示器光晕、画布颜料溅落和相机时间戳的图像,获得专业提示工程师Riley Goodside的高度评价[3] - 产品对提示词中规定的背景和拍摄视角理解到位,用户生成的结果有成功案例[7],但也存在不完美的套娃结果和细节错误[8][9][14] - 图像生成机制并非基于现有图片素材的拼接,而是对每个看似相同的部分分别进行随机噪声生成[15] 市场份额与用户获取 - Gemini在Gemini 3发布后市场份额迅速提升,根据SimilarWeb统计,其桌面和移动网页浏览量市场份额从23%提升至30%,增幅达7个百分点[16][19] - 市场份额快速增长的可持续性存疑,数据显示ChatGPT的用户忠诚度约为82%,而Gemini为49%,新增用户可能包含大量一时兴起的边缘用户[19] 高端用户评价与使用场景 - Salesforce的CEO Marc Benioff在使用了Gemini 3两小时后,宣布从持续使用3年的ChatGPT转向Gemini,并高度评价其推理能力、速度及多模态(图像、视频)功能的飞跃[22] - 部分用户形成AI工具组合使用习惯,例如使用Claude进行编程和写作,而将Gemini应用于深度研究、搜索、学习、设计和多媒体内容生成等场景[23]
计算机行业重大事项点评:Google: Nano Banana Pro引领行业范式转移
华创证券· 2025-11-24 14:42
行业投资评级 - 计算机行业投资评级为“推荐”(维持)[2] 核心观点 - Google发布基于Gemini 3构建的Nano Banana Pro,标志着多模态AI正向专业化、商业化应用迈进[6] - Nano Banana Pro在图像质量、文本渲染和专业级控制方面实现显著突破,支持高达4K分辨率输出[6] - 该技术通过谷歌Workspace、Google Ads和Adobe Creative Cloud等平台向企业和创意工作者渗透,显示AI从消费级工具向专业工作流深度整合的战略方向[6] - 谷歌通过将Gemini 3 Pro的推理能力、Veo 3视频模型及谷歌搜索深度融合,构建生态优势,可能定义下一代AI创作工具的竞争范式[6] 产品技术突破 - Nano Banana Pro在角色一致性方面表现卓越,可同时处理最多14张参考图像,并保持最多5个人物角色的一致性[6] - 模型具备多语言文本渲染能力,能直接生成包含准确标语、段落的多语言视觉材料,解决AI图像生成中文字处理的痛点[6] - 提供精细的编辑控制选项,包括调整光照、相机角度、景深和纵横比等专业参数,使非专业用户也能创建工作室质量的视觉效果[6] - 能力提升得益于Gemini 3 Pro增强的推理能力和世界知识,使模型能生成更准确、上下文更丰富的视觉效果[6] 行业应用与影响 - 在创意产业与市场营销领域,Nano Banana Pro支持原生2K/4K分辨率输出,允许通过自然语言调整专业参数,达到接近专业摄影棚级别的图像质量控制[6] - 强大的延展功能允许基于一个主视觉,快速生成适用于社交媒体、手机屏幕、电影画幅等不同平台的多种比例版本,大幅提升营销素材生产效率[6] - 对于知识工作与内容生产,该模型能成为教育和科研领域的强大可视化工具,快速将复杂知识转化为图表[6] - 通过与Google Slides、Adobe Photoshop和Figma等软件整合,能直接嵌入企业工作流,用于快速美化PPT、生成UI模型等,预示“AI辅助设计”有望成为新生产方式[6] 投资建议 - 建议关注AI细分景气方向,包括国产算力、企业服务及应用场景[6] - 国产算力关注寒武纪、海光信息、阿里巴巴、中科曙光、景嘉微、龙芯中科等[6] - 企业服务关注办公、多模态、ERP、OA、编程及营销等细分领域相关公司[6] - 应用场景关注金融、教育、法律、医疗、电商、安全、工业及军用等领域相关公司[6]
谷歌AI生图工具更新:擅长“图文并茂”,几乎“以假乱真”
新浪财经· 2025-11-21 07:23
产品发布与定位 - 谷歌旗下图像生成工具Nano Banana 2于11月20日晚间更新上线,该工具首次发布于8月并迅速引起巨大反响,一度被誉为“最强图像生成引擎”[3] - 公司正努力将该工具从娱乐工具升级为效率与创作神器,官方简介称其提供更高的图像质量、更一致的编辑、更强的3D生成以及针对复杂任务更深入的推理能力[5] 产品性能与功能提升 - 模型新增的文字理解功能堪称惊艳,将图像生成模型的能力边界拓展至PPT等图文并茂的解释性图片生成[5] - 相比初代模型,Nano Banana 2在理解复杂指令方面有显著提升,例如在生成解释“三国鼎立”历史故事的图片时,能基本还原魏蜀吴三国的相对地理位置,而初代模型的理解则更“扁平”且出现大量错别字[13] - 在生成现实内容方面达到“以假乱真”的效果,例如在生成街角抓拍照时,能自主增添马路、斑马线、路边咖啡店等要素,并保持细节一致性如中英文店名[13][15] - 面对漫画生成等创作任务表现出合格审美,例如生成的高楼火灾逃生四格漫画几乎可直接打印作为消防知识普及海报使用[15] 技术规格与市场背景 - Nano Banana 2生成单张图片普遍消耗75积分,而初代模型消耗50积分;生成速度略慢于初代模型,但仍能控制在半分钟内[5] - 到2030年,全球AI图像引擎市场预计将增加至917.45万美元,2023年至2030年的复合年增长率达17.4%[21] - Nano Banana 2的性能和能力表明其可能建立在Gemini人工智能家族的基础之上,但谷歌尚未正式宣布Gemini与Nano Banana的具体关系[21]
一文读懂:为什么Nano Banana Pro重新定义了AI图像生成标准 | 巴伦精选
钛媒体APP· 2025-11-21 04:44
产品发布与定位 - 谷歌于11月21日正式推出图像生成工具Nano Banana Pro(Gemini 3 Pro Image),该产品基于Gemini 3 Pro构建,具备增强的推理能力、世界知识和实时信息接入能力 [2] - 产品旨在生成更准确、更具上下文信息的视觉效果,并能连接到谷歌搜索庞大的知识库,快速创建可视化实时信息 [2] - 在同期市场中,Nano Banana Pro被资深设计师评价为具有碾压性的整体竞争力 [2] 产品核心优势与行业痛点解决 - 产品近乎完美地解决了AI图像生成领域的五大行业顽疾中的至少4/5以上问题 [9] - 在一致性与可控性方面,产品原生支持高强度上下文保持功能,能同时处理多达14张参考图像输入,在复杂构图中精准保持多达5个角色的面部特征和服装细节 [9] - 通过对物理参数的深度微调功能,用户可自由调整景深、光影角度、色彩分级等参数,弥补模型对物理规则理解能力的不足,并支持最高4K分辨率图像输出 [16] - 在文本渲染能力上实现飞跃,能精准贴合品牌名称于易拉罐曲面,并根据指令生成符合透视和光影逻辑的多语言版本包装图 [13] - 为应对深度伪造风险,谷歌为生成图像嵌入SynthID数字水印,该水印在像素层面难以察觉但算法层面可精准识别,即便图像经过裁剪、压缩或滤镜处理依然有效 [15] 生态系统整合与市场影响 - 产品与谷歌生态系统深度整合,可生成高保真UI界面原型,并与Antigravity平台协同工作直接将视觉设计转化为前端代码 [18] - 产品将被整合到Adobe、Figma等主流创意工具以及谷歌自家的Slides、Vids和Flow视频工具中,以扩大在创意领域的应用范围 [18] - 在Nano Banana的推动下,Gemini的月活用户数在一个季度内从4.5亿暴增至6.5亿 [18] 定价策略与目标用户 - 相比于普通版,Nano Banana Pro版本定价更高:生成一张1080p或2K图像成本为0.139美元,4K图像生成成本高达0.24美元 [18] - 定价策略清晰划分用户群体,普通版适合日常娱乐和快速预览,Pro版专为容错率低的专业商业场景设计 [18] 与竞品对比 - 与Midjourney相比,后者在艺术性和创意性上有优势,但在多语言处理、物理参数调整以及高保真度生成方面不足 [2] - 与Stable Diffusion相比,后者在扩展性和灵活性上表现优异,但在生成内容的语义一致性和精确性上难以达到Nano Banana Pro水准 [2] - 与DALL·E相比,后者在趣味性和创意性生成方面突出,但工业级精确控制能力仍是其短板 [2]
闪电快讯|谷歌AI生图工具更新:擅长“图文并茂”,几乎“以假乱真”
新浪财经· 2025-11-21 03:24
Nano Banana 2产品升级 - 谷歌旗下图像生成工具Nano Banana 2于11月20日晚间更新上线,旨在从娱乐工具升级为效率与创作神器 [1] - 官方简介称Nano Banana Pro提供更高图像质量、更一致编辑、更强3D生成及针对复杂任务更深入推理能力 [1] - 相比初代模型,Nano Banana 2生成单张图片消耗75积分,而初代模型消耗50积分,生成速度略慢但仍控制在半分钟内 [2] 核心性能提升 - 模型新增文字理解功能,将能力边界拓展至PPT等图文并茂解释性图片生成 [1][4] - 在解释性图片生成任务中,模型能自主生成相关内容,如解释近视成因或标注华北省份地理位置及模拟产量数据 [4][6] - 相比初代模型,Nano Banana 2在历史故事理解上更准确,能以地图形式还原三国地理位置且避免错别字 [8][11] 应用场景拓展 - 在现实内容生成方面达到以假乱真效果,能自主增添如马路、斑马线、咖啡店等场景细节 [11][15] - 面对漫画生成等创作任务表现出合格审美,生成图片可直接作为消防知识普及海报使用 [12] - 工具具备生成各类名人照片的能力,如马斯克与黄仁勋握手或肖战穿宇航服的照片 [14][17][19] 行业市场前景 - 全球AI图像引擎市场预计到2030年将增加至917.45万美元,2023年至2030年复合年增长率达17.4% [19] - Nano Banana 2引发的用户讨论成为谷歌在大模型市场多模态能力竞赛中的有利条件 [19] - 官方网页暗示Nano Banana性能表明其建立在Gemini人工智能家族基础之上,但谷歌未正式宣布具体关系 [20]