Workflow
图像生成
icon
搜索文档
反超Nano Banana!OpenAI旗舰图像生成模型上线
量子位· 2025-12-17 01:04
Jay 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI的红色预警,还在发力。 憋了大半年的图像生成模型—— GPT-Image-1.5 ,终于发布。 据官方表示,本次更新主要有四个亮点: 拯救这个被烤焦的饼。 感觉……这是要全面对标Nano Banana了啊。 目前的玩法也很类似。比如,将汽车颜色改为橙色。 更严谨的指令遵循; 精确编辑; 细节保留; 速度比以前快4倍。 根据奶昔架、芝士汉堡等元素,做一个复古风格的餐馆广告。 指令遵守和精确编辑方面,的确比之前强了不少。 而且今天就能用上了,GPT-Image-1.5将在ChatGPT中面向所有用户推出,并在API中作为GPT Image 1.5推出。 拍摄一张20世纪70年代伦敦切尔西的场景照片,画面要逼真,所有景物清晰对焦,人群密集,还有一辆公交车,车身贴着「ImageGen 1.5」的广告,广告上印有OpenAI标志和「创造你的想象」的副标题。整体风格像业余摄影作品,iPhone快照画质…… OpenAI最强图像生成模型 被谷歌一轮正面「拷打」之后,OpenAI藏了大半年的GPT-Image-1.5,终于憋不住了。 这个旗舰级图像生成模型, ...
刚刚,OpenAI推出全新ChatGPT Images,奥特曼亮出腹肌搞宣传
36氪· 2025-12-17 01:04
文章核心观点 - OpenAI推出全新ChatGPT Images功能,由旗舰图像生成模型GPT Image 1.5驱动,标志着AI图像生成竞争从“模型能力”转向“产品体验”[25][62] - 公司通过高管营销、独立产品入口、预设滤镜和降价策略,旨在降低用户使用门槛,将图像生成变为日常交互[6][56][62] 产品发布与核心特性 - 新版ChatGPT Images由全新的旗舰图像生成模型驱动,图像生成速度提升了4倍[25] - 核心特性是精准编辑,能可靠遵循用户意图,细致入微地改变指定部分,同时保持光影、构图和人物外观等元素的一致性[25] - 模型擅长各种类型的编辑,包括添加、删减、组合、融合和置换[26] - 具备创意转换功能,可以改变和添加元素来实现想法,同时保留重要细节,用户可通过预设风格尝试而无需手动编写提示词[37] - 模型在文本渲染方面有进步,能够处理更密集、更小的文本[49] - 在其他质量维度上进行了改进,例如能更好地渲染小尺寸的人脸以及提升输出结果的自然程度[54] 产品定价与市场策略 - 全新的Images模型以GPT Image 1.5形式通过API提供,其图像输入和输出价格比GPT Image 1降低了20%[58] - 在ChatGPT中推出了全新的“Images”独立功能入口,用户可通过移动应用侧边栏和chatgpt.com访问,旨在让图像生成体验更令人愉悦和毫不费力[56] - 该功能包含了数十种预设滤镜和提示词以快速激发灵感,并会定期更新以反映新兴趋势[56] - 全新的Images体验于发布日向大多数用户开放,商业版和企业版的访问权限将在稍后推出[58] 营销与市场定位 - OpenAI首席执行官山姆・奥特曼、首席研究官Mark Chen和总裁Greg Brockman均贡献个人照片进行创意修改,为产品发布造势[6][10] - 公司未放出任何量化的基准测试结果,表明竞争重点转向综合的“产品体验”[62] - 通过高管亲自下场营销、独立入口、预设风格及降价,公司试图将图像生成从需要精心调试的专业技能转变为简单的日常交互[62]
刚刚,OpenAI推出全新ChatGPT Images,奥特曼亮出腹肌搞宣传
机器之心· 2025-12-17 00:00
产品发布与营销策略 - OpenAI推出全新ChatGPT Images功能,由全新的旗舰图像生成模型驱动,旨在提供更精准的编辑和更快的生成速度[9][10] - 公司高管(包括CEO Sam Altman、首席研究官Mark Chen和总裁Greg Brockman)亲自发布并参与修改自己的照片,以极具话题性的方式为新产品造势,成功吸引了大量关注[3][6][8] - 此次营销策略的信号清晰:公司正极力降低用户使用AI图像生成的心理门槛,试图将其从需要专业提示词调试的技能转变为简单的日常交互[44] 核心产品特性与改进 - 新模型的核心特性是**精准编辑并保留关键细节**,能更可靠地遵循用户意图,仅改变要求的部分,同时保持光影、构图和人物外观等元素的一致性[10] - 图像生成速度相比之前版本**提升了4倍**[10] - 模型具备强大的编辑功能,包括添加、删减、组合、融合和置换[12] - 模型具备创意转换功能,可以改变和添加元素(如文本和布局)来实现想法,同时保留重要细节,用户可通过预设风格尝试而无需手动编写提示词[15] - 与初始版本相比,新模型在**遵循指令**方面更可靠,能处理更复杂的原始构图并保留元素关系[24] - 模型在**文本渲染**方面有进步,能够处理更密集、更小的文本[29] - 模型在其他质量维度有改进,例如能更好地渲染小尺寸的人脸以及提升输出结果的自然程度[31] 用户体验与产品整合 - 在ChatGPT中推出了全新的独立“Images”功能入口,旨在让图像生成体验更令人愉悦、更能激发灵感且毫不费力[34] - 新入口可通过移动应用侧边栏和chatgpt.com访问,包含了**数十种预设滤镜和提示词**以快速激发灵感,并将定期更新以反映新兴趋势[34] 市场定价与可用性 - 全新的Images模型已向所有ChatGPT用户推出,并通过API以**GPT Image 1.5**的形式提供[37] - 与GPT Image 1相比,GPT Image 1.5的**图像输入和输出价格降低了20%**,使用户在相同预算下能生成和迭代更多图像[37] - ChatGPT中全新的Images体验已向大多数用户开放,商业版和企业版的访问权限将在稍后推出[38] 行业竞争与战略意义 - 此次发布标志着AI生图领域的竞争维度正在从单纯的“模型能力”转向综合的“产品体验”,公司此次甚至没有放出任何量化的基准测试结果[43] - 通过推出独立入口、预设滤镜和大幅降价,公司正试图将图像生成转变为一种简单的日常交互[44] - 在一个与谷歌Nano Banana Pro的简单对比测试中,ChatGPT Images的结果被评估为更符合指令要求[39][41][43]
豆包图像创作模型Seedream 4.5发布
每日经济新闻· 2025-12-03 11:51
公司动态 - 火山引擎于12月3日正式发布新一代豆包图像创作模型Doubao-Seedream-4.5,并开启公测 [1] - 新一代模型在主体一致性、指令遵循精准度、空间逻辑理解及美学表现力等方面实现迭代 [1] - 模型迭代旨在提升图像生成的整体质量与稳定性 [1]
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
机器之心· 2025-11-29 01:49
文章核心观点 - REG方法通过将预训练视觉模型的class token与图像latent在空间维度拼接并共同加噪训练,显著加速Diffusion模型的训练收敛,并提升生成性能上限[9] - 该方法仅需引入一个额外token,计算开销小于0.5%,几乎不增加推理成本,却能实现数十倍的训练加速[9][17] - REG在ImageNet 256×256任务上相比基线方法SiT和REPA分别实现63倍和23倍的收敛加速[10][17] 技术方案创新 - REG采用high-level class token与low-level latent混合纠缠的去噪训练范式,使模型具备直接从纯噪声生成图像-类别对的能力[9] - 训练时对class token和latent同时加噪并联合去噪优化,推理时只需将随机初始化的class token参与去噪过程[14][15] - 与REPA仅进行特征对齐不同,REG显式将DINOv2表征作为模型输入,实现真正的语义引导生成[13] 性能表现 - 在ImageNet 256×256上,SiT-XL/2+REG在400K步时FID达到3.4,显著优于SiT-XL/2+REPA的7.9[18] - 经过4M步训练后,REG的FID进一步降至1.8,显示其性能上限优势[17][18] - 使用CFG时,REG在480 epochs达到1.40 FID,超越REPA 800 epochs的1.42 FID[19][20] - 在ImageNet 512×512任务上,REG仅用80 epochs即达到1.68 FID,优于REPA 200 epochs和SiT 600 epochs结果[21] 效率优势 - 训练效率大幅提升,达到相似FID时,REG相比SiT-XL/2训练时间减少98.36%,相比REPA减少95.72%[24][25] - 推理开销几乎可忽略,参数、FLOPs和延迟增加均小于0.5%,但FID比SiT-XL/2+REPA提升56.46%[26][27] - 仅需400K步的SiT-L/2+REG即可优于4M步的SiT-XL/2+REPA,实现10倍训练时长节约[10][17] 技术验证 - 消融实验表明DINOv2 class token效果最佳,high-level全局判别信息能大幅提升生成质量[29][30] - 即使单独插入class token并进行联合加噪训练,也能带来显著性能提升[31][32] - CKNNA指标显示REG在所有训练阶段、网络层和时间步均保持更高的判别语义相似度[35][36][37] 机制分析 - REG促进生成模型的"理解-生成"解耦,class token指引模型前层专注理解噪声latent,后层聚焦生成任务[38] - 通过attention机制传递判别语义,实现"先理解、后生成"的高效生成范式[36][38] - 该方法首次提出high-level与low-level token混合纠缠的训练理念,为生成模型设计提供新思路[38]
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
机器之心· 2025-11-02 08:01
核心观点 - UniLIP模型通过创新的两阶段重建训练与自蒸馏损失,解决了统一多模态模型中语义理解与像素重建能力的内在权衡矛盾,在保持甚至提升理解性能的同时实现了卓越的图像重建、生成和编辑能力 [4][5][32] 方法创新 - 提出两阶段训练方案:第一阶段冻结CLIP,仅训练像素解码器和投影层进行解码器对齐;第二阶段通过自蒸馏方法共同训练CLIP,在注入像素细节的同时保留原始语义特征 [9][11] - 训练目标函数结合了MSE损失、LPIPS损失和自蒸馏约束,确保特征不偏离原始分布 [9][11] - 设计双条件架构,在查询嵌入之外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块,有效补充像素级信息 [17][18] 技术优势 - 实现32倍高保真图像压缩,并能通过轻量级解码器高质量恢复 [12] - 继承CLIP的强文本对齐能力,确保对文本指令的精准响应 [12] - 特征表示同时编码高级语义与像素细节,为高保真编辑提供完整信息 [13] - 在256x256分辨率下取得rFID 0.79、PSNR 22.99、SSIM 0.747;在448x448分辨率下取得rFID 0.31、PSNR 24.62、SSIM 0.788,超越此前量化方法 [22] 模型性能 多模态理解 - UniLIP-1B在MME-P基准得分1499,MMBench得分72.6,MMVP得分68.7,AI2D得分70.7,TextVOA得分74.7 [14][24] - UniLIP-3B在MME-P基准得分1636,MMBench得分80.7,MMVP得分73.0,实现同规模最好理解性能,超越Tar(7B)和VILA-U(7B)等更大模型 [24] 图像生成 - UniLIP-1B在GenEval基准Overall得分0.88,Counting得分0.83,Position得分0.83;WISE基准Overall得分0.56,Cultural得分0.54,Biology得分0.50 [25] - UniLIP-3B在GenEval基准Overall得分0.90,Counting得分0.84,Position得分0.86;WISE基准Overall得分0.63,Cultural得分0.66,Biology得分0.60,达到与BAGEL等更大模型相当水平 [25][26] 图像编辑 - UniLIP-1B在ImgEdit-Bench总体得分3.81,在Add、Adjust、Replace、Remove等子任务表现优异 [27] - UniLIP-3B总体得分3.94,超越OmniGen2(3.44)等先进模型,归功于特征的丰富细节与精准语义对齐能力 [27] 模型架构与训练 - 包括1B和3B两个参数变体,分别由InternVL3与SANA集成而来 [20] - 采用InternVL3的InternViT作为CLIP编码器,结合DC-AE像素解码器,连接器设计为6层 [20] - 生成训练数据来自BLIP3-o的38M预训练数据和60k指令微调数据;编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自46K的ShareGPT-4o-Image [21] 行业意义 - 为下一代统一多模态模型提供了新的技术范式,成功解决了理解与生成任务间的固有矛盾 [32] - 仅用较小参数规模即实现超越更大模型的性能,在计算效率和应用部署方面具有显著优势 [5][24]
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
量子位· 2025-10-28 05:12
技术趋势:无VAE潜在扩散模型的兴起 - 图像生成领域出现技术范式转变,VAE(变分自编码器)正被无VAE潜在扩散模型替代 [1] - 清华与快手可灵团队联合提出名为SVG的无VAE潜在扩散模型,标志着技术路线的演进 [1] SVG模型的核心技术创新 - 采用“语义+细节双分支+分布对齐”的架构,从根本上解决VAE的语义纠缠缺陷 [4] - 语义纠缠指传统VAE将不同语义特征置于同一潜空间,导致调整单一数值(如猫的颜色)会引发连锁反应(如体型、表情改变) [4] - 以DINOv3预训练模型作为语义提取器,确保不同类别(如猫、狗)的特征边界清晰可辨 [14] - 专门设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节信息 [14] - 通过分布对齐机制调整细节特征,使其数值分布与DINOv3语义特征匹配,避免细节扰乱语义结构 [15][16] - 消融实验证明分布对齐机制至关重要,移除后生成图像的FID值从6.12升至9.03,生成质量大幅下滑 [16] SVG模型的性能优势 - 在训练效率上实现62倍提升,在生成速度上实现35倍提升 [3] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58) [18] - 当训练延长至1400个epoch,SVG-XL的FID可低至1.92,接近当前顶级生成模型水平 [18][19] - 在推理效率上,5步采样时SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46,表明其在较少采样步数下即可达到较好生成质量 [19][20] - 10步采样时,SVG-XL的gFID为9.39(无CFG)和6.49(有CFG),优于对比模型 [20] SVG模型的多任务通用性 - 模型构建的特征空间具备多任务通用能力,不仅用于图像生成,还可直接用于图像分类、语义分割、深度估计等视觉任务,且无需微调编码器 [22] - 在ImageNet-1K图像分类任务中Top-1精度达到81.8%,与原始DINOv3(81.71%)几乎一致 [22][23] - 在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型 [22][23] 技术路线对比:SVG与RAE - SVG技术路线旨在兼顾生成与多任务通用,而谢赛宁团队的RAE技术路线则极致聚焦于图像生成性能 [4][11] - RAE直接复用DINOv2、MAE等预训练编码器,不修改编码器结构,仅优化解码器来还原图像细节,并针对性改造扩散模型架构 [9][10] - SVG则主动构建语义与细节融合的特征空间,而非直接复用预训练特征 [12]
谢赛宁新作:VAE退役,RAE当立
量子位· 2025-10-14 08:16
文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE,标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对,在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51(无引导)和1.13(有引导)的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器(DINO、SigLIP、MAE等)与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数,架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间,支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量,而简易ViT-B编码器仅需22 GFLOPs,架构过于复杂[7] - VAE潜空间过度压缩(只有4个通道),信息容量严重受限[7] - VAE表征能力薄弱,线性探测精度约8%,特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上:DINOv2-B为0.49,SigLIP2-B为0.53,MAE-B为0.16,均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上:DINOv2-B达84.5%,SigLIP2-B达79.1%,MAE-B达68.0%,远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计,要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声,提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计,提升DiT在RAE框架内的可扩展性[21][22]
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
量子位· 2025-09-04 04:41
技术突破 - 字节UXO团队设计并开源统一框架USO 解决图像生成中多指标一致性问题 实现风格迁移和主体保持单任务和组合任务的SOTA [1] - USO通过单一框架统一主体保持 身份保持和风格化编辑等看似孤立的任务 包括参考图风格迁移和多风格迁移等复杂场景 [1] - 该框架采用跨任务自解耦新范式 让模型根据不同任务类型学习特征 从根本上增强模型学习能力 [21] 性能表现 - 在主体驱动生成任务中 USO的CLIP-I得分0.623 DINO得分0.793 CLIP-T得分0.288 均领先对比模型 [18] - 在风格驱动生成任务中 USO的CSD得分0.557 CLIP-T得分0.282 表现最优 [18] - 在主体风格混合驱动生成任务中 USO的CSD得分0.495 CLIP-T得分0.283 超越StyleID和OmniStyle等模型 [18] - 用户研究显示USO在主体一致性 风格一致性和画面质量等所有评估维度都获得较高评价 [19] 技术架构 - 以开源模型FLUX 1 dev为基础 设计风格对齐训练以及内容-风格解耦训练 [22] - 首次提出风格奖励学习SRL算法 这是为Flow Matching设计的带参考图强化学习算法 [24] - 奖励函数来自衡量风格一致性的奖励模型数学映射 配合预训练损失监督模型训练 促进内容和风格解耦 [25] - 强化学习的加入让模型在其他任务上也获得性能提升 验证跨任务对齐有效性 [26] 数据处理 - 团队构建跨任务数据合成框架 创新性提出同时构建布局改变和布局保留的三元组数据 [30] - 通过训练UNO模型得到风格化和去风格化专家模型 利用这两个专家模型生成大批量三元组数据 [30] - 最后通过VLM过滤出用于训练USO的数据集 [30] 应用场景 - 通过单一模型且仅通过一张参考图 就能处理人物 主体或风格保持需求 [7] - 可处理卡通人物驾驶小车 积木风格场景 吉卜力风格 抽象材质参考等多种应用场景 [8][10][12][14] - 能同时参考人物ID和风格图片 在保留ID基础上完美还原扁平风格 [17] - 画面质量不输商业大模型 弥补难以同时做好主体保持和风格迁移的短板 [3][17]
Nano Banana官方提示词来了,附完整代码示例
量子位· 2025-09-03 05:49
Nano Banana技术功能概述 - 谷歌推出Nano Banana官方提示词指南 旨在优化AI图像生成效果[1][8] - 工具支持多模态生成能力 包括图像编辑、风格转换及高保真文本渲染[15] - 可生成动画视频及无缝换脸效果 展示技术突破性应用场景[5][6] 核心生成功能分类 - 文本转图像:通过详细场景描述生成高质量图像 如猫猫在星空餐厅的精细化场景[13][14][17] - 图像+文本编辑:通过文本提示添加/删除元素或调整风格色彩[15] - 多图像合成:将多张输入图像组合为新场景或进行风格转换[15] - 迭代细化:通过多次对话微调图像直至达到理想效果[15] - 文本渲染:精准生成带文字图像 适用于logo和海报等商业场景[15] 逼真场景生成方法论 - 采用摄影师思维模式 需指定相机角度、镜头类型及光线细节[19] - 标准提示模板包含镜头类型、主体动作、环境光照及画幅比例等要素[20] - 实际案例生成日本陶艺家特写 使用85mm人像镜头营造柔焦背景效果[21][23] 风格化内容创作应用 - 插画与贴纸生成需明确艺术风格并指定白色背景[24][25] - 文本渲染需描述具体内容、字体风格及整体设计规范[30] - 案例包括卡哇伊风格小熊贴纸和极简咖啡店logo设计[29][32][34] 商业摄影与产品建模 - 支持高分辨率产品摄影 适用电子商务与广告场景[35] - 标准模板包含灯光设置、拍摄角度及产品细节特写[35] - 案例展示哑光黑陶瓷杯在混凝土表面的工作室级拍摄效果[37] 极简设计与叙事创作 - 极简构图擅长创造负空间 适合作为文本覆盖的背景模板[38][39] - 案例呈现右下角红枫叶与灰白背景的简约设计[41] - 连环画生成功能可创建故事板 需定义艺术风格、角色动作及对话文本[44][45][47]