图像编辑模型
搜索文档
比NanoBanana更擅长中文和细节控制,兔展&北大Uniworld V2刷新SOTA
36氪· 2025-11-05 09:44
模型性能与基准测试结果 - 新一代图像编辑模型UniWorld-V2在GEdit-Bench基准测试中获得7.83分,显著优于GPT-Image-1 [High]的7.53分和Gemini 2.0的6.32分 [19] - 在ImgEdit基准测试中,UniWorld-V2以4.49分领跑,超越了所有已知的开源和闭源模型 [19] - 当UniWorld-R1框架应用于FLUX.1-Kontext [Dev]模型时,其在GEdit-Bench上的总分从6.00提升至6.74,超越了其Pro版本的6.56分 [21] - 当UniWorld-R1框架应用于Qwen-Image-Edit [2509]模型时,其在GEdit-Bench上的得分从7.54增加至7.76 [21] 核心技术框架创新 - 公司提出业内首个基于强化学习的统一架构图像编辑后期训练框架UniWorld-R1,首次将强化学习策略优化应用于统一架构的图像编辑模型 [14] - UniWorld-R1框架采用Diffusion Negative-aware Finetuning技术,这是一种无需似然估计的策略优化方法,训练更高效并允许使用高阶采样器 [14] - 针对编辑任务多样性挑战,该框架开创性地使用多模态大语言模型作为统一的、免训练的奖励模型,利用其输出logits提供精细化隐式反馈 [14] 功能应用优势 - 模型展现出强大的中文字体掌握能力,能精准理解指令并渲染如"月满中秋"等笔画复杂的艺术中文字体,效果清晰且语义准确 [10] - 在精细化空间可控任务中,用户可通过画红框指定编辑区域,模型能严格遵守空间限制,实现"将鸟移出红框"等高难度精细操作 [11] - 模型具备全局光影融合能力,能深刻理解"给场景重新打光"等指令,使物体自然融入场景,画面统一和谐且光影融合度极高 [12] 行业地位与数据集 - 团队早先的UniWorld-V1作为业内首个统一理解与生成的模型,其开源时间领先于谷歌Nano Banana等后续知名模型长达三个月 [24] - 研究团队为实验整理了一个包含27572个基于指令的编辑样本的数据集,样本来源包括LAION、LexArt和UniWorldV1 [17]
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
量子位· 2025-08-27 05:49
模型身份与发布信息 - 谷歌官方确认此前爆火的神秘图像编辑模型nano-banana实为Gemini 2 5 Flash Image [1] - 模型目前可在Gemini和Google AI Studio上免费使用,同时API以每张图像0 039美元(折合人民币0 28元)的价格开放 [8] - 谷歌解释选择通过LMArena平台匿名发布是为全球规模发布做准备 [48] 核心功能与技术能力 - 具备出色的图像编辑能力,可合并最多三张图片创造新事物,生成超现实艺术或无缝融合物体、颜色和纹理 [11][12][13] - 能够用几张照片生成连贯的电影画面剧情故事 [14] - 支持2D到3D转换,用户提供2D图片可自动生成和谐统一的3D视角 [22] - 展现出高超的图像推理能力,包括解勾股定理、计算角度、识别复杂结构等 [6][25] 实际应用案例与用户反馈 - 网友实测显示模型可精准改变面部表情、天气,甚至为秃头男人生成不同发型 [17][19] - 能够以指定角色(如猫)为主角生成旅游照或自拍照,并理解光影细节生成自然阴影 [27][29][31][35][36][37] - 可抓取角色特征进行创意生成,如将林黛玉和孙悟空变成漫威英雄并肩战斗 [33][39] - 网友评价其性能出色,甚至认为对PhotoShop构成威胁 [21][42] 市场定位与行业影响 - 该模型被认定为SOTA级别的图像编辑模型,其表现与Gemini近期发布的多模态版本相似 [43][45] - 谷歌采用匿名发布、无品牌标识的测试策略与DeepMind早期评估大语言模型的方式一致 [46] - 用户对完整版本期待强烈,专业订阅用户询问是否能在Gemini应用中立即使用 [51][52]
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 07:12
阶跃星辰Step1X-Edit模型发布 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,性能达到开源体系SOTA水平,可与GPT-4o和Gemini 2 Flash等闭源模型媲美 [2] - Step1X-Edit由19B参数构成(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力,支持11类高频图像编辑任务 [4] - 模型首次在开源体系中实现多模态语言理解与扩散图像生成的深度融合,通过自建高质量数据生成管道和GEdit-Bench基准评测,显著优于现有开源模型 [5] 技术架构与创新 - Step1X-Edit架构包含三大核心组件:多模态大型语言模型(MLLM)、连接模块以及扩散Transformer(DiT) [6] - 模型采用单次前向传递捕获文本与视觉语义关系,通过令牌精炼器重组嵌入特征,并引入全局视觉引导向量提升上下文感知能力 [10] - 训练阶段融合FLUX-Fill令牌连接机制,联合优化连接模块与DiT网络,采用Qwen与DiT预训练权重实现快速收敛 [10] 资源与赛事信息 - Step1X-Edit开源资源包括Github、HuggingFace和ModelScope平台,技术报告发布于arXiv [11][12][13] - AMD 2025 GPU挑战赛聚焦FP8 GEMM、MLA with ROPE和Fused MoE三大算子优化,总奖金10万美元,优胜者可受邀参加AMD Advancing AI Day活动 [14][15] - 赛事时间表显示注册截止为2025年4月30日,提交窗口分阶段开放,中国大陆参赛者需通过Github CLI工具提交 [17][18][19]