模型性能与基准测试结果 - 新一代图像编辑模型UniWorld-V2在GEdit-Bench基准测试中获得7.83分,显著优于GPT-Image-1 [High]的7.53分和Gemini 2.0的6.32分 [19] - 在ImgEdit基准测试中,UniWorld-V2以4.49分领跑,超越了所有已知的开源和闭源模型 [19] - 当UniWorld-R1框架应用于FLUX.1-Kontext [Dev]模型时,其在GEdit-Bench上的总分从6.00提升至6.74,超越了其Pro版本的6.56分 [21] - 当UniWorld-R1框架应用于Qwen-Image-Edit [2509]模型时,其在GEdit-Bench上的得分从7.54增加至7.76 [21] 核心技术框架创新 - 公司提出业内首个基于强化学习的统一架构图像编辑后期训练框架UniWorld-R1,首次将强化学习策略优化应用于统一架构的图像编辑模型 [14] - UniWorld-R1框架采用Diffusion Negative-aware Finetuning技术,这是一种无需似然估计的策略优化方法,训练更高效并允许使用高阶采样器 [14] - 针对编辑任务多样性挑战,该框架开创性地使用多模态大语言模型作为统一的、免训练的奖励模型,利用其输出logits提供精细化隐式反馈 [14] 功能应用优势 - 模型展现出强大的中文字体掌握能力,能精准理解指令并渲染如"月满中秋"等笔画复杂的艺术中文字体,效果清晰且语义准确 [10] - 在精细化空间可控任务中,用户可通过画红框指定编辑区域,模型能严格遵守空间限制,实现"将鸟移出红框"等高难度精细操作 [11] - 模型具备全局光影融合能力,能深刻理解"给场景重新打光"等指令,使物体自然融入场景,画面统一和谐且光影融合度极高 [12] 行业地位与数据集 - 团队早先的UniWorld-V1作为业内首个统一理解与生成的模型,其开源时间领先于谷歌Nano Banana等后续知名模型长达三个月 [24] - 研究团队为实验整理了一个包含27572个基于指令的编辑样本的数据集,样本来源包括LAION、LexArt和UniWorldV1 [17]
比NanoBanana更擅长中文和细节控制,兔展&北大Uniworld V2刷新SOTA
36氪·2025-11-05 09:44