技术突破 - 字节UXO团队设计并开源统一框架USO 解决图像生成中多指标一致性问题 实现风格迁移和主体保持单任务和组合任务的SOTA [1] - USO通过单一框架统一主体保持 身份保持和风格化编辑等看似孤立的任务 包括参考图风格迁移和多风格迁移等复杂场景 [1] - 该框架采用跨任务自解耦新范式 让模型根据不同任务类型学习特征 从根本上增强模型学习能力 [21] 性能表现 - 在主体驱动生成任务中 USO的CLIP-I得分0.623 DINO得分0.793 CLIP-T得分0.288 均领先对比模型 [18] - 在风格驱动生成任务中 USO的CSD得分0.557 CLIP-T得分0.282 表现最优 [18] - 在主体风格混合驱动生成任务中 USO的CSD得分0.495 CLIP-T得分0.283 超越StyleID和OmniStyle等模型 [18] - 用户研究显示USO在主体一致性 风格一致性和画面质量等所有评估维度都获得较高评价 [19] 技术架构 - 以开源模型FLUX 1 dev为基础 设计风格对齐训练以及内容-风格解耦训练 [22] - 首次提出风格奖励学习SRL算法 这是为Flow Matching设计的带参考图强化学习算法 [24] - 奖励函数来自衡量风格一致性的奖励模型数学映射 配合预训练损失监督模型训练 促进内容和风格解耦 [25] - 强化学习的加入让模型在其他任务上也获得性能提升 验证跨任务对齐有效性 [26] 数据处理 - 团队构建跨任务数据合成框架 创新性提出同时构建布局改变和布局保留的三元组数据 [30] - 通过训练UNO模型得到风格化和去风格化专家模型 利用这两个专家模型生成大批量三元组数据 [30] - 最后通过VLM过滤出用于训练USO的数据集 [30] 应用场景 - 通过单一模型且仅通过一张参考图 就能处理人物 主体或风格保持需求 [7] - 可处理卡通人物驾驶小车 积木风格场景 吉卜力风格 抽象材质参考等多种应用场景 [8][10][12][14] - 能同时参考人物ID和风格图片 在保留ID基础上完美还原扁平风格 [17] - 画面质量不输商业大模型 弥补难以同时做好主体保持和风格迁移的短板 [3][17]
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
量子位·2025-09-04 04:41