Workflow
ContextGen
icon
搜索文档
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA
机器之心· 2025-12-20 04:45
多实例图像生成(MIG)领域的技术瓶颈 - 当前多实例图像生成领域面临核心挑战:难以同时实现对多个对象的**空间布局控制**和**身份特征的良好保持**[2] - 主流方法存在明显缺陷:依赖文本和布局引导的模型难以实现高度实例定制化,且存在实例遗漏、属性泄露问题;而主体驱动方法在主体数量增加时,会出现严重的身份混淆和细节丢失[2] ContextGen框架的核心创新 - 浙江大学ReLER团队发布**ContextGen**,这是一个基于Diffusion Transformer的新型框架,旨在通过上下文学习可靠完成图像引导的多实例生成任务[5] - 该框架提出全新**上下文生成范式**,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题[6] - 框架采用**双重核心机制**:上下文布局锚定聚焦全局上下文引导以提供精确布局控制;实例上下文对齐聚焦细粒度身份注入以保障多个实例的身份一致性[7][8][10][12] - 框架采用**层次化的双重注意力策略**,让模型兼具宏观布局控制和精细实例级身份保持,并采用增强的位置索引策略系统区分多图像关系[12] 配套数据集与训练优化 - 团队推出**IMIG-100K数据集**,这是首个为图像引导多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集[14] - 在训练中引入**基于偏好优化的强化学习阶段**,以解决监督微调导致的模型过度参考布局图像、缺乏多样性和灵活性的问题[17] 性能表现与基准测试 - 在LAMICBench++基准测试中,ContextGen超越所有开源模型,**平均得分提升+1.3%**,在身份一致性上比肩闭源商业巨头[21] - 具体数据:在Fewer Subjects场景下,模型平均得分66.78;在More Subjects场景下,平均得分63.21;总体平均得分64.66,与GPT-4o的63.71和Nano Banana的64.11相当[22] - 在COCO-MIG基准上,ContextGen在**实例级成功率提升+3.3%**,**空间准确性提升+5.9%**[25] - 具体数据:在COCO-MIG上,实例级成功率65.12,空间准确性69.72;在LayoutSAM-Eval中,颜色正确率87.44,材质正确率89.26,形状正确率88.36[26] 应用与未来展望 - 团队提供了简单易用的**前端交互界面**,支持用户上传参考图像、以文本添加素材、通过拖拽设计布局来生成多实例图像[32] - 未来计划进一步优化模型架构以提升生成效率,并探索更多样化的用户交互方式以满足更广泛的应用需求[36]
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队
量子位· 2025-12-19 07:20
浙江大学ReLER团队 投稿 量子位 | 公众号 QbitAI 尽管扩散模型在单图像生成上已经日渐成熟,但 当任务升级为高度定制化的多实例图像生成 (Multi-Instance Image Generation, MIG) 时 ,挑战随之显现: 如何在实现空间布局控制的同时,保持多主体身份与参考图像高度一致? 现有方法在面对需要宏观的布局控制和微观的身份注入的复杂任务时 常常陷入两难 。 能显式控制布局的方法,往往无法利用参考图像来对实例进行定制。 而能以参考图像为指导的方法,则难以实现对布局的精确控制,且在实例数量增加时面临着严重的身份信息丢失问题。 为解决这一制约自定义图像生成的技术瓶颈, 浙江大学ReLER团队发布基于DiT的新框架ContextGen 。 该框架通过分层解耦上下文,解决布局控制与身份保真度的难题,并在多项关键指标上取得了SOTA突破。 机制创新:布局与身份的协同控制 ContextGen的核心在于提出了双重上下文注意力机制,将复杂的全局控制和局部注入任务,并在DiT的不同层级进行部署。 Contextual Layout Anchoring (CLA):宏观布局锚定 CLA机制将包含 ...