不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队
量子位·2025-12-19 07:20

文章核心观点 - 浙江大学ReLER团队发布基于DiT的新框架ContextGen,通过分层解耦上下文和双重注意力机制,解决了多实例图像生成中布局控制与身份保真度难以兼顾的难题,在多项关键指标上取得了SOTA突破 [4][5][52] 技术框架与创新 - 核心创新是提出了双重上下文注意力机制,将全局控制和局部注入任务在DiT的不同层级进行部署 [7] - 宏观布局锚定 (CLA):将包含实例位置信息的布局图像整合到上下文中,部署在DiT模块的前置和后置层,以实现对全局结构和位置的鲁棒锚定,保障精确的布局控制 [8][9][10] - 细节身份注入 (ICA):针对细节丢失问题,在DiT模块的中间层引入ICA,利用原始高保真参考图像和定制注意力掩码,约束每个实例区域仅与对应参考token交互,实现身份隔离式注入,保障多实例身份一致性 [11][12] 数据与优化策略 - 团队同步推出了IMIG-100K数据集,这是首个面向图像引导多实例生成任务设计的大规模、具备详细布局和身份标注的合成数据集,其构建代码和处理流程已开源 [13][14][15] - 为避免监督微调导致的布局僵硬复制问题,引入了基于偏好优化(DPO)的强化学习阶段,通过将布局图像作为非偏好输入,鼓励模型生成更具多样性的图像,在保持身份的同时提升生成自由度 [16][17] 性能表现与基准测试 - 在COCO-MIG基准上,模型在空间准确性 (mIoU) 提升5.9%,显著优于基线模型 [19][20] - 在LayoutSAM-Eval基准上,ContextGen在多项指标上均实现了SOTA,尤其在实例的属性保持(Color, Texture, Shape)方面表现出色 [20] - 在LAMICBench++的身份保持能力测试中,ContextGen超越了开源SOTA模型,展现了身份保持能力(IDS, IPS)和综合性能的显著提升 [24] - 在基准测试中,ContextGen在多主体任务中的身份保持能力,甚至相较于GPT-4o、Nano Banana这样的闭源模型仍保持显著优势 [25] 应用与展示 - 团队开发了一个简单易用的前端,支持多参考图上传、自动抠图、自定义布局设计等功能,方便用户体验ContextGen的功能 [50] - 文章通过多个复杂提示词(如包含多个特定物体和场景的描述)的效果图,展示了ContextGen与现有开源和闭源方法的对比效果,直观体现了其在复杂多实例生成任务上的优越性 [26][27][28][29][30][33][34][36][37][38][40][41][42][43][44][45][46]