不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

文章核心观点 - 浙江大学ReLER团队发布基于DiT的新框架ContextGen，通过分层解耦上下文和双重注意力机制，解决了多实例图像生成中布局控制与身份保真度难以兼顾的难题，在多项关键指标上取得了SOTA突破 [4][5][52] 技术框架与创新 - 核心创新是提出了双重上下文注意力机制，将全局控制和局部注入任务在DiT的不同层级进行部署 [7] - 宏观布局锚定 (CLA)：将包含实例位置信息的布局图像整合到上下文中，部署在DiT模块的前置和后置层，以实现对全局结构和位置的鲁棒锚定，保障精确的布局控制 [8][9][10] - 细节身份注入 (ICA)：针对细节丢失问题，在DiT模块的中间层引入ICA，利用原始高保真参考图像和定制注意力掩码，约束每个实例区域仅与对应参考token交互，实现身份隔离式注入，保障多实例身份一致性 [11][12] 数据与优化策略 - 团队同步推出了IMIG-100K数据集，这是首个面向图像引导多实例生成任务设计的大规模、具备详细布局和身份标注的合成数据集，其构建代码和处理流程已开源 [13][14][15] - 为避免监督微调导致的布局僵硬复制问题，引入了基于偏好优化（DPO）的强化学习阶段，通过将布局图像作为非偏好输入，鼓励模型生成更具多样性的图像，在保持身份的同时提升生成自由度 [16][17] 性能表现与基准测试 - 在COCO-MIG基准上，模型在空间准确性 (mIoU) 提升5.9%，显著优于基线模型 [19][20] - 在LayoutSAM-Eval基准上，ContextGen在多项指标上均实现了SOTA，尤其在实例的属性保持（Color, Texture, Shape）方面表现出色 [20] - 在LAMICBench++的身份保持能力测试中，ContextGen超越了开源SOTA模型，展现了身份保持能力（IDS, IPS）和综合性能的显著提升 [24] - 在基准测试中，ContextGen在多主体任务中的身份保持能力，甚至相较于GPT-4o、Nano Banana这样的闭源模型仍保持显著优势 [25] 应用与展示 - 团队开发了一个简单易用的前端，支持多参考图上传、自动抠图、自定义布局设计等功能，方便用户体验ContextGen的功能 [50] - 文章通过多个复杂提示词（如包含多个特定物体和场景的描述）的效果图，展示了ContextGen与现有开源和闭源方法的对比效果，直观体现了其在复杂多实例生成任务上的优越性 [26][27][28][29][30][33][34][36][37][38][40][41][42][43][44][45][46]