文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位·2025-05-13 04:45
技术突破 - 港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1 实现"先推理后生成"的双层级CoT框架 [2][8][27] - 提出Semantic-level CoT负责图像全局结构规划 Token-level CoT专注底层视觉细节生成 解决跨模态对齐与细粒度生成难题 [10][12][16] - 创新BiCoT-GRPO强化学习方法 在单一RL步骤中协同优化语义规划与像素生成 相比分阶段训练效率更高且计算成本更低 [8][21][23] 性能表现 - T2I-R1在T2I-CompBench和WISE基准测试中分别比基线模型提升13%和19%性能 在多个子任务超越FLUX.1等先进模型 [33] - 具体指标显示:颜色绑定能力达0.8130 形状绑定0.5852 纹理绑定0.7243 空间关系0.3378 综合复杂任务处理能力0.3993 [34] - 模型通过语义推理准确理解用户意图 例如将"阿姆斯特丹所在国家栽培的花"正确推理为郁金香并生成对应图像 [15][29][31] 行业意义 - 该技术突破证明CoT推理在图像生成领域的有效性 为多模态生成任务提供新范式 可拓展至视频生成与3D内容合成 [36] - 采用多视觉专家模型集成作为奖励机制 既保障多维度质量评估 又防止模型过拟合单一奖励标准 [25][32] - 首次实现无需额外模型的端到端推理生成架构 显著降低部署复杂度 为通用智能体发展提供技术路径 [9][18][36]