让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
量子位·2025-12-22 04:41

文章核心观点 - 香港中文大学、美团等机构的研究团队提出了一种名为“Thinking-while-Generating”的全新视觉生成范式,通过在生成过程中间歇性地插入文本推理,以解决现有模型在处理复杂空间关系、多物体交互和精准数量控制时的缺陷 [5][7][19] 现有技术瓶颈与解决方案 - 当前以FLUX.1、Emu3为代表的扩散模型与自回归模型在文生图和视频生成领域已能生成逼真画面,但在处理复杂空间关系、多物体交互或精准数量控制时仍会出错,例如将猫画到窗外或将三个苹果画成四个 [1] - 学术界此前主要解决方案有两条路径:一是“谋定而后动”,即生成前先规划详细布局,但缺乏灵活性;二是“亡羊补牢”,即生成后通过多轮对话修改,但推理开销大且耗时 [4] - TwiG范式旨在模仿人类画家,在作画过程中暂停以审视和规划,首次在单一生成轨迹中以局部区域为粒度,将文本推理与视觉生成深度交织 [5][7] Thinking-while-Generating框架详解 - TwiG框架将视觉生成从“黑盒”连续过程拆解为“生成-思考-再生成”的循环,受大语言模型中思维链启发,但反其道而行之,用推理来引导作画 [7] - 框架核心包含三个维度:1) “何时思考”:根据用户提示词规划思维时间表,将画面生成过程拆解为3个阶段效果最佳,对应图像“上部背景、主体内容、下部背景”的语义结构 [8];2) “思考什么”:在每个暂停点生成一段“思维链”,作为指导后续局部生成的微型路书 [9];3) “如何修正”:在画完局部后进行自我批判,若发现错误则触发局部“重画”机制,无需推倒重来 [10] 实证研究结果 - Zero-Shot潜力:仅通过精心设计的提示词,无需参数更新,TwiG-ZS在T2I-CompBench基准测试的属性绑定、空间关系等多个维度上已显著超越基准模型,表明现有多模态模型具备在生成过程中进行推理的潜力 [13][14][15] - 监督微调效果:团队构建了包含50K数据的高质量数据集TwiG-50K进行监督微调,SFT有效减少了模型幻觉,使生成的思维链更加简练、可控 [16] - 强化学习突破:采用针对TwiG优化的GRPO策略进行强化学习训练,TwiG-RL在T2I-CompBench++的多个关键组合与空间指标上,展现出与Emu3、FLUX.1等模型竞争力甚至更优的表现 [17] - 性能数据对比:根据提供的性能对比表,TwiG-RL在多个关键指标上表现优异,例如在属性绑定的“2D-Spatial”指标上达到82.49,在“Color”指标上达到61.28,在“Shape”指标上达到73.19,在“Texture”指标上达到34.06,在对象关系的“3D-Spatial”指标上达到38.87,在“Numeracy”指标上达到61.93,在“Complext”指标上达到53.56 [18] 研究结论与未来展望 - 研究结论总结为三点:1) 生成需要逻辑,引入显式文本推理是处理复杂逻辑约束的必经之路;2) 修正优于重绘,在生成过程中进行局部即时修正比完成后大改更高效;3) 强化学习是关键,不仅能优化图像质量,更能教会模型如何思考,是挖掘多模态模型推理潜力的关键 [20] - 目前TwiG的实现与实验主要基于自回归ULM,但框架设计对扩散模型同样兼容,该“边生成边思考”的范式有望扩展到视频生成、3D建模等更复杂领域,为通用视觉智能提供新方向 [21]