文本推理
搜索文档
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
量子位· 2025-12-22 04:41
TwiG团队 投稿 量子位 | 公众号 QbitAI 在文生图 (Text-to-Image) 和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。 但当你要求模型处理复杂的空间关系、多物体交互或精准的数量控制时,它们往往会"露怯":不是把猫画到了窗户外面,就是把三个苹果画 成了四个。 为了解决这个问题,学术界此前主要有两条路: 一条是 "谋定而后动" (Think-before-Generation) ,即在画第一笔之前,先写好详细的布局计划。但这就像让画家在动笔前必须把每一 笔都想得清清楚楚,一旦开画就无法更改,缺乏灵活性。 另一条是 "亡羊补牢" (Think-after-Generation) ,即先把图画完,再通过多轮对话来挑错、修改。这虽然有效,但往往意味着巨大的推 理开销和漫长的等待时间。 那么,有没有一种方法,能让模型像人类画家一样,在作画的过程中停下来看一眼,既能审视刚才画得对不对,又能为下一笔做好规划? 近日,来自香港中文大学、美团等机构的研究团队提出了一种全新的范式—— Thinking-while-Generating(TwiG)。这是首个在单 ...