多模态AI模型“理解”与“生成”能力的内耗问题 - 阶跃星辰首席科学家张祥雨指出,当前大一统多模态模型训练中,视觉的“理解”与“生成”能力可以共存但很少协作,甚至时常内耗,一方能力的提升可能导致另一方性能下降 [1] - 问题的根源在于图像生成任务极其复杂,需要复杂的空间规划、物理常识和语义推理,而Transformer模型单次前向传播能执行的逻辑推理步骤有限,导致梯度信号粗糙,两个模块无法有效相互指导 [1] 现有解决方案及其局限性 - 张祥雨提出的解决方案是引入“思维链”,让模型分步骤思考和创作,以规避单次推理导致的信号粗糙问题 [2] - 北京大学的研究指出,思维链方案主要解决单次推理复杂度,但更根本的问题是理解和生成的训练目标本身割裂,即使引入思维链,两个模块依然在追求不同的KPI [5] 传统统一多模态模型的根本问题 - 旧方法如同“双头政治”,让同一模型用同一组参数同时扮演“理解工匠”和“生成工匠”角色,并用两套截然不同的KPI考核 [7] - “理解工匠”的KPI是语义抽象的准确性,逻辑是从具体到抽象;“生成工匠”的KPI是像素还原的保真度,逻辑是从抽象到具体,两个优化目标在底层逻辑上相互冲突,梯度更新在参数空间中互相拉扯,导致训练不稳定 [7] - 为避免直接冲突,一些工作选择“解耦”策略,先独立训练两个模块到顶尖水平,再通过适配器模块进行有限沟通,但这只是“共存”,并未形成真正的协同效应和相互增益 [8][9] 北京大学UAE框架的核心创新 - UAE框架做出了根本性变革:废除两套独立KPI,建立一条统一流水线,并设立唯一的、最终的质检标准 [10] - 框架思想源自经典的自编码器模型,将理解任务映射为编码(压缩工序),生成任务映射为解码(还原工序) [11][12][15] - 具体流程:用Qwen-2.5-VL 3B训练的“理解模型”作为编码器,将原始图像压缩成一段详尽、结构化的文字描述;用SD3.5-large训练的“生成模型”作为解码器,根据文字描述重建图像 [15] - 流水线的共同KPI是保证终端产出的“重建图像”能完美还原原始图像,如果重建图像与原图高度相似,则说明信息在理解→文本→生成链路上实现了近乎无损传递 [17][18][19] UAE框架的三阶段训练策略 - 阶段一为冷启动重建(岗前培训与初步对齐):系统接收原始图像,由理解模块生成描述,再由生成模块重建图像,根据重建图像与原始图像的语义相似度计算基础损失,同时更新两个模块的参数,目标是建立基本的信息传递通道 [20][22][23] - 阶段二为生成服务理解,重点训练“理解工匠”:冻结生成模型,理解模型接收原始图像并尝试生成描述,固定的生成模型根据描述重建图像,强化学习算法比较重建图像与原始图像并进行奖励惩罚,通过循环迫使理解模型学习生成对生成模型最友好的描述,实现“两向加强”的第一个方向 [24][25][26][27][28] - 阶段三为理解服务生成,重点训练“生成工匠”:冻结理解模型,生成模型根据描述反复重建图像以优化技艺,迫使生成模型学习处理和执行长篇、充满约束的指令,实现“两向加强”的第二个方向 [29] - 阶段二和阶段三交替进行训练,形成正反馈循环:理解越精准,生成越准确;生成要求越高,理解越深入,后两个阶段使用了GRPO算法 [31] UAE框架的训练成效与性能表现 - 模型行为自发涌现出利于协同的行为,理解模块出现了类似人类的“顿悟时刻”,其生成的文字描述在无外部指令下变得越来越长、越来越详细,平均超过250个英文单词 [32] - 描述内容从训练早期的基本对象和颜色,发展到中期的计数、空间关系,再到后期的材质、遮挡关系、背景细节、光照条件等系统性覆盖 [34] - 在与其他模型生成的描述比较中,UAE理解模型生成的描述在完整性、属性绑定、关系和空间保真度等多个方面更胜一筹 [36] - 在生成方面,UAE在GenEval基准上获得0.86综合得分,在统一模型中排名第一,在计数和颜色归因任务上分别获得0.84和0.79得分 [37] - 在更具挑战性的复杂场景处理GenEval++基准中,UAE获得0.475的最佳得分 [37] UAE框架的行业启示与影响 - UAE的成功证明,多个看似冲突的目标可以通过合适的框架实现融合协同,这不是简单的“多任务学习”,而是从根本上重新定义任务目标 [39] - 这表明“重新定义目标”可能比“优化算法”更重要,通过重设目标,相互竞争的任务可以变成互相促进的伙伴,这种思路可能适用于更多AI任务的统一 [39] - 这场“内战”的终结可能预示着一个新时代,AI的“看”与“画”、“听”与“说”将不再是割裂的能力孤岛,而是一个无缝协作、相互促进的有机整体 [39]
张祥雨发现的多模态AI内耗难题,北大找到了解法
36氪·2025-09-19 10:52