Workflow
VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源
量子位·2025-08-01 04:23

核心观点 - ModelScope团队发布Nexus-Gen V2模型,整合了视觉语言模型(VLM)和扩散模型,实现图像理解、生成和编辑的统一架构,并开源模型权重、训练流程及2600万样本数据集[1][3][30] - 模型通过多任务协同优化解决V1版本的理解能力退化、生成鲁棒性不足和编辑细节丢失问题,采用81个token的平衡方案提升性能[17][19][22] - 在图像理解、生成和编辑三大任务的评测中,Nexus-Gen V2达到第一梯队水平,尤其在中文支持方面仅需2.5M标注数据即可实现能力[34][36][39][42] 模型架构 - 核心设计将扩散模型作为自回归语言模型的视觉解码器,使用统一图像编码空间连接两者,输入图像通过视觉编码器处理后由自回归模型预测特征向量[10][12] - 自回归模型基于Qwen2.5-VL-7B-Instruct的语言模块,视觉解码器采用Flux-1-Dev,训练时固定输出81个token以平衡语义保持与生成质量[13][15][19] - 创新性提出预填充自回归策略,通过可学习特殊token解决连续特征预测的误差累积问题,保持训练与推理行为一致性[25][28] 训练优化 - 采用三阶段训练:自回归模型大规模预训练(26M样本)、美学微调(4.3M高质量样本)、视觉解码器条件适配(生成2M样本/编辑专用数据)[13][15][29] - 关键参数包括学习率1e-5、余弦调度器、512批量大小,图像生成数据采用长短描述混合标注策略提升鲁棒性[3][29][33] - 数据集构建上,对Cambrian-7M理解数据重标注答案,合成数据占比超50%,并创建高质量编辑数据集ImagePulse解决开源数据质量缺陷[33][34] 性能表现 - 图像理解能力接近基线模型Qwen2.5-VL-7B,MME-C得分637.5(基线640.3),SEED指标达77.1(基线77.4)[36][37] - 图像生成在GenEval评测总分0.77,经指令微调后提升至0.81,中文生成仅需2.5M标注数据实现[34][39] - 图像编辑CLIP-T得分0.324优于同类模型,编辑解码器使CLIP-O指标达0.909,显著改善细节保持[41][42] 行业意义 - 验证了VLM与扩散模型整合的技术路线可行性,与GPT-4o、Gemini等大厂方案形成竞争,推动统一模型发展[1][43] - 开源全链路资源(模型/数据/训练流程)降低行业门槛,2600万数据集包含580万理解/1330万生成/630万编辑样本[3][30][44] - 多任务统一训练展现协同效应,为构建具备多模态推理能力的下一代世界模型提供实践基础[43]