Workflow
视觉生成和理解
icon
搜索文档
2025年了,生成和理解多模态大模型发展到哪一步了?
自动驾驶之心· 2025-08-25 23:34
多模态大模型发展趋势 - 文章聚焦于2025年年中前图片理解与图片生成统一的多模态大模型发展,强调技术进展与核心挑战 [1][2] - 研究范围主要限于图片模态,不包括更广泛的多模态(Omini-LLM)方向 [3] 代表性研究工作 - Google的Unified-IO和Unified-IO-2被视为Omini-LLM早期代表 [3] - 阿里OFA、复旦AnyGPT、Meta的CM3Leon和Chameleon及ANOLE、VITA等工作对后续研究有显著影响 [3] 视觉Tokenizer技术路径 - 视觉生成依赖低频特征(如VAE-Based),视觉理解依赖高层语义特征(如CLIP、SigLIP) [17] - 字节TokenFlow采用双视觉Encoder:理解侧用CLIP ViT-B/14-224/ViTaminXL-256/SigLIP-SO400M-patch14-384,生成侧用VQ-GAN结构提取特征 [16][17] - 字节Muse-VL将语义与像素特征在维度侧拼接后经MLP映射再离散量化,语义编码器使用SigLIP系列 [21] - 中山大学与华为SemHiTok通过解耦Codebook实现语义特征重建与像素级重建结合 [21] - 港大UniTok使用单视觉Encoder,通过多codebook量化实现特征对齐 [33][35] - 百川等机构DualToken使用单一视觉Encoder,浅层特征(1-6层)用于重建,深层特征(26层)用于语义对齐 [37][39] - 腾讯TokLIP通过VQGAN Encoder提取特征后,经因果Token编码器得到语义特征,并计算蒸馏与对比损失 [42][44] - 北大、阿里和中科院UniLip将CLIP视觉Encoder改造为统一Tokenizer,并与扩散Transformer结合 [46][47] 模型架构与训练策略 - Meta的meta-query、MetaMorph和Pisces,字节Mogao和BAGEL等探索自回归、自回归+扩散及纯扩散架构 [17] - QLIP采用两阶段训练:第一阶段学习语义特征,第二阶段优化重建质量与高频细节 [28][30] - UniLip训练分三阶段:冻结部分模块训练连接器、联合训练连接器与扩散Transformer、指令微调 [47][49] 量化与特征处理技术 - QLIP使用二进制球量化(BSQ)处理视觉特征 [30] - UniTok采用多codebook量化(MCQ),将特征分为多个子块分别量化,提高codebook利用率 [35] - DualToken使用残差量化(RQ-VAE)处理深层特征 [39]