TokLIP

搜索文档
视觉Token注入CLIP语义,走向多模态理解与生成新范式
量子位· 2025-08-26 04:36
核心技术创新 - 提出全新视觉分词器TokLIP 将低级离散视觉Token与高级CLIP语义结合 实现多模态理解与生成的高效统一 [1][2] - 通过语义化VQ token注入CLIP级别语义 使每个离散token同时携带底层结构信息和高层语义信息 [13][14][15] - 采用视觉tokenizer与ViT-based token encoder结合架构 通过蒸馏和对比学习损失优化模型 [17][18] 性能优势 - 训练数据量仅需同类方法的20% 在多项任务中达到SOTA性能 [3][24] - TokLIP-B版本在ImageNet分类达到76.4% Top1准确率 超越VILA-U的73.3%和QLIP的74.3% [23][27] - 在COCO检索任务中 TR@1达到64.06% IR@1达到48.46% 显著优于同类方法 [27] - TokLIP-L版本在384分辨率下实现80.0% ImageNet分类准确率 超越QLIP的79.1% [27] 架构设计特点 - 使用Causal Token encoder保证自回归生成过程无信息泄漏 [19] - 采用Freeze VQGAN设计保留生成能力 支持框架灵活替换 [26] - 继承预训练CLIP权重 在相同算力下更快收敛 训练pipeline更简洁高效 [26] - 无需专门重构损失保证token可逆性 避免训练冲突并降低复杂度 [26] 多模态任务表现 - 在7个下游多模态理解任务中展现竞争力 MLLM问答与推理更准确 [28] - TokLIP-L在MMB任务达到76.9% 显著优于Emu3-Chat的58.5%和VILA-U的60.8% [29] - TokLIP-XL在MMMU任务达到47.1% 超越TokenFlow-XL的38.7% [29] - 自回归图像生成任务FID指标显著改善 384分辨率下从14.48降至12.37 [30][31] 应用前景 - 可无缝接入现有LLM框架 极大降低多模态模型计算与数据门槛 [3][20] - 为构建下一代多模态通用模型提供重要基础组件 [3][32] - 支持端到端自回归训练 实现理解与生成能力的统一 [3][7][12]