OpenVision

搜索文档
OpenVision 2:大道至简的生成式预训练视觉编码器
机器之心· 2025-09-15 12:19
研究背景与团队 - 研究由加州大学圣克鲁兹分校、苹果公司与加州大学伯克利分校合作开展 第一作者为UCSC博士生刘彦青 本科毕业于浙江大学 研究方向包括多模态理解与视觉基础模型[2] - 通讯作者为UCSC谢慈航教授 团队成员包括来自UCSC、苹果公司与UCB的研究人员[2] OpenVision系列发展历程 - OpenVision于ICCV发布 是完全基于公开数据和开源代码训练的视觉编码器家族 提供25个以上预训练模型 参数量从590万到6亿+ 覆盖多种patch size与分辨率设置[6] - OpenVision在多个多模态基准任务上媲美甚至超越OpenAI的CLIP与Google的SigLIP 成为学术界和产业界重要替代方案[7] - OpenVision训练管线存在双重对比目标与生成式caption预测设计 导致文本编码器计算量几乎翻倍 训练成本显著增加[8] OpenVision 2技术创新 - 移除文本编码器与对比学习 仅保留图像→描述生成目标 框架简化为图像编码器+文本解码器两个模块[9] - 引入视觉token随机丢弃技术 预训练阶段随机丢弃约2/3视觉token 仅用1/3 token生成完整描述 大幅减少文本解码器计算负担[10] - 采用稀疏提示机制 迫使模型在有限条件下还原完整caption 提升表征抽象能力 体现少即是多理念[13] 性能表现 - 在TextVQA任务中 OpenVision 2(ViT-L/14 224分辨率)达到59.0分 优于OpenAI-CLIP的56.1分和MetaCLIP-5B的55.6分[15] - 在OCR任务中 OpenVision 2(ViT-L/14 224分辨率)达到327分 显著优于OpenAI-CLIP的177分和MetaCLIP-5B的313分[15] - 在336分辨率下 OpenVision 2(ViT-L/14)在TextVQA任务达到63.0分 优于OpenVision的61.2分和OpenAI-CLIP的59.1分[15] - 参数量632M的H/14模型在448分辨率下 TextVQA达到65.6分 ChartQA达到18.1分 OCR达到416分[15] 训练效率提升 - ViT-L/14模型训练时间从83小时缩短至57小时 缩减31% SoViT-400M模型从241小时缩短至121小时 缩减50%[16] - 显存占用减少近一半 ViT-L/14模型峰值显存从24.5GB降至13.8GB[16] - 单卡批大小从2k扩展到8k 大幅提升训练吞吐量[16] - FLOPs per Image从271.75降至208.90(ViT-L/14) 从1636.75降至1017.74(SoViT-400M)[16] 技术原理分析 - 生成式监督更贴近下游多模态大模型推理方式 减少预训练与下游任务间目标错位[22] - 采用Recap-DataComp-1B v2数据集 caption生成结合图像和原始文本 提供更细致贴合语义的监督信号[22] - 视觉token随机掩码技术在保持性能同时降低算力开销 提升模型泛化与鲁棒性[22] 行业影响与开源贡献 - 挑战对比学习主导范式 证明生成式框架同样能训练强大视觉编码器 在效率和可扩展性具显著优势[21] - 开源超过25个不同规模和配置模型 完整公开训练代码与数据管线 为学术界和产业界提供可复现资源[21] - 展示大道至简设计理念 为多模态基础模型发展提供新方向 支持10亿参数规模可扩展训练[21]