Workflow
OpenAI CLIP
icon
搜索文档
谢赛宁团队新作打破“多语言诅咒”!MetaCLIP 2支持300多种语言,英语性能反倒提升了
量子位· 2025-07-31 06:51
行业突破 - 全球互联网数据中超过50%为非英文内容 但传统CLIP模型主要基于英文数据训练 凸显多语言处理需求[1] - 多语言CLIP面临两大核心挑战:缺乏非英语数据筛选方法 以及英语性能下降的"多语言诅咒"[2] 技术创新 - MetaCLIP 2实现三大突破:建立300多种语言处理流程 优化数据筛选算法 提升模型容量[2][8] - 采用"NoFilter"理念 通过概念平衡替代语言过滤 构建多语言视觉概念词典(含WordNet和维基百科词汇)[3][5][15] - 数据筛选机制创新:语言识别+定制化标准 控制常见与罕见概念比例 确保数据分布合理性[16][17] 性能表现 - 打破"多语言诅咒":英语ImageNet准确率达81.3% 超越纯英语CLIP的80.5%[24][25] - 多语言任务创SOTA:Babel-ImageNet分类准确率50.2% XM3600跨语言检索准确率64.3%[26][27] - 文化多样性优势:在Dollar Street/GLDv2等数据集 Top-5准确率最高达69.0%[28][29] 技术细节 - 训练规模显著扩大:ViT-H/14模型使用290亿样本 较基线扩大2.3倍[19][23] - 模型容量关键作用:ViT-H/14架构成功消除多语言诅咒 实现英语与非英语能力同步提升[19] - 参数调整策略:将平衡阈值t从20k提升至170k 适配十亿级数据规模[12] 行业影响 - 研究团队含MIT博士及OpenAI资深专家 技术路线获行业认可[3][4] - 完整开源生态:发布论文及代码库 推动多模态领域发展[32]