核心观点 - 360人工智能研究院推出FG-CLIP模型 通过长文本深度理解和细粒度视觉比对双突破 彻底解决传统CLIP模型的视觉近视问题 实现精准局部细节识别 [1][8][10] - FG-CLIP在12个下游任务中显著优于原始CLIP及其他先进方法 特别是在长文本理解和细粒度比对任务上实现大幅突破 [8][10][78] - 模型采用两阶段训练策略 结合全局对比学习与区域对比学习 并引入难细粒度负样本学习机制 提升细粒度特征感知能力 [32][39][42] - 使用经多模态大模型优化的LAION-2B数据集 包含1200万张图像和4000万个边界框标注 数据质量显著提升 [47][60][70] - 研究团队将全面开源模型及相关数据 推动领域发展 [11][99] 技术突破 - 突破传统CLIP的77个token文本长度限制 支持长文本细节描述处理 [14] - 解决全局对齐导致的局部细粒度信息忽略问题 实现区域-文本精准对齐 [15][40] - 通过难细粒度负样本学习策略 增强模型对细微差异的区分能力 [42][44][67] - 采用RoIAlign技术提取区域特征 结合平均池化获取区域级视觉表征 [40] 数据构建 - 使用CogVLM2-19B重新生成LAION-2B数据集标注 描述信息密度大幅提升(例如"一只鸟"优化为"一只红翼黑鸟栖息在公园的树枝上") [47][51][52] - 构建包含1200万张图像和4000万个边界框的高质量视觉定位数据集 [60][70] - 借助Llama-3.1-70B为每个正样本生成10个负样本 负样本质量达标率98.9% [64][66] - 数据处理调用160×910B算力的NPU集群 30天内完成全部工作 [53][71] 性能表现 - 在细粒度理解、开放词汇对象检测、长短文本图文检索及通用多模态基准测试中均显著领先 [8][78][87] - 零样本测试中 Top-1和Top-5准确率表现最佳 证明局部区域分类能力突出 [80][82] - 开放词汇目标检测任务中作为Backbone表现突出 验证深层任务适配性 [84][85] - 可视化分析显示能准确识别小目标(如"Black nose")并稳定定位图像中不同目标 [89][93] 应用价值 - 长文本描述提供丰富背景信息与复杂查询能力 支持跨模态深度语义匹配 [18][20] - 局部特征分析增强复杂环境适应性 在遮挡场景中仍能准确推断对象状态 [24][25][26] - 细微差异理解提升下游任务精度 包括视觉问答、医学影像诊断及情感分析等 [29][31] - 在监控、自动驾驶、产品质量控制等需细致图像分析的领域发挥关键作用 [27]
告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解