CLIP模型

搜索文档
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
机器之心· 2025-08-20 00:15
研究背景与问题 - 当前HOI检测方法依赖视觉语言模型但受限于图像编码器难以捕捉细粒度区域级交互信息[2] - 传统方法基于固定类别训练数据无法应对现实中动态变化的交互组合[6] - 现有视觉语言模型基于图像级预训练难以捕捉人物与物体间细微的局部交互语义[6] 核心技术创新 - 提出交互感知提示与概念校准方法通过动态生成交互感知提示优化语言模型引导的概念校准[2] - 交互感知提示生成机制包含通用提示和交互特定提示采用低秩分解技术高效编码交互特征[15][19] - 概念校准机制结合GPT生成视觉描述和T5构建指导嵌入形成细粒度概念结构空间[14][16] - 引入困难负样本采样策略基于语义相似度采样帮助区分视觉相似但语义不同的动作[14][20] 性能表现 - 在SWIG-HOI全量测试集上取得16.74% mAP相较前一方法CMD-SE相对提升近10%[18][22] - 在HICO-DET数据集上Unseen类别达到17.38% mAP Seen类别达到24.74% mAP Full类别达到23.12% mAP[21] - 在细粒度交互如阅读浏览等场景展现出较强识别能力[18][23] 方法优势 - 能够聚焦关键交互区域如阅读时的眼部区域和冲浪时伸展的双臂[23] - 可检测与相对较小物体的交互如部分遮挡的书籍和相机[23] - 通过语义编码空间调整有效区分视觉相似概念如猛掷和抛投[7] 学术贡献 - 被ICCV 2025接收相关代码与模型已全部开源[4] - 打破预训练视觉语言模型在区域感知与概念理解上的瓶颈展现出语言模型知识引入计算机视觉任务的潜力[25]