跨模态知识解耦与对齐
搜索文档
AAAI 2026|新突破:北大彭宇新团队提出可见光-红外终身行人重识别方法CKDA
机器之心· 2025-12-06 04:08
研究背景与问题定义 - 终身行人重识别旨在通过持续学习新增数据中的新信息,同时保持对已知数据的识别能力,在公共安防、社区管理、运动分析等领域有重要价值 [2] - 在可见光-红外终身行人重识别场景中,现有方法在持续学习特定模态新知识时,会阻碍跨模态公共旧知识的保留,导致单模态专用知识获取与跨模态公共知识保留之间存在冲突 [2][9] 核心技术方案 - 北京大学彭宇新教授团队提出跨模态知识解耦与对齐方法CKDA,核心思想是避免可见光与红外模态知识的互相干扰,实现跨模态知识的高效平衡 [11] - CKDA包含三个核心模块:1) 跨模态通用提示模块,用于提取并净化两种模态共存的鉴别性知识;2) 单模态专用提示模块,用于促进特定模态知识的保留与净化;3) 跨模态知识对齐模块,在独立特征空间中对齐解耦后的新旧知识 [12] - 跨模态通用提示通过实例归一化缓解模态间风格差异,并自适应融合特征以提升通用知识的鉴别性与一致性 [14][16] - 单模态专用提示通过优化提示损失,促进特定模态知识的保留 [22] - 跨模态知识对齐通过构建并利用旧知识原型,在模态内与模态间特征空间分别对齐新旧知识,以缓解灾难性遗忘 [23][25] 实验结果与性能 - CKDA方法在由四个常用可见光-红外行人重识别数据集组成的终身学习基准上均取得了当前最优性能 [3] - 具体而言,CKDA的平均mAP达到36.3%,平均R1达到39.4%,优于所列的所有对比方法 [28] - 可视化结果表明,跨模态通用提示关注两种模态共存的行人整体轮廓和体态信息,而单模态专用提示关注特定模态知识,两者以互补方式提升模型感知能力 [29][30]