中心动态重分配哈希,北邮团队提出并开源CRH项目 | AAAI 2026
AI前线·2025-12-05 01:29

核心观点 - 北京邮电大学、北京航空航天大学和中国电信等机构联合提出了一种名为“中心重分配哈希”的端到端框架,该框架通过在训练哈希函数的同时动态重分配哈希中心,实现了语义感知的哈希中心与哈希函数的联合优化,显著提升了大规模图像检索的精度和语义一致性 [2] - 该方法解决了现有基于哈希中心的方法忽略类间语义关系,以及两阶段方法计算开销大、存在阶段间偏差的问题,无需复杂的预训练或离线优化阶段 [2][4] - 该论文已被AAAI 2026收录,代码已开源,为哈希学习领域提供了新的思路和可复现基础 [2] 技术背景与现有方法 - 图像哈希因其高效计算和紧凑存储,成为大规模图像检索的核心技术,深度哈希方法已显著超越传统浅层方法 [3] - 现有深度监督哈希方法主要分为三类:计算复杂度高(O(N)或更高)的成对方法、三元组方法,以及性能有限的早期点态方法 [3] - 近年来基于哈希中心的点态方法受到关注,但哈希中心通常随机初始化,忽略了类间语义相关性 [4] - 为解决此问题,SHC等方法采用两阶段策略,但引入了高计算开销、破坏了端到端可训练性,且基于分类的相似性估计可能偏离检索目标 [4] CRH方法核心框架 - CRH的核心思想是迭代地更新哈希中心的分配,使其逐步对齐类间语义关系,整体框架分为哈希码本初始化、哈希函数优化和哈希中心重分配三个关键组件 [6] - 哈希中心初始化:构建一个包含M个候选哈希中心的哈希码本,每个中心是K维二值向量,码本通过均匀采样生成以确保汉明距离足够大,初始时随机选择C个中心分配给各个类别 [10] - 哈希函数训练:使用深度神经网络将输入图像映射到松弛哈希码,损失函数结合了边际交叉熵损失和量化损失 [12][14][15] - 哈希中心重分配:在训练过程中定期重新分配哈希中心,基于样本当前哈希码计算每个类别与码本中心的平均距离作为分配误差,形成成本矩阵,然后使用贪心或匈牙利算法优化中心分配以最小化总距离 [17][18] - 多头机制:为增强中心的语义表达能力,将每个K维向量分割为H个头,每个头独立进行中心重分配,最终中心通过拼接得到,这在不增加码本实际大小的情况下,将码本容量从M扩展到M^H [20] - 整个算法流程交替执行哈希函数优化和中心重分配,实现端到端学习 [21][22] 实验性能与结果 - 实验在Stanford Cars、NABirds和MS COCO三个基准数据集上进行,评估指标为平均精度mAP [23] - CRH在所有数据集和码长上均优于现有先进方法,在Stanford Cars、NABirds和MS COCO数据集上,比基线的最好结果分别相对提升了2.1%~2.6%,4.8%~6.6%和0.4%~4.5% [24][25] - 在包含更多类别的NABirds数据集上提升尤为显著,说明CRH能有效处理细粒度语义关系 [25] 消融研究与稳健性分析 - 消融实验验证了中心重分配和多头机制的有效性,移除中心重分配的变体CRH-U性能显著下降,平均mAP相对保留重分配的CRH-M降低1.76%~3.08% [27][33] - 移除多头设计的变体CRH-M性能优于CRH-U但低于完整的CRH,证明多头能进一步细化语义表示 [27][33] - CRH对初始化和贪心算法引入的随机性的稳健性高,多次运行的mAP标准差极低(<0.4%),表明方法稳定 [29][30] - 相同初始化下,贪心算法比匈牙利算法更优,兼顾了性能和效率 [30] 语义质量与参数分析 - 通过计算哈希中心两两间相似度与基于CLIP的视觉表征相似度的Pearson相关系数评估语义对齐程度,CRH学习到的哈希中心PCC显著高于无语义的基线以及两阶段方法SHC [32][34] - 分析揭示了mAP与PCC的正相关关系,即更好的语义对齐通常带来更优的检索性能 [35] - 参数分析关键发现:码本大小M=2C时平衡性能和效率;头维度d的最佳值为满足d≥log2 M的2的最小幂次;更新频率在前期较频繁可提升PCC和mAP,后期可放宽间隔以降低计算 [43]