Workflow
Vision Transformers(ViTs)
icon
搜索文档
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
机器之心· 2025-11-19 04:07
文章核心观点 - 香港大学团队提出一种名为PH-Reg的新型方法,旨在高效解决Vision Transformers模型密集特征中的伪影问题,该方法无需数据标记且计算资源消耗低 [2] - PH-Reg方法结合测试时增强的去噪策略和自蒸馏框架,能够灵活应用于CLIP、DINOv2等多种模型架构,显著提升下游任务性能 [2][3][6] 技术方法 - 采用免训练去噪算法,利用图像增强处理时伪影不会同步偏移的特性,在无需梯度反向传播的情况下生成无伪影密集特征 [10] - 通过自蒸馏框架,仅针对性更新学生模型中的register tokens、卷积层等少量参数,最大限度保留预训练权重核心信息并节省计算资源 [11] 性能表现 - 在开放词汇语义分割任务中,PH-Reg在八个基准数据集的七个上性能超越MaskCLIP、SCLIP等主流方法,例如在VOC21数据集上mIoU达到63.01,优于对比方法 [13][14] - 在线性探测任务中,PH-Reg为CLIP模型在VOC21数据集上的mIoU带来5.04%提升,在ADE20k数据集上提升3.64% [16][21] - 在深度估计任务中,该方法为预训练ViT骨干模型带来稳定性能提升,且参数量增加可忽略不计 [21] 效率优势 - 与DVT方法相比,PH-Reg训练时间从21908分钟减少至9000分钟,节省幅度超过58.9% [17][22] - 该方法可实时计算蒸馏目标,无需存储1.4 TB的神经场特征数据,显著降低存储需求 [22] 应用前景 - 该研究为未来大规模视觉模型的快速微调与蒸馏机制探索提供了新思路 [20] - 方法具备良好架构适配性,可直接应用于现有预训练模型,实现即插即用的性能提升 [3][19]