Temporal - enhanced Relation - aware Knowledge Transferring

搜索文档
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
机器之心· 2025-09-03 08:33
研究团队与论文背景 - 论文由北京大学王选计算机研究所团队完成 第一作者为博士生徐铸 通讯作者为博士生导师刘洋 团队在TPAMI、IJCV、CVPR、ICML等顶会发表多项成果[2] - 研究主题为弱监督动态场景图生成 论文标题《TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring》[2][6] - 该研究已被ICCV 2025接收 相关代码与模型已全部开源[3][6] 研究问题与瓶颈 - 当前弱监督动态场景图生成方法依赖外部预训练目标检测器 但在动态场景中检测质量欠佳 存在物体定位不准和置信度过低问题[5] - 目标检测质量成为性能主要瓶颈 实验显示使用不同检测结果会使场景图性能产生显著差异[5][8] 方法创新与技术细节 - 提出时序增强关系敏感知识迁移方法(TRKT) 通过关系敏感知识挖掘和双流融合模块提升检测质量[8][10] - 关系敏感知识挖掘模块生成类别特定注意力图 利用光流信息进行时序增强 使注意力图具备运动感知能力[10][14] - 双流融合模块包含定位修正模块(LRM)和置信度提升模块(CBM) 分别优化检测框定位精度和置信度分数[15][17][19] - 通过加权框融合算法整合内部物体候选与外部检测结果 最终输出修正后的检测结果[17][20] 实验结果与性能对比 - 在目标检测指标上显著提升:Average Precision从11.4提升至23.0(提升13.0%) Average Recall从32.5提升至28.8[23] - 在动态场景图生成任务中全面超越基线:有约束条件下Recall@50从25.79提升至27.45 无约束条件下从31.69提升至33.92[24][25] - 消融实验验证各模块有效性:单独使用CBM提升AP 1.2% 单独使用LRM提升AP 2.0% 组合使用提升AP 2.8% 加入帧间注意力增强(IAA)后进一步提升AP 8.9-10.6%[27][28] 对比分析与优势体现 - 显著优于现有弱监督方法PLA和NL-VSGG 也超越视觉语言模型RLIP和RLIPv2[24][25][26] - 可视化结果显示生成场景图更完整 人物定位更准确 证明方法有效提升伪标签质量[31]