ViLAMP

搜索文档
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 09:06
核心观点 - 蚂蚁和人大研究团队提出视觉语言大模型ViLAMP 通过混合精度策略实现对超长视频的高效处理 在单张A100 GPU上可处理10,000帧视频 并在多个视频理解基准上全面超越现有方案[1][2][9] 技术原理 - 视频信息在时空维度均呈现稀疏性与冗余性 90%注意力仅分布在不到5%的视频帧上 50%的patch承载80%的模型注意力[7][19] - 提出差分蒸馏原则 识别并保留高查询相关性且低信息冗余的重要视频信息[8] - 采用双层混合精度架构:差分关键帧选择(DKS)实现关键帧高效识别 差分特征合并(DFM)将非关键帧压缩为单个信息量最大化的token[12][13][14] 性能表现 - 以7B参数量达到或超越部分70B量级模型表现 在Video-MME长视频子集上比现有最优模型提升4.8%[17] - 在VideoNIAH任务中处理10K帧视频保持58.15%准确率 超越VideoChat-Flash基线模型12.82%[18] - 内存消耗相比LLaMA-VID基线降低约50% 在8,192帧情况下计算量减少80%以上[20] 效率突破 - 可在单张A100 GPU上连续处理10,000帧视频 按每秒1帧计算约3小时内容[2] - DKS在长视频场景下表现明显优势 DFM相比特征融合方案在所有数据集上展现3个百分点以上性能优势[20] 应用前景 - 突破长视频处理计算瓶颈 为在线教育 视频监控 直播分析等实际应用场景带来新的可能[2][22] - 相关论文已被ICML 2025接收 提供新的研究思路和实用价值[2][22]