多模态场景理解

搜索文档
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
机器之心· 2025-06-12 00:53
多模态大模型学习新范式 - 提出Crab统一学习框架,通过数据和模型两个角度实现多模态场景理解任务的高效统一,超越垂类专家模型 [2][3][13] - 当前主流的多任务指令微调范式忽视多模态数据异质性和任务间复杂关系,联合训练可能导致任务相互干扰 [2][13] - 新范式明确任务间互助关系,在时序定位、空间定位、像素级理解和时空推理等任务上实现通用理解能力 [3][13][26] 数据集构建与特征 - 构建AV-UIE数据集,包含200K训练样本,涵盖九种任务,其中时序定位任务占比6.8%,空间定位任务占比25.8%,像素级理解任务占比41.6%,时空理解任务占比25.8% [20] - 数据集通过细化现有标签增加显示推理过程,包含具体时空信息,明确任务间互助关系 [16][18] - 采用in-context learning方式利用多模态大模型标注,辅以人工检查纠正,保证数据质量 [18] 模型架构与技术创新 - 设计Interaction-aware LoRA结构,采用共享A矩阵和多个不同LoRA Head B矩阵,每个Head学习数据交互的不同层面 [23] - 通过Router为不同任务分配权重,解耦模型能力,增强特定能力并建立任务间协助桥梁 [23] - 模型包含三个统一多模态接口,处理audio、visual和segmentation mask数据 [21] 实验性能对比 - 在AVE任务上准确率达到80.15%,超过AVT(75.80)、PSP(77.80)和MM-Pyramid(77.80)等专有模型 [27][28] - 在ARIG任务上cloU达到41.78,AUC达到0.42,超过LVS(23.69 cloU)、EZ-VSL(26.43 cloU)和FNAC(27.15 cloU)等专有模型 [28] - 在AVQA任务上平均准确率达到78.94%,超过ST-AVQA(71.59)、COCA(72.33)和PSTP-Net(73.52)等专有模型 [27][29] 任务类型与能力展示 - 时序定位任务要求模型输入音视频并定位时序片段,如找到发生的音视频事件 [5] - 空间定位任务要求模型输入音频和图像并定位发声物体位置 [7] - 像素级理解任务要求模型输入音频和图片并分割发声物体,包含S4、MS3、AVSS和Ref-AVS等多种分割任务 [9] - 时空推理任务要求模型输入乐器演奏音视频并回答相关问题,涉及时序和空间信息理解与推理 [8]