用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
量子位·2025-10-03 04:19

多模态大模型LIRA的技术突破 - 华中科技大学与金山办公团队联合提出多模态大模型LIRA,该模型在图像分割与视觉理解两项任务上均取得SOTA性能 [3][6] - LIRA的核心创新在于引入了两个新模块:语义增强特征提取器(SEFE)与交错局部视觉耦合(ILVC) [3] - 与InternVL2相比,LIRA在保持理解性能的同时,额外支持图像分割任务;与OMG-LLaVA相比,LIRA在图像分割任务上平均提升8.5%,在MMBench上提升33.2% [7] 现有技术痛点与LIRA的解决方案 - 现有模型如OMG-LLaVA和LISA存在分割结果不够精确、理解过程出现幻觉两大痛点,源于物体属性理解不足与细粒度感知能力局限 [1][2] - 语义增强特征提取器(SEFE)通过融合高层语义特征与细粒度像素特征,增强模型的属性理解能力,从而提升分割精度 [4][24][25] - 交错局部视觉耦合(ILVC)通过显式绑定局部图像区域与对应文本描述,为模型提供细粒度监督,从而有效减少理解幻觉 [5][24][26] 技术细节与工作原理 - SEFE模块融合了预训练多模态大模型的语义编码器和分割模型的像素编码器,通过多头交叉注意力机制融合特征后送入大语言模型 [28][29] - ILVC模块的工作流程为:使用token生成分割掩码,基于掩码裁剪图像区域并调整大小,输入SEFE提取局部特征,再将特征输入大语言模型生成区域描述,以此建立局部图像与文本的显式联系 [33][34] - 研究团队将根据用户查询和图像信息理解物体属性以实现准确分割的过程,定义为“推理分割”(Inferring Segmentation) [21][22] 实验性能与数据验证 - 在多个基准测试中,LIRA-8B模型在理解任务上表现优异,例如在VizWiz得分71.5、VQAv2得分80.4、MMB-en得分81.1、MMB-cn得分80.5 [36] - 在分割任务上,LIRA-8B模型在RefCOCO的TestA集得分83.4,在RefCOCO+的TestA集得分81.1,在RefCOCOg的Test集得分78.2 [36] - 消融实验证明SEFE模块有效:在InternLM2-1.8B骨干网络上,增加SEFE使VizWiz得分从62.7提升至67.0,VQAv2得分从71.1提升至76.1 [37] - ILVC模块能有效降低幻觉率:在ChairS数据集上,使用ILVC后,1.8B和7B规模模型的幻觉率分别降低了3.0%和4.8% [38] - 联合训练验证:LIRA-2B同时用理解数据和分割数据进行联合训练,性能仅较单独用理解数据训练略微下降0.2%,显著优于OMG-LLaVA在五个理解数据集上近15%的性能下降 [40][41] 行业意义与未来展望 - 该研究将多模态大模型的能力从视觉理解拓展至像素级分割,实现了理解与分割任务性能的协同提升 [9][43] - 研究团队探讨了token在分割任务中的作用,发现其logits能够准确反映被分割物体的属性,推测其可能蕴含更丰富的物体语义信息 [20][42] - 该工作为在细粒度多模态大模型中缓解幻觉提供了新视角,并为后续相关探索提供了启示 [43] - 该项目论文已被ICCV 2025录用 [8]