2024年多模态大模型(MLLMs)轻量化方法研究现状和展望报告
中移智库·2024-12-20 08:25

多模态大语言模型概述 - 多模态大语言模型主要由三个核心模块组成:视觉编码器、预训练大语言模型、以及视觉-语言投影器[1] - 轻量化多模态大语言模型的优化措施主要集中在对上述三个模块的改进,并引入了视觉 token 压缩技术和高效的结构设计[1] 多模态大语言模型轻量化方法研究现状 三个核心模块优化 - 视觉-语言投影器:是连接视觉与文本桥梁,其核心功能是将视觉特征块映射至文本特征空间。针对此模块的轻量化,包括四种:一是基于注意力。如 BLIP2[7]引入了 Q-Former,一个轻量级的 Transformer,使用一组可学习的查询向量从冻结的视觉模型中提取视觉特征。二是基于 CNN。如 MobileVLMv2[8]提出的 LDPv2,通过使用逐点卷积层、平均池化和带有跳跃连接的 PEG 模块,LDPv2 减少了 99.8%的参数,在效率上取得了更好的表现。三是基于 Mamba。如 VL-Mamba[9]在其视觉-语言投影器中实现了 2D 视觉选择性扫描(VSS)技术,促进了多种学习方法的融合。四是混合结构。如卷积抽象器通过使用卷积结构高效地建模局部上下文,有助于将视觉特征抽象为任意平方数的视觉 token[15] - 专家混合模型:专家混合模型通过调节模型参数的总数来增强模型容量,同时保持激活参数不变,从而不会显著影响推理速度。MoE-LLaVA[12]提出了一种基于专家混合模型的稀疏多模态大语言模型框架,能够有效增加参数数量,而不影响计算效率[16] - 多尺度信息融合:利用多尺度图像信息对视觉特征提取至关重要。这种方法使模型能够捕捉较小尺度中的细粒度细节和较大尺度中的广阔背景。例如 Mini-Gemini 模型[11]包括两个编码器,一个用于高分辨率图像,另一个用于低分辨率视觉嵌入。它提出了块信息挖掘,通过低分辨率视觉嵌入作为查询,通过跨注意力从高分辨率候选中检索相关的视觉线索[18] 视觉 token 压缩 - 视觉 token 压缩旨在减少由大量 token 引起的计算量,当前已经成为多模态大语言模型轻量化的关键。通过以下几种关键技术来实现:视频特定方法:视频理解还需要处理大量帧,这可能会突破大语言模型的上下文窗口处理能力,带来巨大计算负担[2] - 多视图输入:为了利用低分辨率视觉编码器处理高分辨率图像,一种常见的方法是输入高分辨率图像的低分辨率全局视图,和通过分割高分辨率图像获得局部视图。例如,LLaVA-UHD[5]提出了一种图像模块化策略,将原始分辨率图像划分为更小的可变大小切片,以实现高效且可扩展的编码[30] 高效的结构 - 高效的结构是通过优化模型结构或算法设计,以更少的资源实现相近甚至更高的性能,是多模态大语言模型轻量化的关键探索方向。主要包括三个方向:专家混合模型(MoE)、Mamba 和推理加速[63] - 推理加速:在模型推理阶段,根据不同的任务特性,调整模型架构,加快推理速度。SPD[14]提出了通过仅使用语言模型进行推测解码,以提高推理效率,通过将语言模型作为推测性解码模型,跳过了图像 token 及其相关处理组件的需求[26] - Mamba: Mamba[21]是一种新型的高效序列建模方法,专为高效处理信息密集型数据(如语言建模)而设计。Cobra[13]将 Mamba 语言模型融入视觉模态,并探索多模态融合方案,开发了一种高效多模态 Mamba。实验显示,其性能与先进方法相当且速度更快,能克服视觉错觉和空间关系判断难题,在预测基准中性能媲美 LLaVA,但参数仅用 43%[48] 展望 - 轻量化的多模态大语言模型将赋予终端设备更高效、更智能且多模态的处理能力,使智能设备得以与现实世界无缝互动。特别在机器人领域,轻量化多模态大语言模型将极大提升机器人对环境理解的准确性,增强任务执行的效率,并促进人机之间更加自然流畅的交流与协作[50][3] - 轻量化的多模态大语言模型在处理多模态信息时面临挑战,通常仅能接受单一图像,这限制了能够处理更多元模态标记的复杂模型的进一步拓展。而这类复杂模型对于对于理解长视频和分析包含图像与文本混合的长篇文档等应用场景有着极为关键的价值,可以创造出更为多功能和强大的系统[70] - 未来,通过扩大高效多模态大语言模型的输入模态范围,以适应更多样化的输入类型,并增强其生成能力,将显著增强其多功能性,并拓宽其应用领域[70]