Workflow
视觉信息衰减
icon
搜索文档
语言先验「基础过强」,MLLMs 视觉衰减有何解?
机器之心· 2025-11-01 02:30
MLLMs存在文本主导的注意力偏差 - 多模态大模型存在模态失衡问题,其内在注意力分配机制存在系统性偏差,过度依赖语言先验并系统性地轻视或忽略同时输入的视觉信息[5] - 在复杂推理场景中,模型经常倾向于仅基于文本上下文生成输出,即使图像中包含丰富的、与文本相关甚至矛盾的关键信息[5] - 这种现象普遍存在于以大规模预训练语言模型为核心骨干的各类MLLMs中,包括视觉-语言、音频-语言等多种模态对[5] 视觉信息在长推理链中衰减 - 随着推理链的延长,模型对图像内容的关注显著下降,而对指令等语言token的注意力显著增强,导致生成过程越来越依赖语言线索而非图像内容[5] - 相较于非推理模型,R1类推理模型在生成过程中显著减少了对视觉token的关注,将大量注意力分配给指令token与语言上下文[6] - 这种“注意力迁移”随着推理链条的延展而逐层加剧,即越往后层,模型越倾向于忽略图像输入,而完全依赖语言信号进行推理[6] 模态失衡问题的根源 - MLLMs的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡,其核心是经过万亿级预训练的文本数据,赋予了模型强大的语言先验[8] - 尽管视觉特征通过视觉编码器进行了高维表示,但与语言特征空间相比其代表性不充足,在跨模态注意力过程中容易被忽略或抑制[8] - 模型训练时倾向于采用偏向语言的“捷径学习”策略,通过学习文本中的统计模式而非依赖复杂的视觉信息来预测答案[9]