Workflow
LLM视觉先验
icon
搜索文档
读万卷书,大模型就能「看」懂视觉世界?Meta揭秘LLM视觉先验的起源
机器之心· 2025-10-11 04:18
研究核心发现 - 仅通过文本预训练的大语言模型能够学到可迁移到视觉任务的先验能力,该研究通过超过100组受控实验和耗费50万GPU小时完成 [2] - LLM的视觉先验可分解为两种独立能力:推理先验和感知先验 [4] - 推理先验是一种更抽象、跨模态的通用能力,主要通过预训练以推理为中心的数据(如代码、数学、学术论文)获得 [4] - 感知先验侧重于对具体视觉概念的认知(如物体颜色、形状),从广泛、多样的通用语料中弥散式地浮现出来 [6] 实验设计与关键结论 - 实验采用adapter-style多模态适配流程,预训练多种尺度的解码器式LLM(从340M到13B,核心对比以3B/7B模型为主) [9] - 在代码、数学和学术数据上训练的模型,在需要抽象推理的视觉任务上表现最好 [9] - 增加推理密集型文本(如代码)的比例至75%左右,模型的下游视觉推理能力会持续显著提升;而视觉描述文本的效果会迅速饱和,少量即可 [11] - 推理先验是独立于视觉编码器的通用能力,而感知先验更依赖于后期的视觉微调数据和视觉编码器特性 [13] 数据配方与应用前景 - 研究提出一套预训练数据混合配方,通过富含推理内容并配以适量视觉知识的“平衡配方”训练模型 [16][17] - 采用该配方训练的7B模型在语言能力上更优,同时在所有视觉基准测试中实现全面超越:语言困惑度从8.72降至7.49,视觉总体准确率从37.32%提升至38.64% [19] - 该研究将多模态模型能力培养从下游微调提前至语言预训练阶段,为构建更强大的跨模态智能基础铺平道路 [21]