旋转位置编码 (Rotary Position Embedding
搜索文档
从 LLaVA 到 Qwen3-VL,解构多模态大模型的演进之路
自动驾驶之心· 2025-12-09 00:03
多模态大模型(MLLM)的技术演进与核心架构 - 行业正经历从纯文本模型向能听、会看、可交互的“智能体”的深刻变革,AI通过多模态大模型(MLLM)开始感知和理解物理世界[1] - 在MLLM的赛道上,主要涌现出两条技术路线:以“大道至简”为核心的LLaVA系列和奉行“深度融合”设计思想的Qwen3-VL[2] MLLM的“三位一体”黄金架构 - 绝大多数主流多模态大模型遵循一个共同的“三位一体”架构,包括视觉编码器(眼睛)、大语言模型(大脑)和连接器(灵魂之桥)[3] - **视觉编码器(Vision Transformer, ViT)**:负责将输入的像素世界转化为机器能理解的数学表达(特征向量),其核心是将图像分割成不重叠的小方块(Patches)并进行编码[5][7] - **大语言模型(LLM)**:作为系统的“思考中枢”,负责最终的认知、推理和内容生成,接收融合了视觉与文本信息的序列进行思考[5][17] - **连接器(Connector)**:核心使命是将ViT输出的视觉特征精准投影到LLM能够理解的同一向量空间中,以解决“模态鸿沟”[6][32] AI的“眼睛”:Vision Transformer (ViT) 技术细节 - ViT的工作流程分为四步:图像分块、展平与线性投影、添加上下文信息、核心处理引擎(Transformer Encoder)[9][10][12][15] - 在图像分块步骤中,一张224x224像素的图像若使用16x16大小的图块分割,将被转换为总计196个图像块的一维序列[9] - 为让模型理解图像块的空间位置,现代ViT架构广泛采用旋转位置编码(RoPE),其通过旋转方式将位置信息动态融入注意力机制,具备极强的尺寸泛化能力[13][14] - ViT中的2D-RoPE与LLM中的1D-RoPE存在根本区别,前者需同时编码高度和宽度两个维度的信息,实现更为复杂[14] AI的“大脑”:大语言模型(LLM)的运作机制 - LLM接收的输入是一个融合了视觉与文本信息的一维长序列,例如196个视觉词元与5个文本词元拼接成的201长度序列[20][21] - LLM基于多模态上下文进行自回归生成,像滚雪球一样迭代预测下一个最有可能出现的词元,直到生成终止符[24][25] - 解码策略是一门艺术,主要包括:速度最快但可能陷入局部最优的贪婪解码、平衡质量与成本的束搜索(Beam Search)、以及增加多样性的采样策略(如Top-p采样)[26][27][29] - 作为“大脑”的LLM自身也在进化,以Qwen3-VL为代表的新一代MLLM,其语言模型部分开始采用更先进的混合专家(MoE)架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 灵魂之桥:“连接器”的设计哲学 - 连接器的设计主要分为两大流派:以LLaVA系列为代表的“极简线性翻译官”和以BLIP-2模型为代表的“主动型信息提炼师”Q-Former[34][36][38] - **极简线性翻译官**:通常是一个简单的多层感知机(MLP),核心任务是进行线性维度变换,将视觉特征映射到LLM的隐藏空间,依赖强大的LLM和海量数据完成融合[36][37] - **主动型信息提炼师(Q-Former)**:核心机制包括可学习的查询向量(Learnable Queries)和交叉注意力(Cross Attention),旨在进入LLM前对视觉信息进行深度提炼与压缩[40][42][45] - Q-Former通过一组固定数量(如32个)的可学习查询向量,像专家分析师一样从冗长的原始视觉特征(如196个)中提炼出信息高度浓缩的摘要向量,极大减轻了LLM的计算负担[43][44][51] 从像素到文字的完整数据旅程 - 数据从输入到输出的全过程是一场数据形态与矩阵维度的变换之旅,可通过具体示例追踪每一步的变化[48][49] - 以一张224x224的RGB图像和问题“What is in the image?”为例,其处理步骤包括:原始像素矩阵[1, 3, 224, 224] -> ViT分块后序列[1, 196, 768] -> ViT输出特征[1, 196, 768] -> 连接器投影对齐[1, 196, 4096] -> 文本嵌入[1, 5, 4096] -> 多模态拼接输入[1, 201, 4096] -> LLM生成输出答案[21][52] - 最关键的转变发生在多模态拼接步骤,视觉与文本词元被物理拼接,形成一个统一的“多模态现实”输入序列,使LLM的自注意力机制能实现真正的图文深度理解[21][58] 解决高分辨率处理矛盾的两条技术路线 - 面对让模型处理高分辨率信息而不牺牲效率的核心矛盾,业界探索出两条主要技术路线[54] - **路线一:LLaVA的AnyRes**:奉行“扩展输入边界”哲学,通过在输入端进行巧妙的工程设计,使模型能处理任意分辨率的图像[55] - **路线二:Qwen3-VL的DeepStack**:奉行“精巧设计,架构致胜”哲学,对模型核心架构进行改造,构建多层次的信息深度融合系统[64] 路线一详解:LLaVA的AnyRes技术 - LLaVA-1.5-HD采用“全局+局部”协同策略:将高清大图分割成多个高清晰度图块以保留局部细节,同时将原图降采样获得低分辨率全局概览图以提供上下文,最后将两路特征拼接送入LLM[56][59][62] - LLaVA-OneVision提出更先进的Higher AnyRes策略,通过双线性插值在特征空间中“缝合”离散图块,重建高分辨率特征图以更好地保留文档布局等空间关系,提升在文档视觉问答等任务上的表现[60][68] - LLaVA系列的演进展现了其通过迭代AnyRes这一前端技术,在不改动核心架构的前提下解决高分辨率处理难题的工程智慧[63] 路线二详解:Qwen3-VL的DeepStack技术 - DeepStack技术的核心是将视觉词元深度堆叠或注入到模型内部的不同层级,实现高效的深度融合,其提出两种模式:DeepStack-L(注入LLM)和DeepStack-V(注入ViT)[64][69] - Qwen3-VL采用DeepStack-L思想,将视觉信息深度注入到LLM的处理流程中,从视觉编码器的指定中间层(如第8、16、24层)提取特征,注入到LLM解码器的前几个浅层中[66][97] - 实验依据表明,LLM的浅层更适合处理和融合相对原始的视觉特征,注入起始层越靠前(如0~4层)、间隔约2或3层、总共注入约4个层时效果最优[71][76] - 实现上异常简洁高效,核心逻辑是在Transformer层循环中增加条件判断和一次原地加法,计算开销极小[72][74] - Qwen3-VL的适配更为高效,直接从处理标准输入的同一个Vision Tower的中间层提取特征,无需额外的高分辨率图像编码过程[75][99] LLaVA系列架构全景剖析 - LLaVA系列是其核心哲学“简洁即正确”的完美诠释,证明了极简架构在海量数据和聪明工程驱动下的强大力量[80] - LLaVA 1.0版本架构极其简洁:采用预训练的CLIP ViT-L作为视觉编码器,基于LLaMA/Vicuna作为语言模型,连接器仅为一个单层线性投影层[81][83][87] - LLaVA-1.5进行了务实迭代:将连接器升级为两层MLP,将视觉编码器输入分辨率提升至336x336,并引入更大规模的指令微调数据集[84][88] - LLaVA-OneVision达到演进高峰,通过海量多样化数据和优化的Higher AnyRes技术,将简洁理念从静态图像无缝扩展至动态视频,成为首批实现图像与视频统一处理的开源模型之一[92] Qwen3-VL架构全景剖析 - Qwen3-VL代表了“精巧设计,架构致胜”的路线,对模型核心架构进行深度改造以实现视觉与语言的持续深度交互[93] - 其架构实现了从“入口拼接”到“多层注入”的范式转变,视觉信息的处理和融合方式更为复杂精巧[94][96] - 代码演进清晰展示了其哲学转变:Qwen3-VL引入了`deepstack_merger_list`模块以实现DeepStack,并将语言模型升级为采用混合专家(MoE)架构的`Qwen3VLMoeTextModel`[98][101] - 除DeepStack外,Qwen3-VL还集成了多项前沿技术,如更先进的多维旋转位置编码MRoPE-Interleave和文本时间戳对齐机制,共同构成其技术护城河[101] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但殊途同归,共同推动了MLLM的性能边界,并指向实现视觉与文本更深层次、更无缝统一的方向[103][104] - 未来清晰的发展趋势包括:从“感知”迈向“推理与执行”,发展出能操作界面、调用工具的视觉智能体能力;拥抱动态与三维世界,原生支持长视频理解和3D空间定位;以及走向真正的多模态统一,在预训练早期进行多种模态数据的协同训练[107]
从 LLaVA 到 Qwen3-VL:解构多模态大模型的演进之路
自动驾驶之心· 2025-12-08 00:02
作者 | 我要吃鸡腿 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1963658684765833212 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 引言:当 AI 睁开双眼,我们看到了一个怎样的未来? 曾几何时,我们对人工智能的印象还停留在那个聪慧但略显"盲目"的"数字大脑"上——它能写诗、能编程、能回答深奥的哲学问题,但这一切都局限 于冰冷的文本世界。然而,就在最近两年,一场深刻的变革正在悄然发生。 您或许已经惊叹于 GPT-5 那般流畅自如的实时图片对话,它能"看到"您房间的布局并给出整理建议;又或者,您可能对 Qwen3-VL 直接"注视"着手 机屏幕、精准地点击按钮、操作应用程序的能力感到不可思议。AI 不再仅仅是一个"只会读书"的语言模型,它正在进化成一个能听、会看、可交互 的"智能体",真正地睁开了双眼,开始感知和理解我们所处的这个五彩斑斓的物理世界。 这场从"符号"到"感知"的飞跃,背后究竟隐藏着怎样的技术密码 ...