AnyRes
搜索文档
从 LLaVA 到 Qwen3-VL:多模态大模型主流架构的演进之路
自动驾驶之心· 2025-12-03 00:04
多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型到能感知和理解物理世界的多模态智能体的深刻变革,其核心驱动力是多模态大模型(MLLM)的架构革命 [3] - 当前主流MLLM普遍遵循“三位一体”的黄金架构,由视觉编码器(AI的“眼睛”)、大语言模型(AI的“大脑”)和连接器(“灵魂之桥”)三部分协同工作 [6][10] MLLM“三位一体”架构详解 - **视觉编码器(ViT)**:作为AI的“眼睛”,其核心是将图像视为序列化文本进行处理,例如将一张224x224像素的图像分割成196个16x16的图块,并转换为768维的视觉词元序列 [11][13][14] - **大语言模型(LLM)**:作为AI的“大脑”,负责最终的认知、推理和表达,其输入是视觉与文本特征拼接后的融合序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列 [22][24] - **连接器(Connector)**:作为沟通桥梁,负责将视觉特征投影到LLM能理解的语义空间,例如将[1, 196, 768]维的视觉特征转换到[1, 196, 4096]维的空间 [36][37] 处理高分辨率图像的核心矛盾与两条技术路线 - 行业面临的核心挑战是如何让模型在不牺牲效率的前提下处理高分辨率图像的细节信息,直接处理会导致视觉词元序列过长,计算复杂度呈平方级增长 [64] - **路线一(LLaVA系列)**:奉行“扩展输入边界”的哲学,通过AnyRes等前端工程技术解决高分辨率问题,例如LLaVA-1.5-HD采用“全局概览图+高清局部图块”双路处理并拼接特征的策略 [65][66][67][68][69] - **路线二(Qwen3-VL系列)**:奉行“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的不同层级,实现高效的多层次融合 [74][75][78] LLaVA系列架构演进分析 - LLaVA系列是“大道至简”设计哲学的典范,其初代版本使用极简的单层线性投影作为连接器,证明了简洁架构在海量数据驱动下的有效性 [90][93] - 该系列通过务实的迭代持续提升性能,例如LLaVA-1.5将视觉编码器输入分辨率从224x224提升至336x336,并将连接器升级为两层MLP [94][99] - 其核心突破在于AnyRes技术,通过巧妙的输入预处理(如切块、降采样、双线性插值)来应对高分辨率挑战,并最终将能力扩展至视频等多模态统一处理 [96][100][101] Qwen3-VL系列架构演进分析 - Qwen3-VL是“精巧设计,架构致胜”路线的集大成者,其架构实现了从“入口拼接”到“多层注入”的范式转变,构建了视觉与语言深度协同的系统 [102][105] - 其核心技术DeepStack基于实验数据优化,例如实验表明从LLM的第0~4层(浅层)开始注入视觉特征效果最佳,注入间隔为2或3层,总计注入约4个层时性能最优 [80][81] - 该模型集成了多项前沿架构创新,包括直接从同一视觉编码器中间层(如第8、16、24层)提取特征进行注入的高效DeepStack实现、混合专家(MoE)语言模型以及更先进的MRoPE-Interleave位置编码 [85][107][110][111] 行业未来发展趋势 - 多模态大模型的发展正朝着真正的多模态统一迈进,未来可能在预训练早期就进行视觉、语言、音频等多模态数据的协同训练 [115] - 模型能力将从“感知”走向“推理与执行”,发展为能够操作界面、调用工具完成复杂任务的视觉智能体(Visual Agent) [118] - 行业下一个重点将是拥抱动态与三维世界,实现长视频的完整理解、秒级时间定位以及从2D图像还原真实世界3D信息的能力 [118]