Workflow
LLaVA
icon
搜索文档
从 LLaVA 到 Qwen3-VL,解构多模态大模型的演进之路
自动驾驶之心· 2025-12-09 00:03
多模态大模型(MLLM)的技术演进与核心架构 - 行业正经历从纯文本模型向能听、会看、可交互的“智能体”的深刻变革,AI通过多模态大模型(MLLM)开始感知和理解物理世界[1] - 在MLLM的赛道上,主要涌现出两条技术路线:以“大道至简”为核心的LLaVA系列和奉行“深度融合”设计思想的Qwen3-VL[2] MLLM的“三位一体”黄金架构 - 绝大多数主流多模态大模型遵循一个共同的“三位一体”架构,包括视觉编码器(眼睛)、大语言模型(大脑)和连接器(灵魂之桥)[3] - **视觉编码器(Vision Transformer, ViT)**:负责将输入的像素世界转化为机器能理解的数学表达(特征向量),其核心是将图像分割成不重叠的小方块(Patches)并进行编码[5][7] - **大语言模型(LLM)**:作为系统的“思考中枢”,负责最终的认知、推理和内容生成,接收融合了视觉与文本信息的序列进行思考[5][17] - **连接器(Connector)**:核心使命是将ViT输出的视觉特征精准投影到LLM能够理解的同一向量空间中,以解决“模态鸿沟”[6][32] AI的“眼睛”:Vision Transformer (ViT) 技术细节 - ViT的工作流程分为四步:图像分块、展平与线性投影、添加上下文信息、核心处理引擎(Transformer Encoder)[9][10][12][15] - 在图像分块步骤中,一张224x224像素的图像若使用16x16大小的图块分割,将被转换为总计196个图像块的一维序列[9] - 为让模型理解图像块的空间位置,现代ViT架构广泛采用旋转位置编码(RoPE),其通过旋转方式将位置信息动态融入注意力机制,具备极强的尺寸泛化能力[13][14] - ViT中的2D-RoPE与LLM中的1D-RoPE存在根本区别,前者需同时编码高度和宽度两个维度的信息,实现更为复杂[14] AI的“大脑”:大语言模型(LLM)的运作机制 - LLM接收的输入是一个融合了视觉与文本信息的一维长序列,例如196个视觉词元与5个文本词元拼接成的201长度序列[20][21] - LLM基于多模态上下文进行自回归生成,像滚雪球一样迭代预测下一个最有可能出现的词元,直到生成终止符[24][25] - 解码策略是一门艺术,主要包括:速度最快但可能陷入局部最优的贪婪解码、平衡质量与成本的束搜索(Beam Search)、以及增加多样性的采样策略(如Top-p采样)[26][27][29] - 作为“大脑”的LLM自身也在进化,以Qwen3-VL为代表的新一代MLLM,其语言模型部分开始采用更先进的混合专家(MoE)架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 灵魂之桥:“连接器”的设计哲学 - 连接器的设计主要分为两大流派:以LLaVA系列为代表的“极简线性翻译官”和以BLIP-2模型为代表的“主动型信息提炼师”Q-Former[34][36][38] - **极简线性翻译官**:通常是一个简单的多层感知机(MLP),核心任务是进行线性维度变换,将视觉特征映射到LLM的隐藏空间,依赖强大的LLM和海量数据完成融合[36][37] - **主动型信息提炼师(Q-Former)**:核心机制包括可学习的查询向量(Learnable Queries)和交叉注意力(Cross Attention),旨在进入LLM前对视觉信息进行深度提炼与压缩[40][42][45] - Q-Former通过一组固定数量(如32个)的可学习查询向量,像专家分析师一样从冗长的原始视觉特征(如196个)中提炼出信息高度浓缩的摘要向量,极大减轻了LLM的计算负担[43][44][51] 从像素到文字的完整数据旅程 - 数据从输入到输出的全过程是一场数据形态与矩阵维度的变换之旅,可通过具体示例追踪每一步的变化[48][49] - 以一张224x224的RGB图像和问题“What is in the image?”为例,其处理步骤包括:原始像素矩阵[1, 3, 224, 224] -> ViT分块后序列[1, 196, 768] -> ViT输出特征[1, 196, 768] -> 连接器投影对齐[1, 196, 4096] -> 文本嵌入[1, 5, 4096] -> 多模态拼接输入[1, 201, 4096] -> LLM生成输出答案[21][52] - 最关键的转变发生在多模态拼接步骤,视觉与文本词元被物理拼接,形成一个统一的“多模态现实”输入序列,使LLM的自注意力机制能实现真正的图文深度理解[21][58] 解决高分辨率处理矛盾的两条技术路线 - 面对让模型处理高分辨率信息而不牺牲效率的核心矛盾,业界探索出两条主要技术路线[54] - **路线一:LLaVA的AnyRes**:奉行“扩展输入边界”哲学,通过在输入端进行巧妙的工程设计,使模型能处理任意分辨率的图像[55] - **路线二:Qwen3-VL的DeepStack**:奉行“精巧设计,架构致胜”哲学,对模型核心架构进行改造,构建多层次的信息深度融合系统[64] 路线一详解:LLaVA的AnyRes技术 - LLaVA-1.5-HD采用“全局+局部”协同策略:将高清大图分割成多个高清晰度图块以保留局部细节,同时将原图降采样获得低分辨率全局概览图以提供上下文,最后将两路特征拼接送入LLM[56][59][62] - LLaVA-OneVision提出更先进的Higher AnyRes策略,通过双线性插值在特征空间中“缝合”离散图块,重建高分辨率特征图以更好地保留文档布局等空间关系,提升在文档视觉问答等任务上的表现[60][68] - LLaVA系列的演进展现了其通过迭代AnyRes这一前端技术,在不改动核心架构的前提下解决高分辨率处理难题的工程智慧[63] 路线二详解:Qwen3-VL的DeepStack技术 - DeepStack技术的核心是将视觉词元深度堆叠或注入到模型内部的不同层级,实现高效的深度融合,其提出两种模式:DeepStack-L(注入LLM)和DeepStack-V(注入ViT)[64][69] - Qwen3-VL采用DeepStack-L思想,将视觉信息深度注入到LLM的处理流程中,从视觉编码器的指定中间层(如第8、16、24层)提取特征,注入到LLM解码器的前几个浅层中[66][97] - 实验依据表明,LLM的浅层更适合处理和融合相对原始的视觉特征,注入起始层越靠前(如0~4层)、间隔约2或3层、总共注入约4个层时效果最优[71][76] - 实现上异常简洁高效,核心逻辑是在Transformer层循环中增加条件判断和一次原地加法,计算开销极小[72][74] - Qwen3-VL的适配更为高效,直接从处理标准输入的同一个Vision Tower的中间层提取特征,无需额外的高分辨率图像编码过程[75][99] LLaVA系列架构全景剖析 - LLaVA系列是其核心哲学“简洁即正确”的完美诠释,证明了极简架构在海量数据和聪明工程驱动下的强大力量[80] - LLaVA 1.0版本架构极其简洁:采用预训练的CLIP ViT-L作为视觉编码器,基于LLaMA/Vicuna作为语言模型,连接器仅为一个单层线性投影层[81][83][87] - LLaVA-1.5进行了务实迭代:将连接器升级为两层MLP,将视觉编码器输入分辨率提升至336x336,并引入更大规模的指令微调数据集[84][88] - LLaVA-OneVision达到演进高峰,通过海量多样化数据和优化的Higher AnyRes技术,将简洁理念从静态图像无缝扩展至动态视频,成为首批实现图像与视频统一处理的开源模型之一[92] Qwen3-VL架构全景剖析 - Qwen3-VL代表了“精巧设计,架构致胜”的路线,对模型核心架构进行深度改造以实现视觉与语言的持续深度交互[93] - 其架构实现了从“入口拼接”到“多层注入”的范式转变,视觉信息的处理和融合方式更为复杂精巧[94][96] - 代码演进清晰展示了其哲学转变:Qwen3-VL引入了`deepstack_merger_list`模块以实现DeepStack,并将语言模型升级为采用混合专家(MoE)架构的`Qwen3VLMoeTextModel`[98][101] - 除DeepStack外,Qwen3-VL还集成了多项前沿技术,如更先进的多维旋转位置编码MRoPE-Interleave和文本时间戳对齐机制,共同构成其技术护城河[101] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但殊途同归,共同推动了MLLM的性能边界,并指向实现视觉与文本更深层次、更无缝统一的方向[103][104] - 未来清晰的发展趋势包括:从“感知”迈向“推理与执行”,发展出能操作界面、调用工具的视觉智能体能力;拥抱动态与三维世界,原生支持长视频理解和3D空间定位;以及走向真正的多模态统一,在预训练早期进行多种模态数据的协同训练[107]
从 LLaVA 到 Qwen3-VL:解构多模态大模型的演进之路
自动驾驶之心· 2025-12-08 00:02
多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型向能听、会看、可交互的智能体的深刻变革,其核心在于多模态大模型的发展[1] - 当前主流的多模态大模型普遍遵循“三位一体”的黄金架构,由视觉编码器(眼睛)、大语言模型(大脑)和连接器(桥梁)协同工作[3][5][6] 视觉编码器(Vision Transformer) - Vision Transformer是视觉编码的核心技术,它摒弃传统卷积神经网络,将图像视为序列化文本来处理[7] - ViT的工作流程包括:将图像分割成固定大小的图块序列、将图块展平并线性投影为视觉词元向量、为词元注入位置信息以理解空间布局、最后通过Transformer编码器进行深度特征融合[9][10][11][12][15] - 现代ViT架构采用旋转位置编码来编码二维空间信息,这比处理一维文本的RoPE更为复杂,赋予了模型强大的尺寸泛化能力[13][14] 大语言模型(LLM)的认知中枢 - 在多模态架构中,LLM作为“大脑”接收由视觉和文本特征拼接而成的统一序列,并基于此进行自回归生成以输出回答[17][20][21] - LLM的输入是一个融合了视觉与文本信息的长序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列,使模型能在统一上下文中进行图文理解[21] - 模型生成答案时采用不同的解码策略,包括速度快的贪婪解码、平衡质量与成本的束搜索以及增加多样性的采样策略[26][27][29] - LLM自身架构也在进化,新一代模型如Qwen3-VL采用混合专家架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 连接器(Connector)的设计哲学 - 连接器负责弥合视觉与语言模态的语义鸿沟,将视觉特征投影到LLM能理解的向量空间[32][33] - 连接器设计主要分为两大流派:以LLaVA为代表的“极简线性投影”派,依赖强大LLM和后端融合;以BLIP-2的Q-Former为代表的“主动信息提炼”派,在信息进入LLM前进行压缩和提炼[34][36][37][38] - Q-Former通过一组可学习的查询向量,利用交叉注意力机制从冗长的原始视觉特征中提炼出高度浓缩的摘要信息,显著减轻了LLM的计算负担[40][42][44][45][51] 处理高分辨率信息的技术路线:LLaVA的AnyRes - LLaVA系列采用“扩展输入边界”的哲学,通过AnyRes技术在不改动核心模型的前提下处理高分辨率图像[55] - LLaVA-1.5-HD的策略是“全局+局部”协同:将高清图切分为多个高清晰度图块以保留局部细节,同时将原图降采样以获得全局上下文,最后将两路特征拼接输入LLM[56][58][59] - LLaVA-OneVision进一步提出高级AnyRes,通过双线性插值在特征空间“缝合”图块,更好地保留文档等场景的空间布局信息[60][62][68] 处理高分辨率信息的技术路线:Qwen3-VL的DeepStack - Qwen3-VL代表“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的处理流程中,实现多层次融合[64][66] - DeepStack-L将来自视觉编码器不同中间层的特征,动态注入到LLM的浅层,使不同抽象层级的视觉信息与语言处理阶段相匹配[66][69][97] - 实验表明,从LLM的浅层(如第0-4层)开始注入、间隔2-3层、总计注入约4层时效果最优[71][76] - Qwen3-VL的实现高效且优雅,直接从处理标准输入的同一视觉编码器的中间层提取特征进行注入,无需额外计算高分辨率图像[72][74][75][99] LLaVA系列架构演进分析 - LLaVA系列的核心哲学是“大道至简”,其初代版本就以“CLIP ViT + 线性投影层 + LLaMA”的极简架构开创了范式[80][81][83] - 从1.0到1.5的迭代务实而高效,包括将连接器升级为两层MLP、提升输入分辨率至336x336以及使用更大规模指令微调数据[84][88] - 该系列通过持续的数据优化和输入端工程创新(如AnyRes)推动性能提升,并最终在LLaVA-OneVision上实现了图像与视频的统一处理[92] Qwen3-VL架构演进分析 - Qwen3-VL代表“精巧设计,架构致胜”的路线,对模型内部进行深度改造以实现视觉与语言的持续深度交互[93][94] - 其核心是从传统的“入口拼接”范式转变为“多层注入”范式,通过DeepStack技术让视觉信息在LLM处理过程中多次参与[96][97] - 代码层面的演进清晰可见,Qwen3-VL相比前代引入了deepstack_merger_list模块,并将语言模型升级为混合专家架构[98][101] - 该模型集成了多项前沿技术,包括MRoPE-Interleave位置编码和文本时间戳对齐机制,以更好地处理视频时空信息[101][102] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但都极大推动了多模态性能边界,并共同指向视觉与文本更深层统一的方向[103][104] - 未来趋势包括:从感知向推理与执行演进,发展出能操作界面的视觉智能体能力;从静态图像向长视频和三维空间理解拓展;以及最终实现从预训练早期就开始的多模态真正统一[104][107]
从 LLaVA 到 Qwen3-VL:多模态大模型主流架构的演进之路
自动驾驶之心· 2025-12-03 00:04
多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型到能感知和理解物理世界的多模态智能体的深刻变革,其核心驱动力是多模态大模型(MLLM)的架构革命 [3] - 当前主流MLLM普遍遵循“三位一体”的黄金架构,由视觉编码器(AI的“眼睛”)、大语言模型(AI的“大脑”)和连接器(“灵魂之桥”)三部分协同工作 [6][10] MLLM“三位一体”架构详解 - **视觉编码器(ViT)**:作为AI的“眼睛”,其核心是将图像视为序列化文本进行处理,例如将一张224x224像素的图像分割成196个16x16的图块,并转换为768维的视觉词元序列 [11][13][14] - **大语言模型(LLM)**:作为AI的“大脑”,负责最终的认知、推理和表达,其输入是视觉与文本特征拼接后的融合序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列 [22][24] - **连接器(Connector)**:作为沟通桥梁,负责将视觉特征投影到LLM能理解的语义空间,例如将[1, 196, 768]维的视觉特征转换到[1, 196, 4096]维的空间 [36][37] 处理高分辨率图像的核心矛盾与两条技术路线 - 行业面临的核心挑战是如何让模型在不牺牲效率的前提下处理高分辨率图像的细节信息,直接处理会导致视觉词元序列过长,计算复杂度呈平方级增长 [64] - **路线一(LLaVA系列)**:奉行“扩展输入边界”的哲学,通过AnyRes等前端工程技术解决高分辨率问题,例如LLaVA-1.5-HD采用“全局概览图+高清局部图块”双路处理并拼接特征的策略 [65][66][67][68][69] - **路线二(Qwen3-VL系列)**:奉行“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的不同层级,实现高效的多层次融合 [74][75][78] LLaVA系列架构演进分析 - LLaVA系列是“大道至简”设计哲学的典范,其初代版本使用极简的单层线性投影作为连接器,证明了简洁架构在海量数据驱动下的有效性 [90][93] - 该系列通过务实的迭代持续提升性能,例如LLaVA-1.5将视觉编码器输入分辨率从224x224提升至336x336,并将连接器升级为两层MLP [94][99] - 其核心突破在于AnyRes技术,通过巧妙的输入预处理(如切块、降采样、双线性插值)来应对高分辨率挑战,并最终将能力扩展至视频等多模态统一处理 [96][100][101] Qwen3-VL系列架构演进分析 - Qwen3-VL是“精巧设计,架构致胜”路线的集大成者,其架构实现了从“入口拼接”到“多层注入”的范式转变,构建了视觉与语言深度协同的系统 [102][105] - 其核心技术DeepStack基于实验数据优化,例如实验表明从LLM的第0~4层(浅层)开始注入视觉特征效果最佳,注入间隔为2或3层,总计注入约4个层时性能最优 [80][81] - 该模型集成了多项前沿架构创新,包括直接从同一视觉编码器中间层(如第8、16、24层)提取特征进行注入的高效DeepStack实现、混合专家(MoE)语言模型以及更先进的MRoPE-Interleave位置编码 [85][107][110][111] 行业未来发展趋势 - 多模态大模型的发展正朝着真正的多模态统一迈进,未来可能在预训练早期就进行视觉、语言、音频等多模态数据的协同训练 [115] - 模型能力将从“感知”走向“推理与执行”,发展为能够操作界面、调用工具完成复杂任务的视觉智能体(Visual Agent) [118] - 行业下一个重点将是拥抱动态与三维世界,实现长视频的完整理解、秒级时间定位以及从2D图像还原真实世界3D信息的能力 [118]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅APP· 2025-09-07 02:51
Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构 这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能 使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢 由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制 实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果 支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力 为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决 环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险 需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架 通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式 实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动 为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶 根据指令自动生成游戏关卡、道具和完整3D场景 大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令 机器人自主规划执行复杂物理操作 如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化 增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境 实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集 基于医学知识库提供诊断建议 提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库 在生成诊断时同步进行事实核查和来源引用 抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征 实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题 而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体 而非定制化模型[32] - 建立科学评测体系至关重要 研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]
李飞飞的答案:大模型之后,Agent 向何处去?
创业邦· 2025-09-05 11:12
论文核心观点 - 李飞飞领衔的80页综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》为AI智能体领域建立统一框架 提出从感知到行动的认知闭环架构 并前瞻性预测行业技术演进路径 [5][6][9] - 论文定义Agent AI五大核心模块(环境感知、认知、行动、学习、记忆) 构成动态迭代的智能体体系 被视为实现AGI的系统性蓝图 [12][18] - 大模型(LLM/VLM)是驱动Agent的核心引擎 但需通过环境交互解决幻觉与偏见问题 需建立伦理安全机制 [5][20][21] - 应用潜力覆盖游戏、机器人和医疗三大领域 包括游戏NPC动态交互、机器人自主物理操作、医疗智能问诊与健康管理 [5][24][30] 技术架构 - 环境与感知模块:智能体主动从物理/虚拟世界获取多模态信息(视觉、听觉、文本) 并具备任务规划与技能观察能力 [13] - 认知模块:由LLM/VLM驱动 负责复杂推理、策略制定及上下文理解 是智能体的核心处理中枢 [14] - 行动模块:将决策转化为具体操作指令 包括机器人控制命令或API调用 通过控制器改变环境状态 [15] - 学习模块:支持预训练、零样本/少样本学习、强化学习及模仿学习 通过环境反馈实现持续优化 [16] - 记忆模块:存储知识、逻辑与推理结果 形成长期记忆体系 支持经验复用与举一反三 [17][18] 大模型驱动机制 - LLM/VLM提供零样本规划能力 例如将"热午餐"指令分解为具体子任务序列 显著降低规则编写成本 [20] - 环境交互是关键锚点:通过真实/模拟环境反馈校准模型输出 减少幻觉(如机器人操作错误)并对齐现实世界 [21] - 需解决数据偏见问题:通过多元化训练数据、偏见检测机制及道德指导方针确保包容性 [21] - 隐私与安全挑战:需建立数据使用监管框架 通过提示工程或人类监督层确保敏感领域(如医疗)安全可控 [22] 行业应用场景 - 游戏领域:变革传统NPC脚本模式 实现动态对话、行为调整及社会关系构建 支持自然语言交互与AI辅助内容生成 [25][26] - 机器人领域:实现自然语言指令解析(如"收拾桌子") 结合GPT-4V理解人类演示视频 并通过模拟训练与多模态融合提升物理操作鲁棒性 [28] - 医疗领域:智能问诊机器人提升初级诊疗效率 连接实时医学数据库进行事实核查 支持慢性病监控与个性化健康管理 [30][32] 行业发展与挑战 - 2025年被普遍视为Agent元年 谷歌、OpenAI和微软等巨头技术布局均遵循论文能力栈框架 [5][9] - 当前需突破多模态深度融合、跨领域通用化及标准化评测(如CuisineWorld、VideoAnalytica基准)等核心挑战 [33]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅· 2025-09-05 00:34
论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述 提出统一的多模态智能体认知框架 为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构 形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入 包含视觉听觉文本传感器数据 并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动 负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令 通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制 通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储 保留知识逻辑推理路径 支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力 显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈 倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见 需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架 通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整 显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景 大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析 自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务 简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力 提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互 如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集 提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用 抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据 实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术 而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体 而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 08:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]
2025年中国多模态大模型行业市场规模、产业链、竞争格局分析及行业发趋势研判:将更加多元和深入,应用前景越来越广阔[图]
产业信息网· 2025-05-29 01:47
多模态大模型行业定义及分类 - 多模态大模型是能够同时处理和理解多种模态数据(如文本、图像、音频、视频、3D模型等)的大规模人工智能模型,通过深度学习技术实现跨模态信息融合与推理 [2] - 与传统单一模态模型相比,多模态大模型更像全能翻译官,能够将不同模态信息融会贯通,更准确地处理复杂任务 [2] 多模态大模型行业发展历程 - 行业经历了任务导向阶段、视觉-语言预训练阶段和多模态大模型阶段 [4] - 多模态大模型阶段已实现更灵活的交互方式,强调跨模态理解与生成能力同步提升 [4] 多模态大模型行业发展现状 - 2024年中国多模态大模型市场规模为156.3亿元,较2023年增加65.4亿元,预计2025年达234.8亿元 [6] - 数字人领域应用份额最大(24%),其次是游戏与广告商拍(各13%),智能营销和社交媒体(各10%) [8] 多模态大模型行业产业链 - 上游包括AI芯片、GPU/FPGA/CPU/ASIC、服务器等硬件及基础软件 [10] - 中游为多模态大模型产品(如CLIP、BLIP、LLaMA等) [10] - 下游应用于工业、农业、金融科技等生产制造领域,教育、游戏、传媒等生活娱乐领域,基建、交通、医疗等公共服务领域 [10] - AI芯片市场规模从2019年116亿元增长至2024年1447亿元 [12] - 游戏领域2024年销售收入达3257.83亿元,用户规模6.74亿人 [14] 多模态大模型行业竞争格局 - 主流大模型包括中科院紫东太初、华为盘古、百度文心、腾讯混元、阿里通义、科大讯飞星火等 [16] - Kimi、DeepSeek等通过技术优化将训练成本控制在3000-6000万美元 [16] - 百度文心大模型4.5是首个原生多模态模型,具备多模态理解和高情商特点 [16] - 腾讯混元大模型采用动态路由机制,训练成本降低40% [16] - 阿里通义大模型在医疗、司法、文化传播等领域落地应用 [16] 多模态大模型行业发展趋势 - 多模态大模型正成为推动相关产业创新发展的重要力量,能提供更丰富和个性化的服务体验 [19] - 未来将实现更自然高效的人机协作,在金融分析、智能客服、教育辅导、内容创作等场景展现多任务处理能力 [19] - 技术发展将呈现更加多元和深入的趋势,模型将更智能、更人性化 [19]
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 04:05
多模态大语言模型Perception-R1的突破性进展 - 华中科技大学、北京邮电大学等高校联合推出Perception-R1(PR1),首次在COCO2017 val set上突破30AP,超越YOLOv3(27.9AP)和Faster-RCNN(35.6AP)等传统模型 [1][19] - 该框架专注于纯视觉任务(目标检测、计数)和视觉语言任务(OCR、grounding),通过基于规则的强化学习(RL)优化感知策略,显著提升模型对视觉信息的理解精度 [1][6][11] - 采用Group Relative Policy Optimization(GRPO)技术,通过多轮尝试、奖励建模和策略更新机制优化模型输出,例如在边界框任务中使用IoU作为奖励指标 [9][12] 技术实现与创新 - Perception-R1作为后训练框架,可增强现有MLLM(如Qwen2-VLInstruct-2B)的视觉能力,无需从头训练 [7] - 奖励函数设计包含三部分:视觉细节提取(如OCR任务使用编辑距离)、逻辑操作执行(如点检测计数)、输出格式验证(正确格式+1分,错误-1分) [11][13][17] - 针对多物体检测的匹配难题,采用二分图匹配和匈牙利算法计算最优奖励,确保预测与真实标注的准确对应 [14] 性能表现与行业影响 - 在Pixmo-Count视觉计数任务中达到78.1分(测试集75.6分),远超LLaVA-1.5(33.3分)和Qwen2-VL(60.2分) [19] - OCR任务(PageOCR)编辑距离仅3.5(英文)和9.0(中文),F1-score达98.2(英文)和94.4(中文),优于Nougat(25.5)和DocOw(25.8) [18] - 在MMBench等综合评测中,Perception-R1以71.8平均分展现全面优势,尤其在MMVet(48.9分)和AI2D(58.2分)等需复杂推理的任务中领先 [21] 未来发展方向 - 研究表明任务复杂度与RL效果正相关,为大规模扩展提供验证基础,例如模型参数量从2B扩展到3B时AP提升至31.9 [19][23] - 挑战了视觉任务依赖语言推理的传统假设,为下一代智能感知系统奠定技术路径,例如通过显式思维链(thinking)优化策略 [24][25] - 论文与代码已开源,旨在推动社区建立更强基线,加速多模态感知技术迭代 [2][26]
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
量子位· 2025-04-03 02:12
文章核心观点 - 提出了一种名为CalibQuant的1比特多模态大语言模型视觉KV cache量化方案,该方案通过结合后缩放和校准技术,在显著降低显存与计算成本的同时,几乎不损失模型性能,并实现了高达10倍的吞吐量提升 [1][2][3][5] 技术背景与动机 - 多模态大语言模型在处理大尺寸、高分辨率图像或视频时,KV cache的显存占用与输入长度成正比,成为限制推理吞吐量的关键瓶颈 [4][6] - 现有的LLM KV cache量化方法可压缩至2比特,但未针对多模态任务中的视觉冗余进行优化,无法在1比特极限情况下有效使用 [6] - 该研究通过分析多模态大语言模型中视觉KV cache的冗余特性,设计了专门的量化方案 [7] 方法概述 - 方法基于通道维度的KV cache量化,并提出了后缩放优化方案和针对注意力权重的校准策略 [8] - **通道维度量化**:在通道维度上细化统计范围,对K cache和V cache的每一行向量进行均匀整数量化,以减少模型性能损失 [9][10] - **后缩放管理策略**:通过重排计算顺序,将通道维度的反量化操作延迟并集成到后续向量乘法中,仅存储低比特整数量化值,避免了全精度反量化的计算开销,提高了计算和存储效率 [11][12] - **量化后校准**:针对1比特量化导致反量化值包含大量极端值、进而引起注意力分数失真的问题,提出一种线性变换校准方法,调整softmax前的注意力分数峰值,使其分布更接近全精度模型 [13][14] 实验结果 - 在LLaVA和InternVL模型上,于图像描述(Captioning)、视觉问答(VQA)、视频问答(Video QA)等任务中测试了方法性能 [15] - 在COCO Caption基准测试中,该方法在不同比特数(8、4、2、1比特)下,大部分评估指标优于对比方法KIVI和VLCache [15] - **具体数据示例**: - 对于LLaVA-1.5-7B模型,在1比特量化下,CIDEr分数达到1.109,超过了VLCache方法的1.053 [15][16] - 对于InternVL-2.5-26B模型,在4比特和2比特量化下,CIDEr分数分别达到1.320和1.313,均优于VLCache和KIVI [15][16] 运行效率分析 - 在InternVL-2.5系列模型上,对比了1比特量化方法与16比特基线在不同视觉token长度和GPU显存限制下的吞吐量(每秒生成token数) [17] - **具体数据示例**: - 对于80亿参数模型,当视觉token长度n=3328、显存为5GB时,1比特量化方法吞吐量为126.582 tokens/s,而基线仅为11.628 tokens/s,提升约9.88倍 [17] - 在相同模型和token长度下,显存为30GB时,1比特量化方法吞吐量达459.016 tokens/s,基线为40.816 tokens/s,提升约11.24倍 [17] - 总体而言,该方法在InternVL-2.5上实现了约10倍的吞吐量提升 [1][5][17] 总结与意义 - 该方法有效解决了极低比特量化导致的分布偏移和模型性能下降问题 [18] - 通过校准策略和后缩放技术,在保证高效计算和存储的同时,维持了模型性能 [18] - 该方案具有即插即用特性,可无缝集成到各种现有多模态大语言模型中,无需改动原模型 [3][5]