Workflow
基于切片的编码(SBE)
icon
搜索文档
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
机器之心· 2025-12-09 03:17
多模态大模型视觉编码的技术挑战与现状 - 当前主流视觉编码范式难以兼顾性能与效率:基于切片的编码方法牺牲全局上下文感知能力,而全局原生分辨率编码则带来巨大计算负担 [2] - 现有视觉压缩策略与特征提取过程相对独立,缺乏一个能兼顾细粒度建模与计算效率的统一架构 [2] LLaVA-UHD v3 的发布与核心目标 - 清华大学、中科院研究团队发布 LLaVA-UHD v3,旨在解决高清原生分辨率下保持全局理解能力并实现快速推理的核心问题 [3] - 模型提出了全新的渐进式视觉压缩框架,旨在显著减少视觉 Token 数量,从根本上提升原生高分辨率视觉编码的效率 [4] 渐进式视觉压缩框架详解 - 框架核心由精细化 Patch 嵌入与窗口化 Token 压缩两个组件构成 [4] - 精细化 Patch 嵌入通过将图像划分为更小尺寸的 patch,并转换预训练模型权重,实现更丰富的视觉语义提取建模 [11] - 窗口化 Token 压缩在 ViT 中间层聚合相邻 token,通过可学习的池化权重渐进压缩 token 数量,保留关键语义信息 [13] - 该“先细粒度建模 + 再渐进压缩”的设计,在兼顾全局语义与局部细节的同时大幅降低计算量 [15] 全图编码与切片编码的对比分析 - 实验对比显示,全局原生分辨率编码在空间感知/定位任务上相比切片编码平均提升约 11.0% [6] - 在通用视觉-语言理解任务中,全局原生分辨率编码在语义理解表现上略优于切片编码,平均提升约 2.1% [7] - 研究发现切片编码机制破坏了图像的空间连续性,导致系统性方向与结构偏差,削弱了空间理解的可靠性 [7] - 结论表明,尽管切片编码效率有优势,但从语义、空间及几何一致性角度,全局原生分辨率编码更适合需要空间感知与高分辨率理解的任务 [7] LLaVA-UHD v3 的效率与性能验证 - 效率方面,ViT-UHD 编码器相比 MoonViT 实现 2.4× 加速,相比 Qwen2.5-ViT 快 1.9× [16] - 整合到完整 MLLM 后,LLaVA-UHD v3 的 TTFT 相较 Qwen2-VL 降低 49%(约快 1.9×),比以高效著称的切片编码模型 MiniCPM-V2.6 仍快约 10% [16] - 性能方面,模型仅使用约 2000 万对图文数据训练,远低于 Qwen2-VL(约 7 亿)和 MiniCPM-V-2.6(约 4.6 亿)的训练规模 [17] - 模型实现了 64× 的视觉 Token 压缩率,远超对手(Qwen2-VL 约为 4×,MiniCPM-V2.6 为 16×)[17] - 在需要细粒度视觉信息的任务上,如 HallusionBench、CV-Bench 以及 OCR&Chart,模型取得了与 SOTA 模型相当甚至更优的表现 [17] 模型综合性能基准对比 - 在通用与知识基准测试中,LLaVA-UHD-v3 在多个指标上展现出竞争力,例如在 MME 上得分为 2183.6,在 MMB 上为 81.3,在 MathVista 上为 64.2 [18] - 在视觉推理与 OCR & Chart 基准测试中,模型在 HallusionBench 上得分为 52.2,在 RealworldQA 上为 70.3,在 DocVQA 上为 92.8,表现优异 [19] 技术局限与未来展望 - 实验表明,缺失预对齐阶段的 ViT-UHD 性能不佳,当前 MLLM 标准训练流程难以完全挖掘视觉编码器的潜力 [20] - 随着 Token 数量增大,Transformer 的二次复杂度仍会带来成本瓶颈 [20] - 未来需探索更适合多模态任务的视觉编码预训练策略,并引入线性复杂度算子以替代传统注意力机制,实现可扩展的高效多模态建模 [20]