检索增强生成技术(RAG)

搜索文档
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
机器之心· 2025-05-16 16:31
多模态大语言模型高分辨率图像感知技术 核心观点 - 提出无需训练的Retrieval-Augmented Perception (RAP)框架,通过检索增强技术解决MLLMs处理高分辨率图像时的信息损失问题,显著提升视觉问答和推理性能 [3][16][29] - 关键创新包括:Spatial-Awareness Layout算法维持图像块空间关系,RE-Search自适应选择最优图像块数量 [16][18][19] - 在HR-Bench 4K/8K数据集上实现最大21.7%准确率提升,吞吐量达4.2倍优于现有方法 [25][26][27] 技术方案细节 现有方法局限性 - 基于裁剪的方法需处理300K视觉token,超出LLMs上下文长度限制 [2] - 高分视觉编码器仍需降采样,导致信息损失 [2] - 基于搜索的方法易受初始分辨率干扰,推理延迟增加 [2][15] RAP核心组件 1. **视觉检索增强** - 通过VisualRAG计算图像块与问题的相似度,筛选top-K关键块 [18] - 仅检索相关块可使输入分辨率降低6.5% [27] 2. **空间感知布局** - 三种布局策略对比显示:维持相对位置关系使FCP任务性能提升30% [7][10] - 通过0-1矩阵压缩非关键行列,保留空间信息 [18] 3. **自适应搜索算法** - RE-Search结合相似度分数(g(t))和模型置信度(h(t))动态调整权重 [19][20] - 超参数b=0.2时最优,深度d增加时h(t)权重非线性增长 [22][23] 性能验证 基准测试结果 - **开源模型提升**:LLaVA-v1.5-7B结合RAP在HR-Bench 8K上FSP任务从33%提升至72.3% [26] - **闭源模型对比**:超越GPT-4o在V*Bench的66%准确率,达91.1% [26] - **吞吐量优势**:4.2倍于DC2方法(2.1),准确率提高8.6个百分点 [27] 任务敏感性分析 - FSP任务需较少图像块(K小),FCP任务需更多视觉信息(K大) [12][14] - 8K分辨率下,FCP任务最佳K值使性能提升44.8% vs baseline 40.8% [9][14] 行业应用价值 - 突破性解决8K图像处理瓶颈,为医疗影像、卫星遥感等领域提供技术路径 [1][16] - 无需微调即可适配LLaVA/InternVL等主流MLLMs,降低部署成本 [25][26] - ICML 2025 Spotlight论文(top 2.6%)验证学术影响力 [3]