Workflow
信息压缩
icon
搜索文档
超越英伟达Describe Anything,中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
36氪· 2025-10-28 07:26
技术概述与核心创新 - 提出名为Grasp Any Region (GAR)的新型区域多模态大模型(MLLM),旨在实现对自然图像中用户指定区域的细粒度、可交互式理解[2] - 模型核心设计原则是既要实现对提示区域的细粒度理解,同时保留并利用整个场景的全局上下文,解决了传统Region MLLMs在局部细节与全局信息之间的两难困境[25][28] - 引入两个全新组件:简洁高效的提示编码机制,以及创新性的区域对齐特征回放技术,通过视觉编码器生成全局特征图,并利用RoI-Align技术提取高保真度局部特征[25][27] 模型核心能力 - 具备精准描述用户指定区域的能力,能够基于色彩、纹理、形状、材质等基础属性进行客观评测,例如正确识别青蛙样式的拖鞋而非误判为青蛙[5][8][9] - 能够建模多个区域之间的关系并进行复杂的组合推理,例如判断多个提示是否在镜子当中,或综合理解物体间的复杂关联[5][18] - 可对极小物体进行精准识别,并利用极小的图像细节正确建模物体之间的关系,在示例中能准确判断人物是拿着书而非在看书,凸显细节理解能力之强[11][14][16] - 模型能力可零样本迁移至视频描述任务,能够精准识别视频中的物体、人物与动作,进行语义层次的深度分析,甚至识别运动信息[21][23][24] 技术实现与数据构建 - 采用多阶段流程生成大规模、高质量训练数据集:首先利用种子数据集和ImageNet-21K构建45.6万条细粒度描述数据,再结合Panoptic Scene Graph数据集生成关联感知型数据[30][31][32] - 最终训练数据包含三部分:细粒度描述数据、关联感知型描述及问答对、以及选择题,本阶段最终构建出含414K样本的关联数据集[30][35] - 在模型架构中,用户指定的二值掩码经卷积块处理后生成mask embedding,与ViT的patch embedding相加完成空间信息与视觉特征的融合[27] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o的53.5分,直逼o3的61.3分和Gemini-2.5-Pro的64.2分[38][39] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,超过Gemini-2.5-Pro的59.3分[41] - GAR-1B模型尽管参数量远小于其他模型,但其综合得分为50.6分,性能超过了InternVL3-78B等大规模公开模型,在纹理维度得分达到69.0分[39] - 在Ferret-Bench与MDVP-Bench上的零样本表现优异,GAR-8B在MDVP-Bench的自然图像任务中取得178.6分,大幅超过所有竞品模型[43][44] - 在VideoRefer-Bench测试中,zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型,取得72.0分的总体成绩[46][47] 应用前景与行业价值 - 可作为多模态理解模型的预训练数据生成工具,为训练提供精细的图像/视频描述[47] - 能辅助文生图或文生视频模型理解复杂的用户指令,提升模型对于复杂文本的指令遵循能力[47] - 可作为细粒度编辑模型的数据来源,提供针对待编辑区域的精准描述[47] - 可天然作为奖励模型,为多模态理解任务的后训练阶段提供准确的区域理解奖励信号[47] - 团队已将论文、代码和模型全部开源,并支持基于gradio的本地部署,降低了行业应用门槛[47][48][49]
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
量子位· 2025-10-28 05:12
文章核心观点 - 中科院与字节联合提出的Grasp Any Region (GAR) 模型,通过创新的“细粒度+全局上下文”架构设计,在区域级多模态大模型领域实现了突破性进展,为构建自然图像的Dense Caption和视觉信息压缩提供了新的可行路径 [2][4][39][80] 技术能力与创新 - GAR模型具备三种核心能力:精准描述用户指定区域、建模多个区域间关系、进行复杂的组合推理(如非实体判别)[5][7] - 模型采用两大创新组件:简洁高效的提示编码方案,以及RoI-Aligned Feature Replay机制,实现了局部细节与全局上下文的平衡 [39][40][42][43][48][53] - 该技术方案有效解决了传统Region MLLMs在局部细节与全局信息之间的两难困境,避免了如Osprey模型的局部细节丢失和DAM模型的全局信息丢失问题 [15][16][18] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro [70][71] - GAR-1B模型以50.6分的综合得分,在参数量远小于其他模型的情况下,性能超过了InternVL3-78B等大规模公开模型,凸显了方法在效率与效果上的优势 [71][72] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,表现超过Gemini-2.5-Pro等性能强劲的私有模型 [73][74] - 在Ferret-Bench与MDVP-Bench的零样本测试中,GAR模型在所有细分类别均位列第一,其中GAR-8B在自然图像任务中取得178.6分,大幅领先竞品 [75][76] 应用潜力与迁移能力 - GAR的能力可zero-shot迁移至视频任务,在VideoRefer-Bench测试中,GAR-8B性能超过DAM-8B,甚至优于in-domain训练的VideoRefer-7B模型 [78][79] - 该模型可作为Data-engine工具,为多模态理解模型提供精细的图像/视频描述用于预训练,提升文生图/视频模型对复杂指令的遵循能力,并为细粒度编辑模型提供精准的区域描述 [81][82][83] - GAR可天然作为Reward Model,在多模态理解任务的post-training阶段提供准确的区域理解奖励信号 [84]