Describe Anything Model (DAM)
搜索文档
PixelRefer :让AI从“看大图”走向“看懂每个对象”
机器之心· 2025-11-10 23:47
技术突破与核心创新 - 提出PixelRefer统一时空像素级区域级理解框架,实现任意粒度下的精细视觉指代与推理,解决了现有模型在细粒度、对象级理解上的不足[2] - 框架包含两种设计:Vision-Object Framework保留场景语境并进行对象级精细推理,Object-Only Framework通过对象中心信息融合模块提升效率[15][16][22] - 核心创新是尺度自适应对象分词器,通过动态尺度处理、位置感知掩码特征抽取和冗余聚合三步,生成精确紧凑语义丰富的对象表示[16][17][20] 性能优势与效率表现 - 在多项图像理解基准测试中达到SOTA水平,PixelRefer-7B在PACO数据集上SSim达90.5,在Ferret基准推理任务得分83.1,显著领先于DAM-8B和SPHINX-V-13B等模型[26][28] - 视频理解性能领先,PixelRefer-7B在VideoRefer-Bench上平均得分达79.4,超越GPT-4o的71.3和VideoRefer-7B的71.9[29] - 效率显著提升,PixelRefer-Lite-2B模型推理时间比DAM-3B加快约4倍,显存占用减半,在HC-STVG基准上推理时间仅0.68秒,显存占用5.2GB[2][32][33] 技术原理与设计洞察 - 基于分析发现高质量像素级物体表征至关重要,且全局视觉信息在LLM深层作用减弱可提前融合,从而优化计算开销[11][15] - 对象中心信息融合模块通过Local-to-Object和Global-to-Object Attention将全局特征前处理融合入对象表示,实现细节感知与全局语义的统一[22][23] - 消融实验证明尺度自适应对象分词器相比简单maskpooling方法有显著提升,特别是在小目标理解上提升十几个点[34][36] 应用前景与行业意义 - 技术应用前景广阔,涵盖自动驾驶时序场景识别、医疗影像病灶级理解、智能视频剪辑与监控以及多模态对话与人机交互[38][40] - 标志着AI视觉理解从整体场景级迈向细粒度对象级动态理解,为多模态大模型的精细化视觉理解提供了新方向[2][38] - 联合开源了用于训练的两类数据集:基础物体感知数据集包含140万样本,视觉指令调优数据集包含80万样本,覆盖区域QA、视频QA等多类任务[25]
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
量子位· 2025-10-28 05:12
文章核心观点 - 中科院与字节联合提出的Grasp Any Region (GAR) 模型,通过创新的“细粒度+全局上下文”架构设计,在区域级多模态大模型领域实现了突破性进展,为构建自然图像的Dense Caption和视觉信息压缩提供了新的可行路径 [2][4][39][80] 技术能力与创新 - GAR模型具备三种核心能力:精准描述用户指定区域、建模多个区域间关系、进行复杂的组合推理(如非实体判别)[5][7] - 模型采用两大创新组件:简洁高效的提示编码方案,以及RoI-Aligned Feature Replay机制,实现了局部细节与全局上下文的平衡 [39][40][42][43][48][53] - 该技术方案有效解决了传统Region MLLMs在局部细节与全局信息之间的两难困境,避免了如Osprey模型的局部细节丢失和DAM模型的全局信息丢失问题 [15][16][18] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro [70][71] - GAR-1B模型以50.6分的综合得分,在参数量远小于其他模型的情况下,性能超过了InternVL3-78B等大规模公开模型,凸显了方法在效率与效果上的优势 [71][72] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,表现超过Gemini-2.5-Pro等性能强劲的私有模型 [73][74] - 在Ferret-Bench与MDVP-Bench的零样本测试中,GAR模型在所有细分类别均位列第一,其中GAR-8B在自然图像任务中取得178.6分,大幅领先竞品 [75][76] 应用潜力与迁移能力 - GAR的能力可zero-shot迁移至视频任务,在VideoRefer-Bench测试中,GAR-8B性能超过DAM-8B,甚至优于in-domain训练的VideoRefer-7B模型 [78][79] - 该模型可作为Data-engine工具,为多模态理解模型提供精细的图像/视频描述用于预训练,提升文生图/视频模型对复杂指令的遵循能力,并为细粒度编辑模型提供精准的区域描述 [81][82][83] - GAR可天然作为Reward Model,在多模态理解任务的post-training阶段提供准确的区域理解奖励信号 [84]