像素级细粒度理解
搜索文档
PixelRefer :让AI从“看大图”走向“看懂每个对象”
机器之心· 2025-11-10 23:47
技术突破与核心创新 - 提出PixelRefer统一时空像素级区域级理解框架,实现任意粒度下的精细视觉指代与推理,解决了现有模型在细粒度、对象级理解上的不足[2] - 框架包含两种设计:Vision-Object Framework保留场景语境并进行对象级精细推理,Object-Only Framework通过对象中心信息融合模块提升效率[15][16][22] - 核心创新是尺度自适应对象分词器,通过动态尺度处理、位置感知掩码特征抽取和冗余聚合三步,生成精确紧凑语义丰富的对象表示[16][17][20] 性能优势与效率表现 - 在多项图像理解基准测试中达到SOTA水平,PixelRefer-7B在PACO数据集上SSim达90.5,在Ferret基准推理任务得分83.1,显著领先于DAM-8B和SPHINX-V-13B等模型[26][28] - 视频理解性能领先,PixelRefer-7B在VideoRefer-Bench上平均得分达79.4,超越GPT-4o的71.3和VideoRefer-7B的71.9[29] - 效率显著提升,PixelRefer-Lite-2B模型推理时间比DAM-3B加快约4倍,显存占用减半,在HC-STVG基准上推理时间仅0.68秒,显存占用5.2GB[2][32][33] 技术原理与设计洞察 - 基于分析发现高质量像素级物体表征至关重要,且全局视觉信息在LLM深层作用减弱可提前融合,从而优化计算开销[11][15] - 对象中心信息融合模块通过Local-to-Object和Global-to-Object Attention将全局特征前处理融合入对象表示,实现细节感知与全局语义的统一[22][23] - 消融实验证明尺度自适应对象分词器相比简单maskpooling方法有显著提升,特别是在小目标理解上提升十几个点[34][36] 应用前景与行业意义 - 技术应用前景广阔,涵盖自动驾驶时序场景识别、医疗影像病灶级理解、智能视频剪辑与监控以及多模态对话与人机交互[38][40] - 标志着AI视觉理解从整体场景级迈向细粒度对象级动态理解,为多模态大模型的精细化视觉理解提供了新方向[2][38] - 联合开源了用于训练的两类数据集:基础物体感知数据集包含140万样本,视觉指令调优数据集包含80万样本,覆盖区域QA、视频QA等多类任务[25]