Workflow
X-SAM:统一图像分割多模态大模型,20+个数据集上均SoTA
具身智能之心·2025-08-21 00:03

研究背景与动机 - Segment Anything Model (SAM) 依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性 [3] - 多模态大语言模型(MLLMs)输出局限于文本生成,无法直接处理像素级视觉任务,阻碍了通用化模型的发展 [3] - 研究团队提出 X-SAM,将分割范式从「分割万物」扩展到「任意分割」,通过视觉定位分割(VGS)任务赋予 MLLMs 像素级理解能力 [3] 方法设计 - X-SAM 采用通用输入格式,支持文本查询输入和视觉查询输入(包括点、涂鸦、边界框、掩码等多种提示形式) [7] - 引入特殊标记 表示分割结果,

标记间的潜在语言嵌入作为分割解码器的条件嵌入 [7] - 采用端到端的统一分割 MLLM 架构,包含双编码器设计(SigLIP2-so400m 和 SAM-L)、双映射器架构、分割连接器和 Mask2Former 解码器 [10][11][12] - 采用三阶段渐进式训练策略:分割器微调、对齐预训练和混合微调,采用数据集平衡重采样策略改善少样本数据集性能 [13][15][19] 实验结果 - X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能 [16] - 在指代分割任务中,X-SAM 在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上达到 85.1/87.1/83.4、78.0/81.0/74.4 和 83.8/83.9 的准确率,显著优于现有方法 [18] - 在视觉定位分割任务中,X-SAM 在点、涂鸦、边界框和掩码提示下的 AP50 分别达到 72.5、73.4、74.7 和 74.9,远超 PSALM 的 3.3、4.4、5.8 和 3.3 [20] - 在图文理解任务中,X-SAM 在 MME、MMBench、SEED-Bench、POPE 和 AI2D 数据集上分别达到 1374/312、69.3、69.3、89.3 和 62.6 的分数,优于多数对比模型 [20] 总结与展望 - X-SAM 作为首个真正统一的分割多模态大语言模型,实现了从「segment anything」到「any segmentation」的重要跨越 [24] - 未来研究方向包括与 SAM2 集成实现图像和视频的统一分割,以及将 VGD 分割扩展到视频中,引入时序信息构建创新的视频分割任务 [25]