Workflow
突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准
自动驾驶之心·2025-08-12 23:33

X-SAM技术突破 - X-SAM由中山大学、鹏城实验室和美团团队联合开发,将分割能力从"分割任何事物"扩展到"任何分割",支持文本指令、视觉提示及跨图像场景的精准分割[3][4] - 模型在20+数据集、7大核心任务上全面超越现有方案,包括通用分割、开放词汇分割、指代分割等,刷新像素级视觉理解基准[4][28] - 创新性提出视觉定位分割(VGD)任务,支持根据单点提示分割图像中所有同类实例,跨图像VGD分割AP达47.9-49.7,远超PSALM模型的2.0-3.7[26][35] 核心技术架构 - 采用统一输入格式设计,通过

标签标准化文本/视觉查询输入,实现多任务融合处理[13][15] - 双编码器架构包含SigLIP图像编码器和SAM-L分割编码器,分别提取全局场景特征与像素级细节特征[19] - 分割连接器生成1/8至1/32多尺度特征,结合Mask2Former解码器实现多对象同步分割,LLM采用Phi-3-mini-4k-instruct处理语言交互[19][20] 训练策略创新 - 三阶段训练流程:分割器微调(COCO数据集)→对齐预训练(LLaVA-558K)→混合微调(多任务数据集)[23][27] - 动态平衡数据集采样策略,解决样本量差异(0.2K-665K)带来的训练偏差,最优参数t=0.1[24] - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2升至57.1,验证多任务协同效应[37] 性能表现 - 指代分割任务在RefCOCO系列数据集cIoU达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和8B参数的Sa2VA[29][32] - 定位对话生成(GCG)任务mIoU 69.4,优于GLaMM(65.8)和OMG-LLaVA(65.5),实现文本描述与分割掩码同步输出[33] - 通用分割任务PQ 54.7接近Mask2Former(57.8),开放词汇分割AP 16.2远超ODISE(14.4)[31] 行业应用前景 - 技术突破使多模态大模型具备真正的像素级理解能力,可应用于智能医疗影像、自动驾驶场景解析等领域[4][8] - 统一框架解决工程落地需部署多个专用模型的问题,显著提升分割任务处理效率[6][36] - 未来计划扩展至视频分割领域,结合SAM2实现跨时空视觉定位,开拓动态场景理解新方向[43]