Workflow
图像分割
icon
搜索文档
Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
量子位· 2025-11-20 07:01
文章核心观点 - Meta AI发布SAM 3D模型,能够从单张2D图像直接生成精细的3D模型,代表了3D建模领域的新范式[1][4][7] - 同时发布的SAM 3模型在图像分割基础上增强了语义理解能力,支持通过文本或示例提示进行开放词汇的概念分割[5][6][23] - 两个模型系列在各自领域的多项基准测试中均取得了显著优于现有方法的性能,达到SOTA水平[13][17][36] SAM 3D模型技术特点与性能 - SAM 3D包含两个专用模型:SAM 3D Objects用于物体和场景重建,SAM 3D Body专注于人体建模[8] - SAM 3D Objects能够处理小物体、间接视角和遮挡等复杂情况,从单张自然图像实现3D重建和物体姿态估计[10][11] - 在人类用户对比测试中,SAM 3D Objects的胜率至少达到其他领先模型的5倍[14] - 具体性能指标显示显著优势:F1分数达0.2339,Chamfer距离为0.0408,3D IoU为0.4254,ADD-S@0.1为0.7232[15] - SAM 3D Body在复杂情况下表现优异,MPJPE指标为61.7,PVE为60.3,在多个数据集上的PCK指标分别为68.0和75.4[18] SAM 3模型技术突破 - 突破传统分割模型固定标签集的限制,引入可提示概念分割功能,支持通过文本或示例提示定义概念[21][23][24] - 能够处理细微概念如"红色条纹伞",并通过文本指令或选中示例物体来查找分割所有同类物体[22][26][31] - 在LVIS数据集的零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[37] - 在新的SA-Co基准测试中,表现至少比基线方法强2倍[38] - 在视频分割任务中性能优于SAM 2,在多个数据集上的J&F指标达到78.4至89.6[40] 模型架构与实现方法 - SAM 3基于共享的Perception Encoder视觉骨干网络,服务检测器和追踪器模块[41][43] - 创新设计Presence Head解决开放词汇检测中的幻觉问题,解耦识别与定位任务[45] - SAM 3D Objects采用两阶段生成模型:12亿参数流匹配Transformer构建几何,稀疏潜在流匹配细化纹理[48][49][51] - 通过model-in-the-loop数据引擎低成本获取图像-3D配对数据,人类从8个候选中选择最佳匹配[53][54] - SAM 3D Body采用Momentum Human Rig表示法,双路解码器设计分别处理全身和手部细节[55][57][61] 行业影响与数据集 - Meta与艺术家合作构建SAM 3D艺术家物体数据集SA-3DAO,用于评估物理世界图像三维重建能力[20] - 创建SA-Co基准测试评估大词汇量检测和分割性能,要求识别更大概念词汇量[33][34] - 模型能够很好泛化到多种类型图像,支持密集场景重建,标志着基础模型具身化的进展[13][60]
X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
机器之心· 2025-08-19 06:33
核心观点 - X-SAM是首个统一的分割多模态大语言模型,将分割范式从「分割万物」扩展到「任意分割」,实现了像素级视觉理解能力的突破 [4] - 通过创新的视觉定位分割(VGS)任务和统一架构设计,X-SAM在20+数据集上达到最先进性能,覆盖7种分割任务 [4][19] - 模型采用三阶段渐进式训练策略和数据集平衡重采样技术,显著提升少样本数据集的性能 [16][17] 背景与动机 - Segment Anything Model (SAM)依赖单一视觉提示输入,多模态大语言模型(MLLMs)无法处理像素级任务,限制了通用模型发展 [4] - X-SAM通过赋予MLLMs像素级理解能力,解决了传统模型在开放场景视觉感知中的根本性限制 [4] 方法设计 架构设计 - 采用双编码器设计:SigLIP2-so400m提取全局特征,SAM-L提取细粒度特征,通过像素重排和MLP投影实现特征融合 [14] - 分割连接器提供多尺度信息(1/32、1/16、1/8尺度),Mask2Former解码器替换SAM原始解码器 [12][15] - 输入支持文本查询(通用/指代/推理分割)和视觉查询(点/涂鸦/边界框),输出采用<SEG>标记统一表示 [7][8][13] 训练策略 - 三阶段训练:1)分割器微调(COCO-Panoptic数据集) 2)对齐预训练(LLaVA-558K数据集) 3)混合微调(多数据集协同) [16] - 数据集平衡重采样策略:通过超参数t控制过采样比例,改善少样本数据集(0.2K样本)性能 [17] 实验结果 性能对比 - 指代分割任务:RefCOCO/+/g测试集达到85.1/78.0/83.8,超越GLaMM(79.5/72.6/74.2)和PSALM(83.6/72.9/73.8) [23] - 对话生成分割:mIoU指标达69.4(Val)/69.0(Test),显著优于GLaMM-7BT(65.8/64.6) [23] - 视觉定位分割:点提示AP50达72.5,较PSALM(3.3)提升20倍 [23] 多模态能力 - 图文理解任务:SEED-Bench(69.3)、POPE(89.3)、AI2D(62.6)分数全面领先LLaVA-1.5等基线模型 [23] 未来方向 - 视频领域扩展:与SAM2集成实现图像/视频统一分割,引入时序信息构建视频分割新任务 [27] - 技术应用前景:为通用视觉理解系统奠定基础,开辟开放场景感知研究新方向 [27]
奥普特:AI为工业视觉插上梦的翅膀,场景积累构筑龙头先发优势-20250612
长江证券· 2025-06-12 00:40
报告公司投资评级 - 维持“买入”评级 [7] 报告的核心观点 - 机器视觉成长期长、天花板高,2023 年全球机器视觉器件市场规模达 925 亿元,中国市场是主要驱动力,2024 年规模为 181 亿元,2020 - 2024 年 CAGR 为 17.84% [2][4] - 下游修复和产品线延伸助力奥普特业绩增长,AI 加速视觉应用落地,公司凭借光源卡位龙头厂商有望受益 [2] - 公司从工业视觉向消费级视觉拓展,收购进入运动部件市场,未来有望形成“视觉 + 传感 + 运动控制”综合能力,提供完整系统解决方案 [2][7] 根据相关目录分别进行总结 行业规模稳步增长,工业场景替人逐步推进 - 机器视觉为机器植入“眼睛”和“大脑”,系统包含成像、图像分析处理、智能决策执行单元,基础功能有定位、识别、测量与检测,在工业领域应用广泛,2023 年定位、识别、检测和测量功能分别占比 31.4%、29.7%、25.6%和 13.3% [14][16][19] - 机器视觉具有长坡厚雪属性,2023 年全球市场规模 925 亿元,中国市场是主要驱动力,2024 年规模 181 亿元,2020 - 2024 年 CAGR 为 17.84%,预计 2025 年达 208 亿元,同比增长 14.6%,美国成熟市场也在扩张 [4][21] - 中国机器视觉主要应用于制造业,2023 年消费电子占比最大,为 22%,其次是汽车、半导体、医药、锂电池等 [30] 突破算法局限,AI 助力机器视觉实现场景延伸 - 机器视觉在工业场景存在局限性,如复杂纹理与材质缺陷检测、动态或柔性物体精准定位、多特征融合与综合质量评估、小批量定制化产品快速适配等方面无法完全替代人工 [34] - 图像分割比目标检测更精细但效率慢,分割模型发展有望提升图像分割效率、降低成本,SAM 模型是图像分割领域“基础模型”,具有强大零样本和少样本学习等优势,已广泛应用,有望助力视觉检测高效、高精、低成本 [5][36][43] - 深度学习将传统视觉难题“简单化”,结合机器视觉与人类视觉优势,完成复杂环境检测,降低成本,奥普特 AI 产品与解决方案在多领域应用,有多个成功案例 [46][51][55] 苹果引领,机器视觉替人空间广阔 - 苹果推动工厂自动化部署,要求代工厂未来几年将 iPhone 组装线人力减少 50%,机器视觉提升生产效率、良品率,降低人工成本,与制造业“降本增效”主题契合,工业 AI 技术迭代赋能产品升级,催生更多应用场景 [56] - 劳动密集行业机器替人空间广阔,消费电子、汽车零部件、煤炭开采等行业生产员工工资规模超千亿 [57] 场景积累,奥普特在工业机器视觉的竞争优势有望放大 - 奥普特深耕光源业务 16 年,有 3 万余种非标光源定制方案,凭借光源优势在大客户份额稳固,较早切入 3C 电子赛道并深度绑定苹果,产品从 3C 组装端向非组装端渗透,2024 年 3C 电子营收 5.85 亿 [60][64][69] - 机器视觉产业链中掌握核心零部件的公司毛利率高,奥普特各产品中光源和视觉控制系统毛利率最高,盈利能力反映技术水平领先 [73][75] - 奥普特实现机器视觉全产品线布局,可对标基恩士,具备生产多种软硬件产品和提供整体解决方案能力,形成以解决方案带动产品销售的商业模式,销售占比不断增长 [79][89][91] 工业视觉向消费级视觉拓展,技术同源易迁移 - 3D 视觉在中国处于起步阶段,2024 年市场规模约 28.15 亿,预计 2025 年/2028 年分别达 32.45/70.35 亿元,产业链完善和应用增长推动其空间扩容,在人形机器人等领域有广泛应用 [6][96] - 视觉助力机器人实现感知与测量功能,视觉指令能传达更精确时空信息,不同 3D 视觉技术适用场景不同,人形机器人主要采用多目 3D 视觉传感器和 ToF 方案 [102][105][111] 公司产品线拓展完善,布局消费级机器人 3D 视觉 - 奥普特基于自身技术优势对人形机器人等新型终端视觉模组和解决方案布局,深化 3D 核心技术研发,构建立体检测产品矩阵,形成国产 3D 视觉领域技术高地 [113] - 公司规划了小型化散斑结构光系列和 TOF 相机系统,适用于人形机器人和导航避障类应用,2025 年初收购东莞市泰莱自动化科技有限公司控股权,进入运动部件市场,未来有望形成“视觉 + 传感 + 运动控制”综合能力 [7][114]
奥普特(688686):AI为工业视觉插上梦的翅膀,场景积累构筑龙头先发优势
长江证券· 2025-06-11 13:14
报告公司投资评级 - 维持“买入”评级 [11][12] 报告的核心观点 - 机器视觉成长期长、天花板高,2023 年全球机器视觉器件市场规模达 925 亿元,中国市场是主要驱动力,2024 年规模为 181 亿元,2020 - 2024 年 CAGR 为 17.84%,预计 2025 年达 208 亿元,同比增长 14.6% [3][8] - AI 助力机器视觉突破算法局限,SAM 模型等推动视觉检测高效、高精、低成本,深度学习使传统视觉难题“简单化”,奥普特有望凭借优势具备先发优势 [9] - 工业视觉向消费级视觉拓展,3D 视觉空间扩容,2024 年市场规模约 28.15 亿,预计 2025 年/2028 年分别达 32.45/70.35 亿元,奥普特布局消费级机器人 3D 视觉,收购进入运动部件市场,有望形成综合能力 [10][11] 各部分总结 行业规模稳步增长,工业场景替人逐步推进 - 机器视觉本质是为机器植入“眼睛”和“大脑”,系统包含成像、图像分析与处理、智能决策与执行单元,基础功能有定位、识别、测量与检测 [20][22] - 2023 年全球机器视觉器件市场规模达 925 亿元,中国市场规模 2024 年为 181 亿元,2020 - 2024 年 CAGR 为 17.84%,预计 2025 年达 208 亿元,同比增长 14.6%,美国成熟市场仍在扩张 [8][27] - 中国机器视觉主要应用于制造业,2023 年消费电子占比 22% 为第一大行业 [36] 突破算法局限,AI 助力机器视觉实现场景延伸 - 机器视觉存在复杂纹理与材质缺陷检测、动态或柔性物体精准定位、多特征融合与综合质量评估、小批量定制化产品快速适配等局限 [40] - 图像分割比目标检测精细但效率慢,分割模型发展有望提升效率、降低成本,SAM 模型带动分割领域突破,深度学习使传统视觉难题“简单化” [9][42] - AI 算法加成与制造业结合,基于 AI 的 AOI 系统等提高检测准确度和速度,奥普特 AI 产品在多领域应用效果好 [58][60] 苹果引领,机器视觉替人空间广阔 - 苹果推动工厂自动化部署,要求代工厂减少 iPhone 组装线人力,机器视觉替人空间广阔,典型行业机器替人空间大 [63][64] 场景积累,奥普特在工业机器视觉的竞争优势有望放大 - 奥普特深耕光源业务 16 年,有 3 万余种非标光源定制方案,较早切入 3C 电子赛道并深度绑定苹果,产品向非组装端渗透 [67][72] - 机器视觉产业链中掌握核心零部件的公司毛利率高,奥普特各单项产品中视觉控制系统和光源毛利率高 [81][83] - 奥普特实现机器视觉成套系统全产品线布局,有自主视觉软件能力,形成以解决方案带动产品销售的商业模式 [87][95] 工业视觉向消费级视觉拓展,技术同源易迁移 - 2024 年中国 3D 视觉市场规模约 28.15 亿,预计 2025 年/2028 年分别达 32.45/70.35 亿元,产业链完善和应用增长推动其空间扩容 [10][101] - 人形机器人等需要 3D 视觉感知技术,视觉系统需解决适应性难题,不同 3D 视觉技术方案适用场景不同 [105][112] - 奥普特布局消费级机器人 3D 视觉,规划小型化相机系统,收购进入运动部件市场,有望形成综合能力 [115][116]