分割一切并不够，还要3D重建一切，SAM 3D来了

Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新，将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能，并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台，方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型：SAM 3D Objects支持物体与场景重建，SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计，生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎，通过标注近100万张图像生成约314万个3D网格，突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR，构建于Transformer架构，使用包含约800万张图像的数据集训练，能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力，能根据文本或图像提示找到并分割某个概念的所有实例，克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上，检测模块基于DETR，跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升，将cgF1分数提升两倍，优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高，在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒，视频中多目标情况下仍可保持近实时表现[44]