Workflow
目标检测
icon
搜索文档
下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务
机器之心· 2025-11-13 08:26
核心观点 - 多模态大语言模型在目标定位精度上取得重大突破,IDEA研究院的Rex-Omni模型首次在零样本检测性能上超越传统基于坐标回归的检测器 [2][4] - 该模型通过三大核心设计系统性地解决了MLLM的几何离散化挑战和行为调控缺陷,实现了强大的语言理解与精确几何感知的融合 [10][11] - Rex-Omni在10多项视觉感知任务上实现SOTA性能,预示下一代强语言理解感知系统的到来 [4][45] 目标检测领域的范式困境 - 目标检测的“金杯”是构建能根据任意自然语言提示检测任意物体且无需微调的通用模型 [7] - 传统回归模型(如DETR、Grounding DINO)定位精度高但语言理解能力浅,无法满足复杂语义要求 [7] - MLLM模型(如Qwen2.5-VL)具有强大语言理解能力,但面临几何离散化挑战和行为调控缺陷两大根本问题,导致定位能力不足 [7][9] Rex-Omni的核心技术突破 - **输出形式与任务设计**:采用统一的“下一个点预测”框架,将各种视觉感知任务转化为坐标序列生成,使用量化相对坐标和专有Token,表示一个完整边界框仅需4个特殊Token,Token效率提升数倍 [11][13][14] - **多种数据引擎**:构建Grounding、Referring、Pointing等定制化数据引擎,自动化生成大规模高质量训练数据,共在2200万张高标注质量图像样本上训练 [16] - **两阶段训练方法**:采用SFT+GRPO两阶段训练,SFT阶段在2200万数据上进行监督微调,GRPO阶段在66K数据上采用强化学习后训练,通过几何感知奖励函数解锁模型潜在能力 [17][19][21] 实验性能评估结果 - **通用目标检测**:在COCO基准零样本评估下,Rex-Omni的F1@IoU=0.5达72.0%,超越Grounding DINO的69.8%;在LVIS基准上F1@IoU=0.5达64.3%,超越Grounding DINO的47.7% [20][22][23][24] - **密集小物体检测**:在VisDrone任务上F1@mIoU达35.8%,在Dense200任务上达58.3%,均为MLLM中最高性能,相比SEED1.5-VL等模型输出相同数量目标时Token数减少90%以上 [27][28] - **多任务通用处理**:在对象指代任务RefCOCOg test上F1@mIoU达74.3%,在对象点选任务中所有测试数据集均取得MLLM最高F1-Score,在GUI定位和OCR任务中也展现卓越跨场景泛化能力 [31][32][34][37] GRPO训练机制深度分析 - GRPO并非从零学习,而是通过奖励反馈解锁SFT模型已具备的定位潜能,仅需极少训练步骤就使性能出现陡峭跃升 [40][41] - 核心贡献在于行为矫正,GRPO将SFT模型在密集场景下预测大框的占比从20.5%降至3.5%,并几乎自动消除重复预测问题 [43][47] - GRPO显著提升了模型采样到高质量正确答案的概率,使SFT模型在贪心解码时更可靠地选择最优解 [43]
出现断层了?ICCV2025的自动驾驶方向演变...
自动驾驶之心· 2025-07-24 09:42
多模态大模型 & VLA - ORION框架提出端到端自动驾驶方案 通过视觉语言指令生成动作 华科与小米联合研发 [5] - DriveMM构建全合一大型多模态模型 中山大学与美团合作开发 支持自动驾驶多任务处理 [6][7] - MCAM模型实现自我车辆级驾驶视频因果分析 重庆大学团队开源代码 [9] - AdaDrive/VLDrive双系统实现语言驱动的自适应驾驶 轻量化设计提升效率 [10] 仿真 & 重建 - ETA框架采用大模型双路径决策 科奇大学与港大合作提升自动驾驶效率 [13] - InvRGB+L实现复杂场景逆向渲染 清华与UIUC联合建模色彩与激光反射 [14] - AD-GS通过B样条高斯泼溅技术 南开与UIUC实现自监督场景重建 [16][18] - BézierGS动态重建城市场景 复旦大学采用贝塞尔曲线高斯泼溅技术 [19] - RGE-GS利用扩散先验引导场景重建 清华与菜鸟网络联合开发 [21][24] 端到端 & 轨迹预测 - Epona世界模型基于自回归扩散 清华与地平线合作生成驾驶轨迹 [25] - World4Drive构建意图感知潜空间模型 中科院自动化所与理想汽车联合研发 [30] - MagicDrive-V2实现高分辨率长视频生成 港中文与华为诺亚方舟实验室合作 [32][35] - DiST-4D解耦时空扩散生成4D场景 清华与旷视科技联合开发 [36] 占用网络 - B2S模型将二值占用数据升级为语义预测 丰田汽车公司研发 [44] - DISC模型解耦实例与场景上下文 华科团队实现3D语义场景补全 [45] - GaussRender采用高斯渲染学习3D占用 Valeo AI与索邦大学合作 [52] - GaussianOcc基于高斯泼溅自监督估计3D占用 东京大学团队开发 [54] 目标检测 - PI3Det实现透视不变3D检测 新国大与复旦联合研发 [59] - MambaFusion多模态3D检测框架 中科院自动化所与上海交大合作 [64] - OcRFDet基于神经辐射场多视角检测 南京理工大学开发 [69] 数据集与评估 - ROADWork数据集专注施工区场景识别 卡内基梅隆大学发布 [73] - VLADBench细粒度评估大视觉语言模型 中科大与华为诺亚方舟实验室联合推出 [81] - LiMA跨视角蒸馏提升LiDAR表征 新国大与南航合作 [88][89] 其他技术 - Dynamic-DINO实时开放词汇检测 浙大与中兴通讯联合开发 [83] - DepthForge增强域泛化语义分割 集美大学与中山大学合作 [87][90]
奥普特(688686):AI为工业视觉插上梦的翅膀,场景积累构筑龙头先发优势
长江证券· 2025-06-11 13:14
报告公司投资评级 - 维持“买入”评级 [11][12] 报告的核心观点 - 机器视觉成长期长、天花板高,2023 年全球机器视觉器件市场规模达 925 亿元,中国市场是主要驱动力,2024 年规模为 181 亿元,2020 - 2024 年 CAGR 为 17.84%,预计 2025 年达 208 亿元,同比增长 14.6% [3][8] - AI 助力机器视觉突破算法局限,SAM 模型等推动视觉检测高效、高精、低成本,深度学习使传统视觉难题“简单化”,奥普特有望凭借优势具备先发优势 [9] - 工业视觉向消费级视觉拓展,3D 视觉空间扩容,2024 年市场规模约 28.15 亿,预计 2025 年/2028 年分别达 32.45/70.35 亿元,奥普特布局消费级机器人 3D 视觉,收购进入运动部件市场,有望形成综合能力 [10][11] 各部分总结 行业规模稳步增长,工业场景替人逐步推进 - 机器视觉本质是为机器植入“眼睛”和“大脑”,系统包含成像、图像分析与处理、智能决策与执行单元,基础功能有定位、识别、测量与检测 [20][22] - 2023 年全球机器视觉器件市场规模达 925 亿元,中国市场规模 2024 年为 181 亿元,2020 - 2024 年 CAGR 为 17.84%,预计 2025 年达 208 亿元,同比增长 14.6%,美国成熟市场仍在扩张 [8][27] - 中国机器视觉主要应用于制造业,2023 年消费电子占比 22% 为第一大行业 [36] 突破算法局限,AI 助力机器视觉实现场景延伸 - 机器视觉存在复杂纹理与材质缺陷检测、动态或柔性物体精准定位、多特征融合与综合质量评估、小批量定制化产品快速适配等局限 [40] - 图像分割比目标检测精细但效率慢,分割模型发展有望提升效率、降低成本,SAM 模型带动分割领域突破,深度学习使传统视觉难题“简单化” [9][42] - AI 算法加成与制造业结合,基于 AI 的 AOI 系统等提高检测准确度和速度,奥普特 AI 产品在多领域应用效果好 [58][60] 苹果引领,机器视觉替人空间广阔 - 苹果推动工厂自动化部署,要求代工厂减少 iPhone 组装线人力,机器视觉替人空间广阔,典型行业机器替人空间大 [63][64] 场景积累,奥普特在工业机器视觉的竞争优势有望放大 - 奥普特深耕光源业务 16 年,有 3 万余种非标光源定制方案,较早切入 3C 电子赛道并深度绑定苹果,产品向非组装端渗透 [67][72] - 机器视觉产业链中掌握核心零部件的公司毛利率高,奥普特各单项产品中视觉控制系统和光源毛利率高 [81][83] - 奥普特实现机器视觉成套系统全产品线布局,有自主视觉软件能力,形成以解决方案带动产品销售的商业模式 [87][95] 工业视觉向消费级视觉拓展,技术同源易迁移 - 2024 年中国 3D 视觉市场规模约 28.15 亿,预计 2025 年/2028 年分别达 32.45/70.35 亿元,产业链完善和应用增长推动其空间扩容 [10][101] - 人形机器人等需要 3D 视觉感知技术,视觉系统需解决适应性难题,不同 3D 视觉技术方案适用场景不同 [105][112] - 奥普特布局消费级机器人 3D 视觉,规划小型化相机系统,收购进入运动部件市场,有望形成综合能力 [115][116]