下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务
机器之心·2025-11-13 08:26

核心观点 - 多模态大语言模型在目标定位精度上取得重大突破,IDEA研究院的Rex-Omni模型首次在零样本检测性能上超越传统基于坐标回归的检测器 [2][4] - 该模型通过三大核心设计系统性地解决了MLLM的几何离散化挑战和行为调控缺陷,实现了强大的语言理解与精确几何感知的融合 [10][11] - Rex-Omni在10多项视觉感知任务上实现SOTA性能,预示下一代强语言理解感知系统的到来 [4][45] 目标检测领域的范式困境 - 目标检测的“金杯”是构建能根据任意自然语言提示检测任意物体且无需微调的通用模型 [7] - 传统回归模型(如DETR、Grounding DINO)定位精度高但语言理解能力浅,无法满足复杂语义要求 [7] - MLLM模型(如Qwen2.5-VL)具有强大语言理解能力,但面临几何离散化挑战和行为调控缺陷两大根本问题,导致定位能力不足 [7][9] Rex-Omni的核心技术突破 - 输出形式与任务设计:采用统一的“下一个点预测”框架,将各种视觉感知任务转化为坐标序列生成,使用量化相对坐标和专有Token,表示一个完整边界框仅需4个特殊Token,Token效率提升数倍 [11][13][14] - 多种数据引擎:构建Grounding、Referring、Pointing等定制化数据引擎,自动化生成大规模高质量训练数据,共在2200万张高标注质量图像样本上训练 [16] - 两阶段训练方法:采用SFT+GRPO两阶段训练,SFT阶段在2200万数据上进行监督微调,GRPO阶段在66K数据上采用强化学习后训练,通过几何感知奖励函数解锁模型潜在能力 [17][19][21] 实验性能评估结果 - 通用目标检测:在COCO基准零样本评估下,Rex-Omni的F1@IoU=0.5达72.0%,超越Grounding DINO的69.8%;在LVIS基准上F1@IoU=0.5达64.3%,超越Grounding DINO的47.7% [20][22][23][24] - 密集小物体检测:在VisDrone任务上F1@mIoU达35.8%,在Dense200任务上达58.3%,均为MLLM中最高性能,相比SEED1.5-VL等模型输出相同数量目标时Token数减少90%以上 [27][28] - 多任务通用处理:在对象指代任务RefCOCOg test上F1@mIoU达74.3%,在对象点选任务中所有测试数据集均取得MLLM最高F1-Score,在GUI定位和OCR任务中也展现卓越跨场景泛化能力 [31][32][34][37] GRPO训练机制深度分析 - GRPO并非从零学习,而是通过奖励反馈解锁SFT模型已具备的定位潜能,仅需极少训练步骤就使性能出现陡峭跃升 [40][41] - 核心贡献在于行为矫正,GRPO将SFT模型在密集场景下预测大框的占比从20.5%降至3.5%,并几乎自动消除重复预测问题 [43][47] - GRPO显著提升了模型采样到高质量正确答案的概率,使SFT模型在贪心解码时更可靠地选择最优解 [43]