Workflow
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
机器之心·2025-06-30 10:23

技术突破 - 提出Rex-Thinker解决方案 首次将人类逻辑推理链引入视觉指代任务 通过规划-验证-决策三步走框架实现可解释的AI决策[1][2][5] - 采用基于检索的检测多模态模型设计 结合CoT推理机制 显著提升目标定位准确率和抗幻觉能力[7][9][17] - 在权威测评中准确率显著提升 平均DF1指标达到83.5 拒识子集表现提升13.8个百分点[19][21][25] 模型架构 - 候选框生成阶段使用开放词汇检测器(如Grounding DINO)提取所有可能目标区域作为Box Hint输入[9] - 链式推理阶段对每个候选框生成结构化思考过程 输出标准化JSON格式目标坐标[9][10] - 训练流程采用两阶段策略:SFT冷启动训练掌握基本推理框架 GRPO强化学习优化推理质量与可靠性[11][16][17] 性能表现 - 在HumanRef Benchmark评测中 Rex-Thinker-GRPO版本达到86.6平均DF1值 在属性、位置、交互等子任务中均领先[21] - 跨类别评估显示良好泛化能力 在RefCOCOg数据集上未经微调即达到83.2准确率 经少量微调后提升至88.8[22] - 相比传统模型如Ferret-7B(34.3 DF1)和Qwen2.5-VL-7B(56.2 DF1)有显著提升[21] 应用价值 - 可视化结果显示模型具备清晰的推理路径和可解释性 能有效处理多干扰项和不存在目标的复杂场景[24] - 在线Demo已开放 提供实际应用体验 代码已在GitHub开源[3][7] - 该技术为计算机视觉领域提供新的研究方向 特别是在需要高精度目标定位和可靠拒识能力的工业场景中具有应用潜力[1][2][24]