Workflow
文本提示图像分割
icon
搜索文档
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型
机器之心· 2025-12-29 04:44
技术背景与行业瓶颈 - 文本提示图像分割是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大战略意义[2] - 当前主流技术路径(如基于监督式微调的方法)面临根本性瓶颈,本质是静态模式匹配,泛化能力受限,形成难以逾越的“能力天花板”[2] - 在处理需要多步、复杂推理的未知指令时,传统方法性能显著下降,根源在于训练中忽略了动态、显式的推理过程[2] LENS框架核心创新 - 引入LENS框架,摒弃静态监督式微调,采用端到端强化学习机制,将高层次“思考”过程与像素级“执行”过程进行动态联合优化[3] - 框架旨在赋予分割模型真正的、上下文感知的推理能力,从根本上提升其在复杂任务中的鲁棒性和泛化性[3] - 核心设计通过端到端联合优化,彻底打破传统模型中“思考”与“执行”之间的信息壁垒[9] - 相比非端到端设计,LENS通过反馈闭环具备自我纠正能力,能从不完美的初步定位中恢复,而非将误差单向传播至下游[9] LENS架构与组件 - 整体架构由三大核心组件构成:多模态大语言模型、上下文模块、分割模型[10] - 多模态大语言模型作为“推理核心”,处理图像和文本指令,生成思维链推理过程并给出初步目标边界框[10] - 上下文模块作为“信息桥梁”,是关键创新,由一组可学习的上下文查询和一个连接器组成,将推理信息转化为分割模型能高效利用的密集提示[12] - 分割模型作为“像素解码器”,接收来自上下文模块的复杂指令,结合原始图像信息,执行精准的像素级掩码生成[13] 训练与优化机制 - 基于Group Relative Policy Optimization方法构建了统一强化学习奖励机制,该机制是多维度的[14] - 奖励机制同时监督三个层级:格式奖励、边界框IoU奖励、分割掩码IoU奖励[17] - 通过联合优化,将统一的GRPO目标与监督分割损失相结合,使模型能从奖励驱动的推理改进和直接的分割监督中同时受益[16] - 端到端特性解决了定位错误向下游传播的问题,即使定位框错误,强大的上下文查询也能引导分割模型走向正确[16] 性能表现与行业地位 - 在RefCOCO系列的基准测试中取得了81.2%的平均cIoU,达到了世界最高水平[18] - 在更具挑战性的零样本基准测试GroundingSuite-Eval中,cIoU达到78.3%,超越第二优方法接近10%[18] - 具体数据:在ReasonSeg-Val数据集上,gIoU为62.1%,cIoU为64.9%;在ReasonSeg-Test数据集上,gIoU为57.2%,cIoU为58.0%;在GS-Eval数据集上,gIoU为67.0%,cIoU为78.3%[19] - 成果表明,基于统一强化学习奖励驱动的思维链推理方法能显著提升文本提示下的分割能力[19]