Workflow
GUI grounding
icon
搜索文档
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
量子位· 2025-09-05 01:49
ZJU REAL Lab 团队 投稿 量子位 | 公众号 QbitAI 无需海量数据标注,智能体也能精确识别定位目标元素了! 来自浙大等机构的研究人员提出 GUI-RCPO ——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding (图形界面定位) 能力。 何谓GUI grounding?为什么要提升这项能力? 简单而言,近年来,以视觉-语言模型为骨架的GUI智能体正在迅猛发展,只需要一句语言指令,它们就能像人一样手眼协同地操作电脑、手 机、网页等界面。 GUI智能体的一个关键能力在于GUI grounding,也就是根据用户给出的自然语言指令,GUI智能体需要在用户界面中精确地识别并定位可操 作的目标元素。 良好的GUI grounding能力可以使得GUI智能体更好地理解图形界面,以及完成更加精准地界面交互。 然而,想要训练这样一种看似简单的能力,却需要大规模高质量的标注数据——当前绝大多数方法动辄需要上百万级的标注数据,而构建这样 的高质量的标注数据需要大量的人工和时间成本。 而GUI-RCPO正好解决了上述问题,其核心原理如下: 通过创新性地将Test-time ...