移动GUI智能体
搜索文档
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升
机器之心· 2025-11-07 07:17
研究背景与核心问题 - 移动GUI智能体是AI领域新热点,旨在让多模态大模型在智能手机上自主操作APP完成复杂任务[2] - 当前训练智能体面临根本瓶颈,即严重依赖昂贵人工标注的大规模高质量专家演示轨迹数据,限制了模型的泛化能力和鲁棒性[2] - GUI操作正确性高度依赖历史上下文,现有评估方法难以准确判断每一步操作的有效性及最终任务完成情况[6] - 缺乏可靠轨迹验证方法导致数据规模存在瓶颈,难以扩展到长链路、跨应用的复杂任务[7] UI-Genie框架核心突破 - 提出自我进化框架UI-Genie,通过智能体模型与奖励模型相互协作实现无需人工标注的高质量数据合成与能力持续提升[3] - 核心突破是从“被动学习”到“主动进化”,解决了移动GUI智能体训练中的数据获取挑战[5] - 框架包含两部分创新:专为移动GUI操作设计的奖励模型UI-Genie-RM,以及用于智能体和奖励模型共同进化的训练闭环[7] UI-Genie-RM奖励模型设计 - UI-Genie-RM是首个专为移动GUI智能体轨迹评估设计的奖励模型,采用图像-文本交错架构处理四种输入[9][10] - 模型设计充分考虑了GUI操作任务特性,需理解整个操作历史并对当前动作正确性进行判断[10] - 研究团队通过三种自动化数据生成策略构建了约51.7万条奖励样本训练模型[11] - 数据生成策略包括基于规则的验证、受控的轨迹破坏和困难负样本挖掘[15] 自我进化机制与迭代过程 - 自我进化闭环包含三个关键环节:奖励引导的轨迹探索、训练数据双向扩展和渐进式任务复杂度提升[14] - 智能体在Android模拟环境中生成候选轨迹,由奖励模型打分并保留累计得分最高的5条路径继续探索[16] - 探索得到的轨迹同时用于强化两个模型:为智能体扩充训练数据,为奖励模型扩充监督信号[17][18] - 共进行三轮迭代,任务难度逐步增加,从使用开源数据到LLM改写指令,再到融合失败任务与人工设计的复杂场景[19][22] 性能评估结果 - 在AndroidControl基准上,UI-Genie的72B模型在高级任务指令下取得86.3%的定位准确率与77.0%的操作成功率[21] - 在AndroidLab的138个真实任务上,UI-Genie平均成功率显著高于商用与开源模型,3B版本对标7B级别基线,7B模型超过部分70B级模型[23] - UI-Genie-RM在包含1050对样本的综合基准上表现最佳,步骤级评估F1分数达79.6%,结果级评估达82.1%[24][25] - 经过三轮迭代,智能体任务成功率从18.1%提升至38.7%,奖励模型准确率从68.2%提高到79.6%[24] 行业应用前景 - GUI Agent作为“端侧隐形助理”正在重塑手机交互方式,可跨应用协同原生日历、文档和邮件应用自动完成会议安排等任务[29] - 在娱乐场景下能与手机自带媒体播放器和相册无缝集成,实现智能识别播放控件和顺畅指令操作[29] - 既为老年用户、视障人士简化手机使用门槛,也为忙碌人群提供便捷服务,未来将融入智能网联生态成为核心交互枢纽[29]