Workflow
UItron
icon
搜索文档
更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
量子位· 2025-08-31 04:25
多模态智能体UItron技术突破 - 开源多模态智能体UItron具备自动操作手机、电脑、浏览器的能力 通过多模态学习和多步执行轨迹数据实现人类化交互如点击、滑动和输入 [1] - 在中文APP场景下表现优异 适用于复杂多步任务 显著提升中文场景交互效率 [3] - 由浙江大学和美团联合开发 具备先进GUI内容感知、任务定位和推理规划能力 弥补操作轨迹稀缺性和智能体交互基建可用性不足 [4] 数据工程与交互基建 - 构建系统性数据工程缓解操作轨迹缺乏问题 包括感知数据、规划数据和蒸馏数据 整合OCR、VQA、Caption等多任务数据提升页面理解能力 [8] - 搭建连接移动和PC设备的交互环境基建 支持自动记录截图和坐标 简化手动标注难度 显著提高中文场景操作轨迹收集效率 [10] - 交互环境同时支持英文和中文国内App 为在线强化学习提供训练基础 实现动作执行与界面更新的交替循环 [10] 训练方法与性能表现 - 采用三阶段训练策略 包括感知任务SFT阶段、规划任务SFT阶段和课程强化学习RL阶段 涵盖从离线步骤级到在线任务级的强化学习 [12][14] - 在开源榜单ScreenspotV2上取得92.0平均分 优于现有方法 体现强大GUI内容理解和任务定位能力 [16] - 在Android-Control和GUI-Odyssey离线规划榜单中实现92.9最高平均分 显著超越其他工作 展示卓越任务规划与执行能力 [18] - 在OSWorld评测中取得24.9分(15 Steps) 为所有GUI Agent中性能最佳 但弱于专注于compute-use场景的CUA方法 [19] - 针对国内月活前100的Apps构建中文本地化评测环境 UItron在中文场景下取得明显性能优势 通过中文轨迹收集和交互基建提升智能体水平 [19] 行业影响与应用前景 - 在主流多模态智能体评测榜单中全面领先 提供更强开源基础模型 推动未来技术发展 [20] - 强调多模态智能体可用性和可信度研究 聚焦中文App交互真实应用诉求 提升人机交互效率与应用价值 [20]