Workflow
GUI智能体
icon
搜索文档
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
机器之心· 2025-09-02 03:44
文章核心观点 - 通义实验室发布全新Mobile-Agent-v3开源解决方案,包含GUI-Owl模型和配套框架,在桌面、移动和Web端实现全链路GUI自动化能力 [1] - GUI-Owl-7B模型在多项基准测试中超越同类开源模型,32B版本性能接近甚至超越GPT-4o和Claude 3.7等顶级闭源模型 [1][21][29] - 通过自我进化数据生产系统和可扩展强化学习体系,实现模型在真实环境中的持续优化和稳定运行 [11][13][23][26] 技术架构创新 - 基于云环境的全链路开源解决方案,支持Android、Ubuntu、macOS、Windows多操作系统云环境基础设施 [11] - 创新性采用自我进化GUI轨迹生产链路系统,自动化生成和筛选训练数据,将人工参与降至最低 [11][13] - 通过轨迹正确性评估模块(Step-Level Critic和Trajectory-Level Critic)实现双重校验机制 [13] - 针对困难任务生成指南生成模块,通过VLM提炼关键动作描述,LLM总结成通关攻略 [14] 性能表现数据 - GUI-Owl-7B在AndroidWorld基准测试中成功率达到59.5%,超越UI-TARS-72B的14.8%和Qwen2.5-VL-72B的52.6% [21] - GUI-Owl-32B在OSWorld-Verified子集测试中达到48.4%成功率,显著超过Seed-1.5-VL的39.7%和Qwen2.5-VL-72B的38.6% [21] - 32B版本在多项评测中展现超越闭源顶级模型的实力 [29] 核心能力构建 - 极致UI元素定位能力:构建复合型Grounding数据集,融合功能、外观、布局等多维信息 [16] - 深度长任务规划与动作语义理解:从历史成功轨迹中蒸馏经验,并从Qwen3-235B等大模型中学习通用规划知识 [19] - 强大稳健推理与泛化适配能力:从Mobile-Agent-v3多智能体框架中蒸馏推理数据,学会多角色视角思考 [20] - 采用SAM对PC界面进行子区域分割,MLLM进行精细定位,解决元素密集界面定位难题 [16] 强化学习体系 - 设计可扩展的环境级强化学习体系,采用统一任务插件接口支持长短任务 [23] - 引入Trajectory-aware Relative Policy Optimization算法,解决奖励信号稀疏和延迟问题 [26] - 采用Replay Buffer机制缓存成功案例,确保模型始终获得正向反馈 [26] - 经验生成与策略更新完全解耦,优化训练效率与成本平衡 [23] 应用价值 - 单一模型即可胜任复杂单体任务与多智能体协作中的不同角色,显著降低部署和资源开销 [29] - 天然具备跨环境、跨角色泛化能力,即插即用到第三方Agent框架仍保持优异性能 [20] - 通过云端沙箱灵活性,能够快速适应并解决各类新场景下的自动化难题 [29]