Workflow
Mobile Agents
icon
搜索文档
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
机器之心· 2025-07-26 09:32
端侧智能发展现状 - 多模态大模型驱动的OS智能体在单屏动作落实和短链操作任务上表现突出,但面对复合长程任务(如跨应用比价下单、多网页新闻摘要)仍存在显著能力缺口[4] - 当前训练方式(环境感知、动作落实微调)优化了原子任务表现,但复合任务需解决长链条进度管理、异源信息整合等新挑战[4] 复合任务分类与挑战 - 三类复合任务:独立组合型(无依赖子任务拼接)、语境传递型(需跨应用信息继承)、深度分析型(需结合通用推理与设备操作)[11] - 主流移动端GUI智能体(OS-Atlas、UI-TARS等)在复合任务中普遍存在注意力涣散、信息传递失败、进度管理混乱等典型缺陷[14][16] UI-NEXUS测试基准 - 覆盖50款中英文应用(20本地+30在线),设计100个任务模板,平均最优完成步数14.05步,难度显著高于同类基准[7][21] - 包含动态测评平台UI-NEXUS-Anchor子集,支持可控环境下的可扩展测试开发[21] - 细粒度指标涵盖任务成功率、推理时延、Token成本等维度[21] 智能体技术方案对比 - Agent-as-a-Model方案(如UI-TARS-7B-SFT)在原子任务执行效率高,但复合任务完成率仅11%[25][29] - Agentic Workflow方案(如M3A)鲁棒性更强,但依赖GPT-4o导致高推理成本(时延长、费用高)[27][31] - 记忆机制差异显著影响表现:主动记忆型(Mobile-Agent-V2)优于部分记忆型,但计算冗余大[32] AGENT-NEXUS调度系统 - 采用分层架构(调度/执行/进程内存模块),将复合任务拆解为原子指令,任务完成率提升24%-40%[19][27][30] - 支持第三方智能体插件化接入(如UI-TARS-7B-SFT),推理开销仅增加8%[23][27] - 通过显式调度解决信息传递问题,逼近人工拆解指令的60%强上限表现[29][30] 未来技术方向 - 需融合领域微调模型的高效执行与工作流系统的复杂调度能力[31][32] - 系统级设计将成为突破复合任务瓶颈的关键,推动端侧智能向AI操作系统演进[35][36]