GUI智能体训练 - 财报，业绩电话会，研报，新闻

GUI智能体训练

搜索文档

量子位· 2025-09-23 11:01

核心观点 - 浙江大学与通义实验室Mobile-Agent团队提出UI-S1框架采用半在线强化学习训练范式显著提升GUI智能体在动态多轮任务中的表现在AndroidWorld任务中达到34.0%成功率接近GPT-4o的34.5% [1][2][25] - 该方法融合离线训练稳定性与在线学习长程优化能力通过模拟在线交互过程在不依赖真实环境交互的前提下提升模型连贯性与推理能力 [2][4][9] - 创新性体现为三大核心技术：半在线机制模拟在线交互补丁机制修复采样偏差长程奖励建模捕获轨迹级优势 [10][12][20] 技术架构创新 - 半在线机制在离线数据中保留模型自身原始输出（动作选择与思维链）使模型感知历史行为并调整后续决策增强策略一致性与多轮连贯性 [14][15][16] - 补丁机制提供三种可配置策略：Thought-Free Patch仅修正动作 On-Policy Thought Patch引导模型生成正确推理 Off-Policy Thought Patch调用外部模型重写思维链 [17][18] - 长程奖励建模引入折扣因子γ（最优值为0.5）结合未来步骤潜在价值形成综合奖励弥补传统离线RL无法捕获未来收益的缺陷 [20][21][43] 性能表现 - 在AndroidWorld任务中UI-S1-7B达到34.0%成功率较基础模型提升+19.1个百分点接近GPT-4o（34.5%）且优于UI-TARS-7B（33.0%） [25][27] - 单轮任务保持优势 GUI Odyssey任务较基础模型提升+7.1个百分点证明未牺牲局部精度 [27][28] - 动态评测指标SOP与真实在线性能高度对齐支持更高任务多样性和更快评估速度 [23] 机制有效性验证 - 提高补丁阈值显著提升性能：当阈值从0增至8时 AndroidWorld得分从21.0提升至34.5 [31] - On-Policy Thought Patch性能最优但计算开销大 Thought-Free Patch性价比最高且接近最优性能 [32][33] - 较高补丁阈值维持策略熵避免过早收敛促进探索多样性 [19][35][36] 数据与扩展性 - 性能增长符合指数型数据规模律补丁阈值从0增至无穷时指数系数k从-1.13提升至-0.73 表明单位数据边际收益改善 [38][39][40] - 联合使用SFT与半在线RL效果最优 AndroidWorld任务成功率34.0% 分别高于单独使用Semi-online RL（30.4%）和SFT（21.7%） [27][44]