Workflow
交互式强化学习
icon
搜索文档
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
机器之心· 2025-10-20 07:48
文章核心观点 - 提出一种名为AGILE的全新自监督学习范式,旨在解决现有视觉语言大模型在细粒度视觉信息理解和推理能力上的短板 [2] - 该方法通过将“智能体交互”迁移至多模态大模型的强化学习训练中,采用“模型生成动作代码 + 视觉环境反馈”的循环交互过程,显著提升模型的视觉感知与逻辑推理能力 [2] 方法框架与核心机制 - 方法核心为“交互式智能体 + 拼图代理任务”,将拼图过程建模为可控、可验证的交互式形式 [7][8] - 流程形成“观察–交互–反馈–学习”的智能体训练闭环,使模型能在自监督方式下持续提升能力 [8] - 模型在每一步生成Python动作代码(如Swap、Observe),环境执行代码并返回视觉反馈,模型据此调整拼图策略,循环直至任务完成 [10] 训练流程与数据规模 - 训练分为两个阶段:Cold-Start阶段使用Gemini 2.5 Pro生成1.6K条高质量专家拼图交互轨迹,解决模型初期“不会动手”的问题 [9] - Reinforcement Learning阶段在15.6K张图像上训练,采用GRPO算法,通过准确率、格式规范与交互轮数三重奖励信号优化策略 [9] - 数据规模实验显示,当训练数据从0扩展至16K时,拼图任务准确率从22.0%提升至82.8%,同时在其他基准测试上也获得持续增益,表明该方法具备良好的可扩展性 [18] 性能表现与评估结果 - 在系统设计的拼图评估数据集上,AGILE使模型在2×2拼图任务中的准确率从9.5%大幅提升至82.8%,比Gemini 2.5 Pro高出36.4个百分点 [13][14] - 在更具挑战性的3×3拼图任务中,准确率从0.4%提升至20.8%,标志着模型感知和推理能力的大幅跃升 [13][14] - 通用能力评测显示,经过拼图训练的模型在9项通用视觉任务中平均性能提升3.1%,展现出强大的泛化能力 [15][18] 方法比较与潜力 - 与常规QA数据的对比实验表明,拼图任务提供了更强的结构感知与监督信号,在缓解多模态强化学习数据稀缺方面展现出潜力 [20] - AGILE证明了“交互式拼图代理任务”作为突破数据瓶颈、强化视觉语言大模型的可行性,为多模态模型开发开辟了新方向 [20][22]
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
量子位· 2025-07-20 02:49
移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励(SFT或RL),难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败,显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架,整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程:格式微调(SFT)、动作级训练(GRPO)、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集,覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证(边界框匹配)和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性,格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动,增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%,较最佳基线(AgentCPM-8B的30%)提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版,动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果,最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性,泛化能力优于基准模型[29][32]