Workflow
视觉语言大模型(VLMs)
icon
搜索文档
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
机器之心· 2025-10-20 07:48
文章核心观点 - 提出一种名为AGILE的全新自监督学习范式,旨在解决现有视觉语言大模型在细粒度视觉信息理解和推理能力上的短板 [2] - 该方法通过将“智能体交互”迁移至多模态大模型的强化学习训练中,采用“模型生成动作代码 + 视觉环境反馈”的循环交互过程,显著提升模型的视觉感知与逻辑推理能力 [2] 方法框架与核心机制 - 方法核心为“交互式智能体 + 拼图代理任务”,将拼图过程建模为可控、可验证的交互式形式 [7][8] - 流程形成“观察–交互–反馈–学习”的智能体训练闭环,使模型能在自监督方式下持续提升能力 [8] - 模型在每一步生成Python动作代码(如Swap、Observe),环境执行代码并返回视觉反馈,模型据此调整拼图策略,循环直至任务完成 [10] 训练流程与数据规模 - 训练分为两个阶段:Cold-Start阶段使用Gemini 2.5 Pro生成1.6K条高质量专家拼图交互轨迹,解决模型初期“不会动手”的问题 [9] - Reinforcement Learning阶段在15.6K张图像上训练,采用GRPO算法,通过准确率、格式规范与交互轮数三重奖励信号优化策略 [9] - 数据规模实验显示,当训练数据从0扩展至16K时,拼图任务准确率从22.0%提升至82.8%,同时在其他基准测试上也获得持续增益,表明该方法具备良好的可扩展性 [18] 性能表现与评估结果 - 在系统设计的拼图评估数据集上,AGILE使模型在2×2拼图任务中的准确率从9.5%大幅提升至82.8%,比Gemini 2.5 Pro高出36.4个百分点 [13][14] - 在更具挑战性的3×3拼图任务中,准确率从0.4%提升至20.8%,标志着模型感知和推理能力的大幅跃升 [13][14] - 通用能力评测显示,经过拼图训练的模型在9项通用视觉任务中平均性能提升3.1%,展现出强大的泛化能力 [15][18] 方法比较与潜力 - 与常规QA数据的对比实验表明,拼图任务提供了更强的结构感知与监督信号,在缓解多模态强化学习数据稀缺方面展现出潜力 [20] - AGILE证明了“交互式拼图代理任务”作为突破数据瓶颈、强化视觉语言大模型的可行性,为多模态模型开发开辟了新方向 [20][22]