Workflow
视觉规划范式
icon
搜索文档
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 03:51
核心观点 - 现有MLLM主要依赖文本作为推理媒介,导致视觉信息在文本化过程中丢失丰富细节,形成"模态鸿沟"[1] - 研究团队提出全新"视觉规划"范式,完全基于视觉表示进行规划,独立于文本模态[4] - 视觉规划通过图像序列编码推理过程,类似人类通过草图进行计划的方式[6] - 该方法在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中表现显著优于文本规划[25] 技术框架 - 采用两阶段强化学习框架VPRL,以GRPO为核心优化方法[16] - 第一阶段通过监督学习初始化视觉生成模型,保持探索多样性[16] - 第二阶段通过模拟未来状态获得奖励反馈,优化视觉规划策略[18] - 设计进度奖励函数,有效推进得1分,无推进得0分,非法动作扣5分[22] 实验表现 - 视觉规划器VPFT和VPRL在所有任务上均取得最高分[25] - VPRL在FROZENLAKE任务上达到91.6% EM和93.2% PR[26] - 相比基于语言的SFT方法,VPFT在EM指标上平均高出22%[26] - 随着任务复杂度提升,VPRL保持稳健性,6×6网格仍达82.4% EM[30] 行业意义 - 证明视觉规划是可行的替代方案,在图像推理任务中展现巨大潜力[14] - 为图像感知与推理领域开辟了新方向[14] - 显示当前前沿语言模型在复杂视觉任务中仍存在明显局限[27] - 强化学习方法相比监督微调展现出关键优势,能自由探索并学习潜在规则[28]