Workflow
RewardMap
icon
搜索文档
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 03:43
研究背景与问题定义 - 多模态大模型在高分辨率、结构密集的视觉信息(如地铁图)理解上面临挑战,容易出现看错线路、漏站、重复路线等推理幻觉 [3] - 传统强化学习方法在路径规划任务中面临奖励极度稀疏的困境,导致训练不稳定且效率低下 [3] RewardMap框架核心设计 - 框架包含两大核心组件:难度感知的细粒度奖励和多阶段强化学习 [10] - 采用课程式训练策略,先从易于获得稠密信号的问题类型开始,逐步迁移到复杂的路径规划任务 [10] - 奖励函数由格式合规、最终正确性和细节项三部分组成,其中细节项权重系数为α=0.5 [11] - 细节项奖励对起点/终点正确性、线路名称匹配、换乘站点合理性、路线分段数等要素分别评分,形成连续型信号而非全或无的评判 [11] 数据集构建 - 构建ReasonMap-Plus数据集,覆盖30座城市,包含4018个问题样本 [6] - 数据集明确区分五类细粒度题型(两类Local Counting、Global Counting、两类True/False),并为强化学习阶段提供细密监督 [6] - 数据集包含易/中/难三级难度标签,在训练/测试划分上保持城市与难度分布的多样性与均衡性 [6] 性能评估结果 - RewardMap在六项外部评测基准上均取得一致提升,在SpatialEval上的增幅最高达到+13.51% [13] - 在Qwen2.5-VL-7B-Instruct模型上,RewardMap相比基线RL在平均性能上提升+3.47% [14] - 质化对比显示,经过RewardMap训练的模型显著减少了视觉混淆和幻觉现象,在路线分段上更能匹配真实地图结构 [15] 应用价值与未来展望 - 该框架为高分辨率、强结构的视觉任务提供了一套可复用的强化学习范式 [17] - 基于地图数据的后训练被验证能提升多模态大模型的通用能力,未来这类真实数据将在模型不同训练阶段发挥更大作用 [18]