多模态大模型后训练
搜索文档
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
量子位· 2025-11-28 04:11
文章核心观点 - 多模态大模型后训练中,样本难度比训练范式更为关键,仅使用强化学习策略(GRPO-only)进行优化是可行且有效的,无需监督微调(SFT)作为前置步骤 [2][3][36][37] - 研究提出了两种可量化的样本难度评估策略(PISM和CMAB),并基于此设计了分层训练框架,在多个基准测试上取得了显著性能提升 [6][7][36] 研究方法与创新 - 提出渐进式图像语义掩码(PISM)策略,通过模拟不同程度的视觉信息损失来量化样本对视觉细节的依赖程度,从而划分样本难度 [10][14][15][16][17] - 提出跨模态注意力平衡(CMAB)策略,通过分析模型生成响应时对文本和图像的注意力之比,评估跨模态交互复杂度以划分样本难度 [19][20][21][22] - 设计了两种后训练范式进行对比:GRPO-only范式(直接对中高难度样本应用强化学习)和SFT+GRPO范式(先进行监督微调再进行强化学习) [23][24][25] 实验结果与分析 - 在视觉推理任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,OCRBench达到77.8分,MMMU提升0.107,MMStar提升0.083,全面超越传统SFT+GRPO范式 [28][29] - 在视觉感知任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,MMVet达到50.367分,MMMU达到0.550分,MMStar达到0.629分,尤其在需要跨模态深度融合的任务中优势明显 [33][34] - 实验表明SFT阶段并未带来性能增益,甚至可能因引入“伪思维链”而限制模型真实推理能力,所有SFT+GRPO范式的性能均低于GRPO-only范式 [29][36] 行业影响与未来方向 - 该研究为多模态大模型性能提升提供了全新技术路径,推翻了“SFT是RL后训练必要前提”的传统认知,极大简化了训练流程 [3][37] - 未来研究方向包括动态难度调整、多策略融合以及在百亿参数级大模型上验证方法的泛化性 [38] - 研究代码已开源,为后续研究提供可复现的技术基础,有望推动多模态AI在医疗、教育、自动驾驶等领域的实际应用 [39][40]
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
量子位· 2025-10-15 10:20
VisualJigsaw团队 投稿 量子位 | 公众号 QbitAI 在多模态大模型的后训练浪潮中,强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。 然而,大多数现有方法仍 以文本为中心 ,视觉部分常被动地作为辅助信号输入。相比之下,我们认为在后训练阶段重新审视 视觉自监督学 习 的潜力,设计 以视觉为中心 的后训练对于增强多模态大模型对于视觉信息本身的细粒度深入理解也同样至关重要。 为此,来自MMLab@南洋理工大学的最新论文 《Visual Jigsaw Post-Training Improves MLLMs》 提出了一种全新的针对多模态大模 型后训练任务- Visual Jigsaw 。 它将经典的自监督拼图任务重新设计为多模态大模型后训练阶段的核心目标,让模型在不依赖额外标注、也无需视觉生成模块的情况下,显式 强化自身的视觉感知与理解能力。在图片,视频,和3D三种视觉模态下都验证了其有效性。 Visual Jigsaw 方法简介 对于不同视觉模态,具体的Visual Jigsaw任务设计如下 Image Jigsaw: 图片在2D空间上被划分为 个相同大小的子图,打乱后模型需恢复正确的空间 ...