文章核心观点 - 当前多模态大模型的后训练多以文本为中心,视觉信息常作为辅助信号,存在不足 [1] - 提出一种全新的、以视觉为中心的后训练范式“Visual Jigsaw”,旨在显式强化模型对视觉信息本身的细粒度深入理解 [1] - 该方法是一种无需额外标注、无需视觉生成模块的自监督学习任务,在图片、视频和3D三种视觉模态下均验证了有效性 [1] Visual Jigsaw 方法简介 - 该方法是一种通用的视觉信息排序重建任务,将视觉数据划分并打乱成拼图块,模型需预测正确顺序并以文字输出 [5] - 训练过程采用强化学习算法GRPO进行优化 [5] - 设计了分级奖励机制:预测完全正确奖励为1;部分正确按比例给予折扣奖励;输出无效排列则奖励为0 [6] 针对不同视觉模态的任务设计 - Image Jigsaw:将图片在2D空间划分为多个相同大小的子图,模型需恢复正确的空间顺序 [7] - Video Jigsaw:将视频在时间维度分割成等长片段,模型需重建原始的时间顺序 [8] - 3D Jigsaw:从RGB-D图像采样深度点,在图片中标注其位置和打乱后的序号,模型需恢复由近到远的深度次序 [9] 实验结果:Image Jigsaw - 经过Image Jigsaw训练,模型在多项视觉中心基准测试上获得稳定提升 [10] - 在细粒度感知与理解、基于单目图像的空间感知和理解、组合式视觉理解与推理三类任务上均有效 [10] - 具体提升示例:在MMV测试集上,模型性能从55.33提升至60.66(+6.00);在VSR测试集上,从59.95提升至65.81(+6.06)[10] - 提升源于任务要求模型关注局部细节、推理整体空间布局并理解不同部分间关系,直接促进了细粒度、空间和组合式理解 [11] 实验结果:Video Jigsaw - 经过Video Jigsaw训练,模型在各类通用视频理解基准上均表现出稳定提升 [13] - 在需要时间维度推理和时间方向性理解的任务(如AoTBench)上提升尤为显著 [14] - 在CVBench上大幅提升,验证了模型在跨视频理解与推理上的增强 [14] - 具体提升示例:在nogroup mcq测试中,使用64帧时,模型性能从52.41提升至57.64(+3.40)[13] - 任务促使模型更好地捕捉时间连续性、理解视频间关联、推理方向一致性,从而提升整体视频理解能力 [14] 实验结果:3D Jigsaw - 经过3D Jigsaw训练,模型在各类3D基准任务上取得显著提升 [15] - 最突出的提升出现在与深度估计直接相关的DA-2K任务上,性能从54.45提升至71.56(+17.11)[15] - 在单视角基准(如3DSRBench)、多视角基准(如ViewSpatial)及第一人称视频基准(如VSI-Bench)上也观察到一致提升 [15] - 结果表明该方法不仅让模型掌握了深度排序技能,也有效增强了其整体的三维空间感知与推理能力 [15] 总结与意义 - Visual Jigsaw提供了一种以视觉为中心的轻量、可验证、无需标注的新型自监督后训练范式 [16] - 该方法为多模态大模型的视觉感知能力注入了全新活力 [16] - 该工作有望启发学界设计更多聚焦视觉信息本身的自/弱监督任务,以提升模型对各类视觉信息的感知和理解能力 [16]
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
量子位·2025-10-15 10:20