Workflow
RePE
icon
搜索文档
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
量子位· 2025-12-04 09:55
多模态大语言模型空间理解能力的挑战与突破 - 空间推理是多模态大语言模型在实际应用中的关键挑战 当前大多数方法采用“语言描述式调优” 导致模型出现“视觉文盲”现象 无法在生成回答时关注到正确的视觉区域[2] - 基线模型在回答具体问题时 其视觉注意力分散在无关区域 反映出当前模型在空间语义与视觉感知之间缺乏跨模态对齐[3] MILO隐式空间世界建模范式 - 研究团队提出MILO范式 通过引入视觉生成反馈 将符号推理与感知经验隐式结合 旨在为模型植入“空间想象力”[4] - MILO采用两阶段训练流程 在传统语言调优基础上引入视觉生成调优 模型接收几何变换指令并调用视频扩散模型生成新视角图像 从而学习空间变换的视觉表现[5] - 该方法使多模态大语言模型能够内化几何变换的视觉表现 建立起类人的隐式空间世界模型[6] RePE相对位置编码方案 - 团队提出RePE方案 这是一种基于相对相机位姿变换的位置编码方案[8] - 与传统的绝对坐标系编码不同 RePE捕捉相邻帧之间的相对变换 从而具备更好的泛化性与跨数据集适应性[9] GeoGen几何感知生成数据集 - 研究团队构建了GeoGen数据集 包含约2,241个视频和26.7万个“观测-动作-结果”三元组的大规模几何感知生成数据集[10] - 数据集涵盖新视角合成与轨迹生成两类核心任务 数据来源包括扫描的3D场景和互联网视频 确保了数据的多样性和真实性[10][11] MILO在多类任务上的验证效果 - 在3D场景理解任务上 MILO在ScanRefer、Multi3DRefer等多个基准上取得最优性能 在ScanRefer上Acc@0.25指标提升3.2%[14] - 在空间推理任务上 在VSI-Bench上平均准确率达61.7% 超越基线VG-LLM模型2.2%[14] - 在具身任务上 在RefSpatial-Bench的三个子集上全面领先 尤其在未见组合关系任务上提升1.3%[16]