复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer
具身智能之心·2025-12-22 01:22

文章核心观点 - 由MBZUAI与中山大学的研究团队提出的SpatialDreamer框架,通过模拟人类主动探索、心理想象和空间推理的闭环过程,显著提升了多模态大语言模型在复杂空间任务上的性能,为人工智能空间智能的发展开辟了新路径 [1][4][14] 技术框架与核心流程 - SpatialDreamer是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力 [4] - 其闭环推理流程包含三个步骤:1) 探索:推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);2) 想象:调用世界模型生成执行动作后的新视角图像;3) 推理:整合所有累积的视觉证据,生成最终答案 [6] - 该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定行动与推理 [7] 关键技术创新 - 为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO策略优化方法,该方法包含:1) 树状采样结构,支持回溯与多路径探索;2) 多级奖励设计,融合任务级与步级奖励;3) 几何惩罚机制,对冗余或冲突动作施加惩罚系数(如0.9),以鼓励高效轨迹生成 [8] - GeoPO在提升模型性能的同时,也显著加快了训练收敛速度 [9] - 为引导模型学习「思考-想象-回答」的模式,构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及通过「错误注入 → 自我纠正 → 重建推理链」构建的反思式推理数据 [11] 实验结果与性能表现 - 在SAT基准测试中,SpatialDreamer在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5% [13] - 在MindCube-Tiny基准测试中,整体准确率达到84.9%,较基线模型Qwen2.5-VL-7B提升超过55% [13] - 在VSI-Bench基准测试中,在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2% [13]