复杂空间推理新SOTA,性能提升55%,中山大学新作SpatialDreamer
36氪·2025-12-22 10:12

核心观点 - 中山大学等机构推出的SpatialDreamer框架通过模拟人类主动心理想象和空间推理过程显著提升了多模态大语言模型在复杂空间任务中的性能为人工智能空间智能发展开辟了新路径 [1] 技术框架与原理 - SpatialDreamer构建了一个基于强化学习的闭环推理流程包含探索、想象、推理三个步骤使模型从被动观察转向主动目标导向的想象 [4] - 为解决长序列推理奖励稀疏问题研究团队提出了GeoPO策略优化方法结合树状采样结构、多级奖励设计和几何惩罚机制以提升性能并加快训练收敛 [4] - 为引导模型学习特定推理模式构建了SpatialDreamer-SFT数据集包含单轮推理数据以及通过错误注入和自我纠正构建的反思式推理数据 [6] 性能表现 - 在SAT基准的真实与合成图像测试中平均准确率分别达到93.9%与92.5%实现了最先进的性能 [7] - 在MindCube-Tiny基准上整体准确率达到84.9%较基线模型Qwen2.5-VL-7B提升超过55% [7] - 在VSI-Bench的物体计数、相对方向、路径规划等任务中全面领先平均准确率达到62.2% [7] 行业意义与发展方向 - 该研究证明了多模态大语言模型可以通过“想象力”增强推理能力是向人类般空间智能迈出的重要一步 [7] - 该框架解决了现有模型在需要视角变换等复杂空间推理任务中的局限例如因视角单一而无法判断遮挡物体位置的问题 [1]