Workflow
时空推理捷径(Spatio - temporal Reasoning Shortcut)
icon
搜索文档
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心· 2025-10-14 06:33
研究背景与基准概述 - 多模态大语言模型在视觉与语言模态融合的感知与推理任务中已展现出强大能力,但面临真实世界动态场景的新挑战[2] - 由上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者提出的OST-Bench,从智能体探索场景的动态在线视角出发,为大模型能力提出新挑战[2] - 相比离线/静态的空间智能基准,OST-Bench更精准地反映了具身感知在真实世界中的核心挑战,其代码和数据均已开源[2][6] 基准核心特点与设计 - 基准模拟现实世界中人类“移步换景”的有限视野探索过程,智能体需依赖连续输入的局部观测完成在线感知、记忆维护与时空推理[5][7] - 传统空间智能评测多为离线、固定输入长度,而OST-Bench具有两大核心特点:在线设定(模型需在增长观测中实时感知)和跨时空理解(需结合当前画面与历史信息)[7][10] - 研究团队将动态场景理解划分为三大信息类别:智能体空间状态、智能体可见信息、智能体-物体空间关系,并基于此设计了15个子任务,覆盖判断、估算、计数、时间定位四类题型[8] - 基准包含基于规则生成加人工筛选的10k条测试集数据(覆盖1.4k个场景)以及用于微调的50k条训练集数据(覆盖7k个场景)[8] 主流模型性能评估 - 当前主流多模态大模型与人类存在显著性能差距,暴露出跨时空信息推理的能力短板[13][14][17] - 在专有模型中,GPT-4.1整体平均得分最高为53.4%,Claude-3.5-Sonnet为47.8%,GPT-4o为48.7%[14] - 在开源模型中,InternVL-2.5-78B表现最佳,整体平均得分为51.1%,InternVL-2.5-38B为50.8%[14] - 人类水平基准整体平均得分高达83.5%,显著高于所有测试模型,而随机猜测水平为36.9%[14] 模型能力深度分析 - 模型的准确率随着探索步数的增加持续下降,说明现有范式难以适应长时序的在线设定[17] - 模型存在“时空推理捷径”现象:面对复杂问题时更倾向于就地猜测而非进行真正的时空整合推理[18] - 针对性的跨视角推理测评表明,复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是模型准确率受限的两大关键因素[20][21] - 专门设计的空间增强模型(如Spatial-MLLM、VLM-3R和LLaVA-3D)与其基座模型相比没有显著提升,反而在部分任务上明显退步[16][17] 微调实验效果评估 - 基于5万条问答数据对多种模型进行微调后,所有模型的分数均提升了超过10%,证明微调确实有效[23] - 然而,真正涉及复杂时空推理的任务仍难以突破50%的准确率,说明单纯微调不能触及问题本质[23] - 微调后的模型在部分题型上呈现“背答案”倾向而非真正理解,且容易变得不听话,无法稳定遵守格式对自己的答案进行解释[23] - 现象表明微调带来的提升更像是“题海战术式的熟练”,而非“机制上的理解进步”[23] 行业意义与发展方向 - OST-Bench通过多模型评估揭示了当前模型在面对“在线时空理解”任务时的深层短板[24] - 突破复杂空间推理能力与长期记忆机制,将是下一代多模态模型迈向真实智能世界的关键一步[24] - 该基准为未来模型的发展指明了方向,在导航、移动操控等具身任务领域具有重要应用价值[7][24]