文章核心观点 - 以Veo、Sora为代表的视频生成模型在视觉合成上进步显著,但其是否具备真正的零样本推理能力仍存疑[2] - 研究团队提出了名为MME-CoF的综合测试基准,对视频模型的零样本推理潜力进行系统性评估[2][23] - 实证研究表明,当前视频模型尚不具备独立的零样本推理能力,其表现更多依赖数据模式记忆而非逻辑推演[26][27] Chain-of-Frame(CoF)概念 - CoF是与语言模型“思维链”相对应的新概念,核心思想是模型通过逐帧生成视频,以连贯的视觉推演方式逐步解决问题[2] - CoT通过逐步生成文字展现推理路径,而CoF则通过逐帧生成画面使场景视觉演化以体现推演过程[9] MME-CoF基准评估结果 - MME-CoF是首个系统量化视频模型推理能力的框架,覆盖12个维度、59个精心设计任务[23] - 多种视频生成模型在MME-CoF基准上的整体平均得分普遍低于2分(评分范围0-4)[21][24] - 在评估的五个维度中,Sora-2模型整体得分最高为1.72 ± 1.59,Kling-v1模型整体得分最低为0.64 ± 0.91[24] 视频模型在具体推理维度的表现 - 在3D几何推理中,模型能较好处理简单场景下的空间布局,但在复杂视角变化中常出现空间错位和方向混乱[13] - 在2D几何推理中,模型可识别简单几何连接任务,但易优先生成美观图形而非严格几何符合,缺乏稳定几何约束意识[15][23] - 在物理推理方面,模型未能准确遵循能量、力学等物理规律,仅表现为视觉层面的“模拟”[23] - 在物体计数推理中,静态场景下表现良好,但动态环境中常出现漏数或重复计数[23] 研究结论与行业意义 - 研究表明当前视频模型强生成能力不等于强推理能力,其表现更多来自模式记忆与视觉一致性,而非概念理解[27] - 模型生成结果往往“看起来对”但逻辑上不成立,注重表象而非因果[28] - 视频模型未来仍具潜力,可作为视觉推理系统的补充模块,与逻辑模型协同构建更完整的多模态智能体系[29]
视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
机器之心·2025-11-18 18:19