预测性感知
搜索文档
谢赛宁、李飞飞、LeCun联手提出多模态LLM新范式,「空间超感知」登场
机器之心· 2025-11-10 03:53
文章核心观点 - 谢赛宁团队发布名为“Cambrian-S”的研究成果,旨在探索视频空间的“超感知”能力,这是对“Cambrian-1”项目的延续 [1][2] - 研究团队认为,在构建“超级智能”之前,必须先构建“超感知”,即数字生命体真正体验世界、吸收无尽输入流并持续学习的能力 [4][5] - 当前多模态大模型范式在实现空间超感知方面存在根本性局限,需要向预测性世界建模的新范式转变 [10][40][42] 多模态智能发展路径 - 团队划分了多模态智能从现代到未来的四个发展阶段:0) 仅语言理解、1) 语义感知、2) 流式事件认知、3) 隐式3D空间认知、4) 预测性世界建模 [9] - 视频被认为是研究超感知的终极媒介,因为它是人类体验世界的方式和真实生活经验的直接投影 [6] - 当前多模态模型在隐式3D空间认知和预测性世界建模方面仍然极其有限 [9] 现有基准测试局限性 - 分析显示,现有视频MLLM基准绝大多数侧重于语言理解和语义感知,忽视了超感知所需的高级空间和时间推理 [14] - 在多个基准测试中,使用文本字幕代替视觉输入可使准确率超过随机水平20%以上,表明这些基准更依赖语言理解而非视觉感知 [22] - 现有基准如VideoMMMU、EgoSchema等被归类为更以语言为中心,对精细视觉感知的需求较低 [24] VSI-SUPER新基准 - 为解决现有基准的差距,研究团队引入了VSI-SUPER基准,专门用于评估空间超感知能力 [15][28] - VSI-SUPER包含两个组成部分:VSR(长时程空间观察与回忆)和VSC(变化视角和场景下的持续计数) [29][33] - Gemini-2.5-Flash在VSI-SUPER上表现不佳,即使在60分钟视频上,VSR和VSC的性能分别只有41.5和10.9,显示当前模型的局限性 [35][36] 预测性感知新范式 - 团队提出预测性感知作为新范式,通过潜在帧预测头训练模型预测下一帧,并利用预测误差作为“惊讶度”测量 [42][46][48] - 惊讶度驱动两种关键能力:surprise-driven的记忆管理(压缩不令人惊讶的帧)和surprise-driven的事件分割(检测事件边界) [8][49] - 在VSC任务中,采用惊讶度分割的Cambrian-S在所有视频长度上都取得了比Gemini-2.5-Flash更高、更稳定的性能 [53][55] 技术实现细节 - Cambrian-S采用潜在帧预测头,这是一个与语言头并行运行的两层MLP,用于预测后续视频帧的潜在表征 [44][46] - 在推理过程中,模型以1 FPS的速率预测下一帧特征,并通过余弦距离测量预测与实际特征之间的差异作为惊讶度分数 [47][48] - 该方法在空间认知任务上看到了令人鼓舞的提升,中小型模型在新提出的VSI-Super基准上超越了Gemini [8]