Workflow
视频空间超感知
icon
搜索文档
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
量子位· 2025-11-24 03:39
寒武纪-S模型核心突破 - 专注于解决AI核心问题,让人工智能真正学会感知世界,而非制造硅基芯片[2] - 推出主打空间感知的多模态视频大模型,兼顾通用视频和图像理解能力,在短视频空间推理中取得SOTA成果[6] - 通过预测感知模块处理超长视频空间任务,这是许多主流模型的软肋,且能控制GPU内存消耗,不依赖堆硬件[7][42] 技术理念与研究方向 - 提出“超感知”概念,让AI不仅能识别物体,还能记忆位置、理解关系、预判变化,这是构建超级智能的前提[20][23][24] - 聚焦视频空间超感知,使AI能从连续视频片段中读懂空间关系,如物体位置距离和动态变化[25] - 团队反思“真正的多模态智能”,认为当前模型仅将图像转文字处理,未真正理解场景[19] 模型开发与基准测试 - 开发VSI-SUPER基准测试,包含长时程空间记忆和持续计数任务,主流商业模型在10分钟视频平均准确率不足15%,120分钟视频基本失效[26][27][30][31] - 构建VSI-590K数据集,包含59万条训练样本,标注物体位置和动态变化等关键信息,作为空间感知教材[33] - 采用预测下一帧训练机制,通过意外度识别关键信息,实现超长视频空间理解[38] 性能表现与竞争优势 - 在VSI-SUPER基准测试中,比开源模型空间记忆准确率提升30%以上,部分任务超过商业模型[41] - 参数规模从0.5B到7B,针对性极强,在多项评测中表现亮眼,如7B模型在SI-Bench Debias任务达67.5[35][42] - 对比主流模型如GPT-40、Gemini系列,在空间感知任务上展现优势,尤其在长视频处理能力上领先[31][42] 研发背景与团队基础 - 项目由谢赛宁牵头,李飞飞和Yann LeCun站台,核心团队包括纽约大学博士生等多名研究人员[2][44][45][46][47][48] - 基于前期Cambrian-1图像多模态模型的开放性探索,从视觉编码器测评、数据优化到训练方案总结五方面突破[9][10][11][13][15][17] - 团队未盲目扩大规模,而是聚焦空间智能本质问题,从“考倒AI”转向“做好示范”的开发思路[18][26]