核心观点 - Meta开源发布V-JEPA 2世界模型,该模型能够像人类一样理解物理世界,并具备预测和规划能力[1][4][6] - V-JEPA 2采用自监督学习框架,利用超过100万小时互联网视频和100万图片进行预训练,不依赖语言监督[10][12] - 该模型在运动理解和人类动作预测方面表现优异,在Something-Something v2上达到77.3的top-1准确率,在Epic-Kitchens-100上达到39.7的recall-at-5[23] - V-JEPA 2在新环境中拾取并放置新物体的成功率达到65%-80%[29] - Meta发布了三个新的基准测试(IntPhys 2、MVPBench、CausalVQA)用于评估模型从视频中理解和推理物理世界的能力[31][32][37][41] 模型能力 - 理解能力:能够识别视频中物体、动作和运动等事物[7] - 预测能力:能够预测世界演变以及智能体采取行动后世界的变化[7] - 规划能力:基于预测能力,能够规划实现给定目标的行动序列[7] - 零样本规划:能够在新环境中进行零样本规划和机器人控制[6] 技术架构 - 采用联合嵌入预测架构(JEPA),包含编码器和预测器两个组件[14] - 编码器接收原始视频并输出捕捉世界状态语义信息的嵌入[15] - 预测器接收视频嵌入和额外上下文,输出预测的嵌入[16] - 训练分为两个阶段:无动作预训练和额外的动作条件训练[21] 性能表现 - 在Something-Something v2数据集上达到77.3的top-1准确率[23] - 在Epic-Kitchens-100数据集上达到39.7的recall-at-5[23] - 与大型语言模型对齐后,在8B参数规模下多个视频问答任务中展示当前最佳性能(PerceptionTest上达到84.0,TempCompass上达到76.9)[24] 应用场景 - 机器人技术:使AI智能体能够在不需要大量训练数据的情况下完成家务和体力任务[2] - 短期任务:如拾取或放置物体,成功率达到65%-80%[25][26][27][28][29] - 长期任务:如拾取物体并将其放置在正确的位置[28] 未来方向 - 发展分层次JEPA模型,能够在多个时间和空间尺度上学习、推理和规划[44][45][46] - 开发多模态JEPA模型,能够使用视觉、音频和触觉等多种感官进行预测[47]
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代