Workflow
AMI
icon
搜索文档
Meta发布世界模型,被群嘲的开源旧王要反击了
虎嗅· 2025-06-12 08:29
Meta的AI战略布局 - 公司坚定All In AI战略 在Llama 4受挫后仍持续加码投入[1] - 创始人扎克伯格亲自组建"超级智能"团队 并以9位数重金挖角Google和OpenAI顶级科学家[2] - 公司近期开源重量级模型V-JEPA 2 聚焦物理世界理解与行动能力[3] V-JEPA 2技术特性 - 模型拥有12亿参数 采用联合嵌入预测架构(JEPA) 通过预测抽象表示而非生成内容来理解物理世界[10][12] - 区别于传统LLM 模型强调构建"世界常识" 能预测物体运动轨迹等物理规律[13][15] - 训练分为两阶段:第一阶段使用100万小时视频+100万张图像自监督训练 第二阶段加入62小时机器人数据实现动作规划[16][20] 模型性能表现 - 在DROID数据集上实现零样本机器人规划 多步操作任务成功率65%-80%[21][23] - 在Something-Something v2动作识别和Epic-Kitchens-100动作预测任务中刷新纪录[29] - 联合语言模型后在Perception Test和TempCompass视频问答基准表现领先[29] 创新评估体系 - 推出IntPhys 2基准 通过生成违反物理规律的视频测试模型常识理解[25][27] - 设计MVPBench双胞胎视频测试 要求模型识别最小化细节差异以杜绝投机行为[30][33] - 开发CausalVQA测试集 专门评估反事实推理 事件预判和行动规划能力[34][37][38] 未来发展方向 - 计划开发多时间尺度分层JEPA模型 支持洗碗 烘焙等复杂分步任务[40] - 将拓展多模态JEPA模型 整合视觉 听觉和触觉等多维感知数据[41] - 目标构建具备更强感知与规划能力的高级机器智能系统[39][42]