视频生成 vs 空间表征,世界模型该走哪条路?
机器之心·2025-08-24 01:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]