文章核心观点 - AI领域三大力量(李飞飞团队、LeCun、谷歌DeepMind)正以三种截然不同的技术路线进军“世界模型”,分别代表了“世界模型即界面”、“世界模型即模拟器”和“世界模型即抽象引擎”的范式 [3][30][39] - 三种技术路线在应用场景、技术重点和商业化潜力上各有千秋,共同构成了一个从具体到抽象的“世界模型金字塔” [39][47][48] 主要参与者与技术路线 - 李飞飞团队 - Marble模型:定位为前端资产生成器,通过3D高斯生成流水线,从文本提示直接生成持久、可下载的3D环境,可导出为高斯斑点、Mesh网格或视频 [5][6][16][29] - LeCun - JEPA模型:定位为后端预测系统,根植于控制理论和认知科学,专注于构建抽象表征以捕捉世界状态,用于机器人行动前的预判,更像机器人的“大脑” [23][25][26][27] - 谷歌DeepMind - Genie 3模型:定位为世界模型式视频生成器,从文本提示生成可交互的视频环境,解决了长时一致性问题并支持触发世界事件,如开始下雨或夜幕降临 [31][32][34][35] 技术特点与应用对比 - Marble:优势在于高精度的3D资产生成和商业化潜力,尤其适用于游戏和VR开发者的工作流程,可一键导出到Unity [9][21][38] - Genie 3:优势在于生成动态、可交互的视频世界,但画面质量和分辨率有限,核心仍是视频逻辑而非物理因果逻辑 [34][35][36][38] - JEPA:优势在于对世界本质和因果结构的理解,是机器人理想的训练基地,但无法生成可供人欣赏的视觉画面 [25][27][28][45] 世界模型范式分类 - 世界模型即界面(以Marble为代表):关注“世界长什么样”,生成可供人观看与交互的三维空间 [39][41][42] - 世界模型即模拟器(以Genie 3为代表):关注“世界怎么变”,生成连续、可控的视频环境供智能体训练 [39][43] - 世界模型即抽象引擎(以JEPA为代表):关注“世界的结构是什么”,以高度抽象的潜在变量形式呈现,最适合机器人推理 [39][44][45]
李飞飞和LeCun的世界模型之争