JEPA
搜索文档
倒计时3周离职,LeCun最后警告:硅谷已陷入集体幻觉
36氪· 2025-12-16 07:11
对当前主流AI发展路径的批判 - 核心观点认为大语言模型路线是死路,无法通往人类水平的人工智能,硅谷对不断“堆大”LLM的痴迷是一条死路 [1][3] - 指出当前基于LLM的AI智能体在可靠性、数据效率、多模态处理上远远不足 [12] - 批评行业存在危险的“羊群效应”,科技巨头几乎都在做同一件事即疯狂堆叠LLM,形成了“单一的文化” [26][28] - 明确表示所谓的ASI路线——不断训练LLM、用更多合成数据、雇几千人做后训练、折腾RL新技巧——完全是胡说八道且永远不可能成功 [1][28] 提出的替代技术路线:“世界模型” - 主张“世界模型”才是实现人类水平AI的“正确方法”,其能够预测动作后果并用于规划,是智能的重要组成部分 [12][14] - “世界模型”在抽象表征空间中进行预测,而非像素级输出,旨在处理高维、连续和嘈杂的模态数据,这是LLM完全做不到的 [3][14][23] - 其技术基础是联合嵌入预测架构,旨在学习一个抽象的表示空间以消除输入的不可预测细节 [16] - 近20年来一直确信构建智能系统的正确途径是通过某种形式的“无监督学习”,JEPA的发展克服了早期孪生网络的模型坍塌问题 [17] 关于数据与智能的对比 - 训练一个性能不错的LLM需要互联网上约30万亿Token的文本数据,这仅相当于约15,000小时的视频 [21][22] - 一个4岁孩子醒着时看到的视觉信息大约是16,000小时,现实世界数据的结构比文本丰富得多,仅靠文本训练永远无法达到人类水平的AI [22] - 合成数据有用,但LLM并不真正理解通过经验习得的基本概念,只是被微调出来给出正确答案,更像是“反刍”而非真懂 [25] 创业公司AMI的创立与目标 - 决定在Meta外部创办Advanced Machine Intelligence,专注于“世界模型”并计划延续开放研究的传统 [4][5] - 创办AMI的动因之一是为了摆脱硅谷的单一文化,该公司是全球性的,总部将设在巴黎,并在纽约等地设立办公室 [30] - AMI的目标不仅是研究,还会打造与世界模型、规划相关的实际产品,并成为智能系统的核心供应商 [9] - 认为投资者现在愿意为这类基础研究创业公司买单是一种新现象,这在以往是不可能的 [4] 对AI行业现状与Meta的评论 - 指出行业风向正在转变,越来越多实验室选择闭源,这种趋势不利于真正突破性的研究 [4] - 透露Meta AI重组后重心完全放在了LLM,FAIR正被推向“更短期的项目”,较少强调发表论文,更多专注于协助GenAI Lab进行LLM研究,这是其选择出来创业的部分原因 [39][41] - 认为即使在硅谷的各家公司内部,也有不少人心里很清楚LLM这条路走不通 [28] - 点评了一些大模型公司,例如指出Ilya创立的SSI甚至包括他们的投资人都不知道这家公司要做什么 [41] 对AGI概念与发展时间线的看法 - 认为“通用人工智能”这个概念完全没有意义,完全是胡扯,因为人类智能是超级专业化的 [31] - 乐观预测如果在JEPA、世界模型、规划等方向未来两年取得重大进展,可能在5-10年内看到接近人类或狗智能水平的AI,但这已是极度乐观 [33] - 更现实的预测是,由于历史上多次出现未预见的障碍,实现超越可能需要20年甚至更久 [33] - 认为最难的部分不是从狗到人类,而是达到狗的水平,从灵长类动物到人类主要缺的是“语言” [35][36] 对研究文化与人才培养的建议 - 强调真正的研究需要发表论文,没有别的办法,这是目前很多行业正在遗忘的事情 [11] - 建议年轻人学习“保质期长”的知识以及能“学会如何学习”的东西,因为技术演变太快 [43] - 具体建议深入学习数学、电气工程、机械工程、物理学等基础学科,计算机科学只需学到能熟练编程的程度,这些基础能让人在AI快速变化中站稳脚跟 [45][46] - 认为“世界模型”所在的地方类似于大脑的前额叶皮层,而LLM在语言编码/解码上表现不错,或许能充当大脑的韦尼克区和布罗卡区 [36][38]
李飞飞和LeCun的世界模型之争
具身智能之心· 2025-11-15 16:03
文章核心观点 - AI领域三大力量(李飞飞团队、LeCun、谷歌DeepMind)正以三种截然不同的技术路线进军“世界模型”,分别代表了“世界模型即界面”、“世界模型即模拟器”和“世界模型即抽象引擎”的范式 [3][30][39] - 三种技术路线在应用场景、技术重点和商业化潜力上各有千秋,共同构成了一个从具体到抽象的“世界模型金字塔” [39][47][48] 主要参与者与技术路线 - **李飞飞团队 - Marble模型**:定位为前端资产生成器,通过3D高斯生成流水线,从文本提示直接生成持久、可下载的3D环境,可导出为高斯斑点、Mesh网格或视频 [5][6][16][29] - **LeCun - JEPA模型**:定位为后端预测系统,根植于控制理论和认知科学,专注于构建抽象表征以捕捉世界状态,用于机器人行动前的预判,更像机器人的“大脑” [23][25][26][27] - **谷歌DeepMind - Genie 3模型**:定位为世界模型式视频生成器,从文本提示生成可交互的视频环境,解决了长时一致性问题并支持触发世界事件,如开始下雨或夜幕降临 [31][32][34][35] 技术特点与应用对比 - **Marble**:优势在于高精度的3D资产生成和商业化潜力,尤其适用于游戏和VR开发者的工作流程,可一键导出到Unity [9][21][38] - **Genie 3**:优势在于生成动态、可交互的视频世界,但画面质量和分辨率有限,核心仍是视频逻辑而非物理因果逻辑 [34][35][36][38] - **JEPA**:优势在于对世界本质和因果结构的理解,是机器人理想的训练基地,但无法生成可供人欣赏的视觉画面 [25][27][28][45] 世界模型范式分类 - **世界模型即界面(以Marble为代表)**:关注“世界长什么样”,生成可供人观看与交互的三维空间 [39][41][42] - **世界模型即模拟器(以Genie 3为代表)**:关注“世界怎么变”,生成连续、可控的视频环境供智能体训练 [39][43] - **世界模型即抽象引擎(以JEPA为代表)**:关注“世界的结构是什么”,以高度抽象的潜在变量形式呈现,最适合机器人推理 [39][44][45]
李飞飞和LeCun的世界模型之争
量子位· 2025-11-15 05:00
文章核心观点 - AI领域三大力量(李飞飞的World Labs、LeCun、谷歌DeepMind)正从三种截然不同的技术路线进军“世界模型”,这标志着AGI的发展路径在此交汇[1][2][3] 李飞飞World Labs的Marble模型 - 公司推出首款商用世界模型Marble,其核心是生成持久、可下载的3D环境,显著减少场景变形和细节不一致的问题[5][6] - 模型能将生成的世界导出为高斯斑点、Mesh网格或直接导出视频,并内置原生AI世界编辑器Chisel,用户通过一句提示即可自由改造世界[6][7] - 该模型为游戏或VR开发者提供了“一句提示→直接生成3D世界→一键导出到Unity”的实用工作链路,商业化潜力显著[9][22] - 有行业观点认为,Marble更像是一个3D渲染模型或3D高斯生成流水线,它捕捉的是世界的视觉表面而非内在的物理规律,因此可能不适用于机器人训练[10][11][12][18][20][21] LeCun的JEPA模型 - LeCun的“世界模型”根植于控制理论和认知科学,其任务不是渲染精美像素,而是让机器人能提前预判世界变化,更像是在训练机器人的“大脑”[24][25][26][28] - 该模型专注于捕捉用于AI决策的世界状态抽象表征,无需浪费算力生成像素,优势在于对世界本质的理解,是机器人理想的训练基地[27][29][51] - 与Marble相比,JEPA是一个高度抽象的后端预测系统,没有可供人欣赏的画面,但更贴近AI的思维方式[30][50] 谷歌DeepMind的Genie 3模型 - 谷歌DeepMind推出的Genie 3是一个可交互的视频环境生成模型,用户可通过一句Prompt在其中自由探索数分钟[32][33] - 该模型首次在同类模型中解决了长时一致性问题,并支持触发如“开始下雨”等世界事件,过程类似由模型驱动的电子游戏[35][36] - 行业分析认为,Genie 3的核心仍是视频逻辑,可被视为“世界模型式视频生成器”或“模拟器”,虽能让世界动起来,但未能完全理解画面背后的物理规律[37][38][39][47] - 其画面质量和分辨率有限,难以与Marble的高精度3D资产相比,但可作为智能体(如SIMA 2)的“虚拟健身房”进行训练[40][41][48] 世界模型的三种技术范式 - 世界模型即界面:以Marble为代表,直接从文字或二维素材生成可编辑、可分享的三维环境,世界是呈现给人的可视空间[43][44][45] - 世界模型即模拟器:以Genie 3为代表,生成连续、可控制的视频式世界,作为智能体反复试错的虚拟环境[46][47][48] - 世界模型即认知框架:以JEPA为代表,以高度抽象的潜在变量和状态转移函数呈现世界,是机器人完美的训练基地[49][50][51] - 三者可构成“世界模型金字塔”:从底部的Marble(对人类最真实)到顶部的JEPA(对AI最易理解),越往上越抽象,越适合机器人训练与推理[53][54]
LeCun在Meta的最后一篇论文
36氪· 2025-11-14 03:04
LeJEPA方法核心创新 - 提出潜在欧几里得联合嵌入预测架构(LeJEPA),通过使嵌入空间遵循特定统计分布来提升预测性能[2] - 核心创新是草图化各向同性高斯正则化(SIGReg),这是一种可处理、可证明正确的正则化方法,通过单变量方向检验结合Epps-Pulley测试判断嵌入分布匹配程度[6] - 研究表明各向同性高斯分布是嵌入空间的最佳分布,可在没有任务信息情况下保证最小化偏差和方差,提高下游任务表现[5] 技术优势与实验验证 - 等向高斯分布能够最小化训练过程中的偏差和方差,在总方差相同情况下,非等向分布会导致更高偏差和方差[3] - 在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等大型架构上进行实验,模型规模接近10亿参数[8] - 实验显示LeJEPA在这些架构上表现超越现有方法,在Galaxy10、Food101等特定领域数据集上直接预训练时超越了基于DINOv2的迁移学习方法[10] JEPA架构发展历程 - JEPA(联合嵌入预测架构)是自监督学习框架,旨在通过嵌入空间联合预测方法提升模型表达和推理能力,与生成式模型不同,仅捕捉依赖关系而不显式生成预测[16] - JEPA可进一步通过分层架构(H-JEPA)增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[18] - JEPA架构与世界模型密切相关,通过学习状态与动作转移训练世界模型,从当前状态表示推断未来状态表示[20] JEPA系列模型演进 - I-JEPA充分利用Transformer架构灵活性,上下文编码器是ViT仅处理可见上下文块,预测器根据位置标记预测特定位置目标块表示[24] - V-JEPA是I-JEPA在视频领域扩展,将视频视为3D图像,通过屏蔽视频序列token进行训练,V-JEPA 2进一步提升了动作预测和世界建模能力[26][28] - MC-JEPA是JEPA扩展,使其包含运动信息,在视频中使用光流估计学习运动,通过图像视角联合嵌入学习内容,以多任务方式共享编码器[30] 行业影响与人物动态 - LeCun在Meta期间个人被引次数大幅增长至406,919次,占总引用数的93%,深度学习爆发期个人学术影响力显著提升[37] - LeCun已离开Meta并筹集资金创办初创公司,继续推进在世界模型方面的工作,尽管面临从学术研究向商业环境转型的挑战[33] - LeCun2013年加入Meta后推动了公司AI转型,成为行业金字招牌,Meta也为其提供了自由的研究环境,这段合作促进了整个AI领域发展[40]
LeCun在Meta的最后论文?还是共同一作,LeJEPA:JEPAs理论拼图补完
机器之心· 2025-11-14 01:33
文章核心观点 - LeCun团队为联合嵌入预测架构提出了一个全面的理论框架LeJEPA,旨在解决当前JEPA训练方法缺乏理论指导、过程脆弱且易出现表征崩溃的问题[2][4] - 该理论证明各向同性高斯分布是基础模型的最佳嵌入分布,并基于此引入了名为概略各向同性高斯正则化的新型分布匹配目标,使LeJEPA成为一个具有统计最优性且能消除表征崩溃的解决方案[5][6][8] - 实验表明,LeJEPA在超过10个数据集和60多种架构上达到或超过了最先进方法的性能,并在特定领域数据集上显示出优于迁移学习的效果,同时具有理论合理、计算高效、架构稳定等优势[9][10][23] JEPA架构的现有挑战与LeJEPA的理论基础 - 当前JEPA训练方法依赖复杂的启发式方法以防止表征崩溃,这些机制使训练过程复杂、脆弱且对超参数敏感,缺乏理论保证[2][3] - 研究团队证明了各向同性高斯分布是基础模型的最佳嵌入分布,该分布在广泛的下游任务族中能唯一地最小化下游预测风险,为JEPA设计提供了明确的理论优化目标[5] - 基于该理论引入的SIGReg目标通过随机投影和特征函数匹配来高效强制嵌入服从理想的各向同性高斯分布,独特地结合了可证明的正确性与大规模计算效率[6][7] LeJEPA框架的设计与实现 - LeJEPA框架由SIGReg损失和预测损失结合而成,其实现不依赖原型、停止梯度和教师-学生网络,整个PyTorch实现仅需约50行代码,且只包含一个用于平衡预测项与各向同性高斯项的超参数[11][19] - 框架移除了许多传统上用于防止坍塌的启发式方法,如预测器和教师-学生架构,而不会遭受表征崩溃,显示出架构无关的设计优势[27] - 研究指出LeJEPA与现有SSL框架存在理论联系,但通过使用特定的检验避免了可能导致捷径解的设置[20][21] LeJEPA的实证性能表现 - 在ImageNet-1K上预训练并进行线性评估,LeJEPA达到79%的准确率,在特定领域数据集如Galaxy10、Food101上,其领域内预训练效果优于基于DINOv2的迁移学习[10] - 实验涵盖接近10亿参数的模型规模,LeJEPA在不同架构和超参数下均保持高度稳定性,例如在ImageNet-1K上使用小至128的批量大小即可达到有竞争力性能[10][24] - 研究在ImageNet-10上预训练了约50种来自8个不同族的架构,所有模型通过线性探测均达到91.5%到95%的top 1准确率,证明了其架构无关的稳定性[26] LeJEPA的训练特性与扩展性 - LeJEPA的训练损失与下游任务准确率表现出高相关性,斯皮尔曼相关性约为85%,通过简单缩放定律可使相关性达到近99%,为无标签的SSL模型选择提供了可能[30][31][32] - 框架在数据和模型规模上均显示出良好的可扩展性,在ViT-gigantic等大型模型上的训练曲线稳定平滑,且在更大预训练数据集和主干网络上的迁移学习性能持续优于IJEPA等基线[38][39] - 学习到的表示中涌现出具有语义意义的注意力模式,能够实现无监督视频分割,显示出对空间语义和时间结构的捕捉能力[41][43]
LeCun在Meta的最后一篇论文
量子位· 2025-11-13 11:52
论文核心观点 - 论文提出了一种名为LeJEPA的新型自监督学习方法,其核心是通过引入SIGReg正则化,使嵌入空间遵循各向同性高斯分布,从而有效解决表示崩溃问题并提升模型泛化能力[5][6] - LeJEPA是Yann LeCun在Meta任职期间以Meta身份发表的最后一篇公开研究成果,于11月11日在arXiv提交,被视为他在Meta的告别之作[2][4][69] 技术原理与创新 - 传统JEPA框架面临表示崩溃问题,即模型将所有输入映射到单一低维空间,导致嵌入空间样本不可区分[6] - LeJEPA通过最小二乘回归分析表明,各向同性高斯分布能够最小化训练过程中的偏差和方差,在总方差相同的情况下,非等向分布会导致更高偏差和方差[8][9] - 研究提出的SIGReg正则化方法将分布匹配转化为统计假设检验,通过Epps-Pulley测试判断嵌入分布与目标分布的匹配程度[15][16][17] - SIGReg通过两条机制解决高维计算挑战:嵌入函数的Sobolev平滑性保证仅需O(K)个方向切片即可约束整个空间;SGD迭代特性使方向数量很少时也能快速收敛[21][22] 实验验证结果 - 实验在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等多种大型架构上进行,模型规模接近10亿参数[20] - LeJEPA在这些架构上表现超越现有方法,保持了训练的简便性和鲁棒性[23] - 在领域特定数据集如Galaxy10、Food101上,LeJEPA在直接目标数据预训练时超越了基于DINOv2的迁移学习方法[24] JEPA架构发展历程 - JEPA是LeCun于2022年提出的自监督学习框架,旨在通过嵌入空间的联合预测提升模型表达和推理能力[28][31] - 与生成式模型不同,JEPA仅捕捉x和y之间的依赖关系而不显式生成y的预测[32] - JEPA可通过分层架构增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[34][35][36] - JEPA架构发展三年来已产生多个变体:I-JEPA充分利用Transformer架构灵活性处理图像[43][45];V-JEPA将其扩展至视频领域[49][51];V-JEPA 2进一步提升了动作预测和世界建模能力[58][60];MC-JEPA使其能够包含运动信息[61][63] 行业影响与人物背景 - LeCun自2013年加入Meta以来个人被引次数飙升,达到406919次,占总数的93%,其中与三巨头合写的《深度学习》综述贡献超10万次[77][78] - 尽管JEPA架构提供新路径,但毁誉参半,被批评过于抽象难以应用到主流模型,与生成式AI的背离也被部分人归咎于Meta的AI研究失利[67][68] - LeCun已开始筹集资金创办初创公司继续推进世界模型工作,但其过于学术的风格在商业世界的适应性受到关注[72][73]