Workflow
数据密度感知
icon
搜索文档
备受Meta折磨,LeCun依旧猛发论文,新作:JEPAs不只学特征,还能精准感知数据密度
36氪· 2025-10-09 11:39
研究核心发现 - Yann LeCun团队发现自监督模型JEPAs在训练过程中自动掌握了感知数据常见程度的能力,即学习数据的“密度” [1] - 这一发现打破了学界长期认为JEPAs仅学习特征、与数据密度无关的认知 [3] - 研究证明,学习数据密度是JEPAs训练过程中的必然结果,而非偶然 [8] JEPAs模型技术背景 - JEPAs是LeCun团队重点推进的自监督学习框架,核心优势在于无需人工标注即可从海量数据中学习特征规律 [6] - 模型训练包含两个核心目标:latent空间预测和反坍缩 [11] - 反坍缩原本被视为避免特征失效的保障手段,但本研究揭示了其隐藏价值,即能精准学习数据密度 [7][8] JEPA-SCORE工具与应用 - 团队提出关键工具JEPA-SCORE,用于从JEPAs中提取数据密度并量化样本常见度 [10] - JEPA-SCORE计算逻辑简洁高效,仅需获取雅可比矩阵并计算其特征值对数求和,分数越高表示样本越典型 [10] - 该工具具备极强通用性,不限制数据集和JEPAs架构,在ImageNet、MNIST及陌生星云图集上均能精准计算 [11] - 在数据筛选和异常检测的实用测试中,JEPA-SCORE效果优于传统方法 [13] 实验验证 - 在ImageNet数据集中,不同JEPAs模型对典型样本和罕见样本的JEPA-SCORE判定高度重合,证明此为模型共性能力 [11] - 面对未参与预训练的星系图像数据集,其JEPA-SCORE显著低于ImageNet数据,表明模型能精准识别陌生数据 [11] 研究团队 - 此项研究由Yann LeCun与三位Meta FAIR研究员共同完成 [20] - 团队成员包括布朗大学计算机科学助理教授Randall Balestriero、FAIR研究科学家Nicolas Ballas以及FAIR创始成员Michael Rabbat [22][23][25]