自监督学习(SSL)
搜索文档
推特吵架吵出篇论文,谢赛宁团队新作iREPA只要3行代码
36氪· 2025-12-16 09:42
论文核心观点 - 一篇源于社交媒体讨论的学术论文挑战了传统观念,研究发现空间结构信息而非全局语义信息是驱动视觉表征生成性能的主要因素 [17] - 研究通过大规模定量分析覆盖27种不同的视觉编码器及3种模型规模,证实了空间结构的重要性 [21] - 基于研究发现,论文提出了改进的iREPA框架,核心修改仅需3行代码,能在多种训练方案中实现持续更快的收敛 [25] 研究背景与起源 - 研究起源于社交媒体上关于视觉模型训练目标的辩论,焦点在于自监督学习模型应更关注为稠密任务(如REPA、VLM)训练,而非ImageNet-1K分类分数 [4] - 初始辩论中,一方观点认为稠密任务依赖patch tokens中的空间和局部信息,而非[CLS] token的全局分类性能 [4] - 另一方(谢赛宁)最初认为VLM和REPA的性能与ImageNet-1K得分高度相关,与patch级别关联弱,并指出是高层语义与低层像素相似性的差别问题 [8] - 经过3个多月的后续研究,多个团队合作将讨论思路转化为完整论文,并感谢了参与讨论的网友 [2][3][15] 核心研究发现 - 研究结论颠覆传统观念:更好的全局语义信息(如ImageNet-1K分类准确率)并不等于更好的生成效果,空间结构才是表征生成性能的驱动力 [17] - 研究发现更大的视觉编码器可能带来更差的生成性能,线性检测准确率仅约20%的编码器,其生成效果可以超过准确率>80%的编码器 [17] - 如果试图通过CLS token向patch token注入更多全局语义,生成性能反而会被拉低 [18] - 生成效果更好的表征,往往具有更强的空间结构,可通过空间自相似性指标来衡量 [20] - 研究进一步发现,即便是SIFT、HOG这类经典空间特征,也能带来与现代大规模视觉编码器(如PE-G)相当的、具有竞争力的性能提升 [22] 研究方法与验证 - 研究通过一次大规模的定量相关性分析细化验证观察,分析覆盖了27种不同的视觉编码器,包括DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP等,以及3种模型规模(B、L、XL) [21] - 论文基于现有的表征对齐框架进行分析和修改,提出了iREPA方法 [24] 技术改进与应用 - iREPA对现有REPA框架进行了两项关键修改:将标准的MLP投影层替换为一个简单的卷积层;为外部表征引入一个空间规范化层 [24] - 这些简单修改旨在保留并强化空间结构信息,相比原始的REPA方法能显著提升性能 [24] - iREPA的核心框架仅需3行代码即可添加到任何表示对齐方法中,并且在各种训练方案(如REPA、REPA-E、Meanflow以及JiT)中都能实现持续更快的收敛 [25]
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码
量子位· 2025-12-16 05:58
文章核心观点 - 一篇由社交媒体讨论引发的学术研究论文,挑战了计算机视觉领域的传统观念,即预训练视觉编码器的全局语义分类性能(如ImageNet-1K准确率)是驱动生成模型质量的关键因素[7][23] - 研究结论表明,视觉表征的空间结构信息(即图像局部区域或补丁tokens之间的相互关系)才是决定生成性能的主要驱动力,更好的全局语义信息并不等于更好的生成效果[23] - 基于此发现,研究团队对现有的表征对齐框架进行了简单改进,提出了仅需3行代码即可实现、能持续提升性能的iREPA方法[3][32] 研究背景与起源 - 该研究的灵感源于4个多月前,研究员谢赛宁与网友在社交媒体上关于自监督学习模型应用重点的一场辩论[2] - 辩论核心是:为稠密任务(如REPA、VLM)设计的模型,其性能应更依赖于捕捉图像局部细节信息的patch tokens,而非仅用于全局分类的[CLS]token[8] - 谢赛宁最初持反对意见,但被网友提供的论据(如SigLIPv2和PE-core在REPA任务上优于DINOv2的例子)说服,并最终促成了跨团队合作研究[13][17] 核心研究发现 - 通过大规模定量分析验证,覆盖了**27种不同的视觉编码器**(包括DINOv2、v3、Perceptual Encoders等)及**3种模型规模**(B、L、XL)[26] - 研究发现,**线性检测准确率仅约20%的视觉编码器,在生成任务上可以超过准确率>80%的编码器**,颠覆了“更大更强编码器带来更好生成效果”的传统观念[23] - 生成效果更好的表征,其**空间自相似性**指标更强,即图像内部不同区域token之间的关注关系更明确[25] - 研究甚至发现,像**SIFT、HOG这样的经典空间特征提取方法**,也能带来与现代大规模视觉编码器(如PE-G)相竞争的提升,进一步凸显了空间结构信息的基础重要性[28] 方法论与模型改进 - 研究基于对表征对齐(REPA)框架的分析,提出了改进版本**iREPA**[30] - iREPA的核心改进包括两点:1) 将REPA中标准的MLP投影层替换为一个简单的卷积层;2) 为外部表征引入一个空间规范化层[31] - 这些修改旨在**保留并强化输入表征中的空间结构信息**,从而显著提升性能[32] - iREPA的实现极为简洁,**仅需3行代码**即可添加到任何表示对齐方法中,并且在REPA、REPA-E、Meanflow及JiT等多种训练方案中都能实现持续更快的收敛[3][32]
Meta王炸DINOv3:视觉自监督新巅峰!7B模型狂揽多任务SOTA
自动驾驶之心· 2025-08-16 16:04
自监督视觉模型DINOv3的技术突破 - 彻底摆脱对人工标注数据的依赖 实现仅通过观察世界就能学习强大视觉理解能力的自监督学习终极目标 [4] - 通过Gram Anchoring策略解决大规模模型训练中密集特征退化问题 在10万轮内将VOC分割mIoU提升3+ [24][25] - 采用固定超参数训练100万轮 突破传统动态调度限制 使ViT-7B全局性能随训练轮次稳步提升 [21][22] 数据构建与训练策略 - 从170亿张图像中通过三层筛选构建16.89亿张高质量训练集LVD-1689M 包含聚类选多样/检索补相关/公开数据提精度三个层级 [16][20] - 采用10%纯ImageNet1k与90%混合数据的采样策略 在IN1k线性探测达87.2% ObjectNet达72.8% 全面超越纯聚类或原始数据 [16] - 使用7B参数ViT架构 嵌入维度提升至4096 采用16像素patch与轴向RoPE编码 增强对分辨率与尺度的鲁棒性 [28] 多分辨率与跨领域适配 - 支持4096×4096超高清推理 在768×768分辨率下IN1k精度提升0.5% ADE20k分割mIoU提升2.1% [26][31] - 专为卫星图像训练DINOv3-Sat模型 在树冠高度估计任务MAE达3.2 超越多光谱输入模型 [50][52] - 通过高分辨率适配阶段处理医疗影像与卫星图像 特征图在4096×4096分辨率下仍保持语义清晰度 [26][31] 模型压缩与部署优化 - 采用单教师-多学生并行蒸馏技术 训练参数量840M的ViT-H+模型 IN1k精度90.3% 接近7B教师但推理速度快5倍 [35] - ConvNeXt系列适配移动端 ConvNeXt-L在512分辨率下IN-ReAL精度达89.4% 超监督模型1.6% [35] - 通过冻结视觉encoder实现文本对齐 在ImageNet1k零样本分类达82.3% 开放词汇分割mIoU 24.7% [36] 性能表现基准测试 - 密集任务全面领先:ADE20k分割mIoU 55.9超DINOv2的6.4 NYUv2深度估计RMSE 0.309超DINOv2的0.063 [42][44] - 全局任务媲美监督模型:ImageNet线性探测精度88.4% ObjectNet达79.0超DINOv2的12.6 [47] - 视频跟踪任务DAVIS数据集J&F 83.3超DINOv2的6.7 且性能随分辨率提升持续增长 [45][46] 行业应用场景 - 工业检测领域采用ViT-L处理高分辨率产品图像实现缺陷分割 [52] - 自动驾驶领域使用ConvNeXt-B实时输出道路语义分割结果 [52] - 卫星遥感领域应用DINOv3-Sat分析4K图像监测森林覆盖变化 LoveDA分割mIoU 55.3超BillionFM的0.9 [52]