DINOv2
搜索文档
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
机器之心· 2025-11-29 01:49
文章核心观点 - REG方法通过将预训练视觉模型的class token与图像latent在空间维度拼接并共同加噪训练,显著加速Diffusion模型的训练收敛,并提升生成性能上限[9] - 该方法仅需引入一个额外token,计算开销小于0.5%,几乎不增加推理成本,却能实现数十倍的训练加速[9][17] - REG在ImageNet 256×256任务上相比基线方法SiT和REPA分别实现63倍和23倍的收敛加速[10][17] 技术方案创新 - REG采用high-level class token与low-level latent混合纠缠的去噪训练范式,使模型具备直接从纯噪声生成图像-类别对的能力[9] - 训练时对class token和latent同时加噪并联合去噪优化,推理时只需将随机初始化的class token参与去噪过程[14][15] - 与REPA仅进行特征对齐不同,REG显式将DINOv2表征作为模型输入,实现真正的语义引导生成[13] 性能表现 - 在ImageNet 256×256上,SiT-XL/2+REG在400K步时FID达到3.4,显著优于SiT-XL/2+REPA的7.9[18] - 经过4M步训练后,REG的FID进一步降至1.8,显示其性能上限优势[17][18] - 使用CFG时,REG在480 epochs达到1.40 FID,超越REPA 800 epochs的1.42 FID[19][20] - 在ImageNet 512×512任务上,REG仅用80 epochs即达到1.68 FID,优于REPA 200 epochs和SiT 600 epochs结果[21] 效率优势 - 训练效率大幅提升,达到相似FID时,REG相比SiT-XL/2训练时间减少98.36%,相比REPA减少95.72%[24][25] - 推理开销几乎可忽略,参数、FLOPs和延迟增加均小于0.5%,但FID比SiT-XL/2+REPA提升56.46%[26][27] - 仅需400K步的SiT-L/2+REG即可优于4M步的SiT-XL/2+REPA,实现10倍训练时长节约[10][17] 技术验证 - 消融实验表明DINOv2 class token效果最佳,high-level全局判别信息能大幅提升生成质量[29][30] - 即使单独插入class token并进行联合加噪训练,也能带来显著性能提升[31][32] - CKNNA指标显示REG在所有训练阶段、网络层和时间步均保持更高的判别语义相似度[35][36][37] 机制分析 - REG促进生成模型的"理解-生成"解耦,class token指引模型前层专注理解噪声latent,后层聚焦生成任务[38] - 通过attention机制传递判别语义,实现"先理解、后生成"的高效生成范式[36][38] - 该方法首次提出high-level与low-level token混合纠缠的训练理念,为生成模型设计提供新思路[38]
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
机器之心· 2025-11-19 04:07
文章核心观点 - 香港大学团队提出一种名为PH-Reg的新型方法,旨在高效解决Vision Transformers模型密集特征中的伪影问题,该方法无需数据标记且计算资源消耗低 [2] - PH-Reg方法结合测试时增强的去噪策略和自蒸馏框架,能够灵活应用于CLIP、DINOv2等多种模型架构,显著提升下游任务性能 [2][3][6] 技术方法 - 采用免训练去噪算法,利用图像增强处理时伪影不会同步偏移的特性,在无需梯度反向传播的情况下生成无伪影密集特征 [10] - 通过自蒸馏框架,仅针对性更新学生模型中的register tokens、卷积层等少量参数,最大限度保留预训练权重核心信息并节省计算资源 [11] 性能表现 - 在开放词汇语义分割任务中,PH-Reg在八个基准数据集的七个上性能超越MaskCLIP、SCLIP等主流方法,例如在VOC21数据集上mIoU达到63.01,优于对比方法 [13][14] - 在线性探测任务中,PH-Reg为CLIP模型在VOC21数据集上的mIoU带来5.04%提升,在ADE20k数据集上提升3.64% [16][21] - 在深度估计任务中,该方法为预训练ViT骨干模型带来稳定性能提升,且参数量增加可忽略不计 [21] 效率优势 - 与DVT方法相比,PH-Reg训练时间从21908分钟减少至9000分钟,节省幅度超过58.9% [17][22] - 该方法可实时计算蒸馏目标,无需存储1.4 TB的神经场特征数据,显著降低存储需求 [22] 应用前景 - 该研究为未来大规模视觉模型的快速微调与蒸馏机制探索提供了新思路 [20] - 方法具备良好架构适配性,可直接应用于现有预训练模型,实现即插即用的性能提升 [3][19]
NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临
机器之心· 2025-10-28 09:37
技术背景与核心观点 - 自回归模型在图像生成领域的应用依赖于视觉Tokenizer,其作用是将高维像素空间映射到低维离散潜在空间,是决定生成模型上限的基石[3] - 传统视觉Tokenizer(如VQGAN)存在缺乏高层语义信息、潜在空间冗余以及表征结构混乱等困境[4][7] - 研究提出并验证了一个新假设:冻结的预训练视觉基础模型(如CLIP、DINOv2、SigLIP2)的潜在特征可以直接作为图像重建与生成的鲁棒结构化表征[4] - 基于视觉基础模型构建的Tokenizer(VFMTok)在图像重建和自回归图像生成任务上均表现出优于传统模型的性能[5] VFMTok的核心技术创新 - 采用多层图像特征提取技术,从冻结的预训练基础模型中按等间隔方式提取多层级语义特征,以同时捕获图像的低层细节和高层语义信息[14][17] - 设计了区域自适应量化机制,通过可学习的锚点查询结合可变形注意力机制进行自适应特征采样,聚焦于图像中模式一致的区域,有效提升token利用效率,仅用256个token表征一张图像[14][18] - 引入了语义特征重建目标函数,在重建图像内容的同时,重建冻结基础模型最后一层的语义特征,以提升Tokenizer的语义保真度[14][19] - 整体架构采用共享的轻量级Vision Transformer,减少了参数量并保证了语义保真度,其双重目标函数结合了传统Tokenizer损失和余弦相似度损失[19][20] 性能优势与实验成果 - 在图像重建质量上,VFMTok仅用256个token即可实现rFID 0.89和rIS 215.4的优异表现,超越了使用576个token的VQGAN基线(rFID 0.95, rIS 197.3)[12][23][29] - 在线性探针准确率上,仅使用冻结VFM作为编码器即可从VQGAN的23.1%提升至56.4%,引入完整VFMTok技术后达到69.4%[12][28][29] - 在自回归图像生成任务上,VFMTok能够显著提升训练收敛速度,训练收敛速度提升了3倍[24] - VFMTok-1.4B模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类LlamaGen-3B模型[26] - 接入RAR自回归图像生成框架后,VFMTok实现了SOTA的图像生成性能,gFID达到1.36[27] 效率与实用性突破 - VFMTok在有无分类器自由引导的情况下性能几乎一致(gFID: 2.07 vs 2.04),而LlamaGen则会从2.19急剧恶化至9.38,证明了其潜在空间具有极强的语义一致性[27][33] - 由于token数量减半(256 vs 576),自回归模型的生成过程长度减半,推理速度因此获得了约4倍的提升[33] - VFMTok实现了100%的码本利用率,超越了之前大部分传统的离散Tokenizers[23][29] - 该方法无需CFG即可实现高保真度的class-to-image图像生成,可以进一步减少图像生成时间[33]
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
机器之心· 2025-08-15 03:29
计算机视觉模型发展 - 计算机视觉下游任务的基础是二维图像理解(特征提取)[1] - CV基本任务的三大模型代表:全监督SAM、弱监督CLIP、自监督DINO [2] - 自监督学习(SSL)成为主流范式,推动大语言模型崛起,具备无标注数据优势 [2] DINO系列模型演进 - 2021年Meta发布DINO模型,基于ViT架构实现无标注语义分割/检测 [2] - 2023年DINOv2改进训练数据规模与稳定性,支持线性分类/深度估计等任务 [2] - DINOv3实现单一冻结骨干网络在目标检测/语义分割等密集预测任务超越专业方案 [6] DINOv3核心技术突破 - 训练数据扩展至17亿张图像,参数规模达70亿 [9] - 创新Gram Anchoring策略解决特征坍缩问题,引入旋转位置编码RoPE [18] - 在15个视觉任务/60+基准测试中表现优异,密集预测任务理解场景布局能力突出 [31] 性能对比与优势 - 图像分类任务:ImageNet ReaL准确率90.4%,与SigLIP 2(90.5%)相当 [17] - 密集预测任务:ADE-20k分割得分55.9,显著高于DINOv2(49.5)和SigLIP 2(42.7) [17] - 实例检索任务:Met指标55.4,远超DINOv2(44.6)和SigLIP 2(13.9) [17] 高分辨率与密集特征 - 支持4096×4096分辨率图像处理,生成语义一致的锐利特征图 [26][28] - 通过PCA可视化显示特征空间对主体区域的精准捕捉能力 [27] - 卫星图像树冠高度测量误差从DINOv2的4.1米降至1.2米 [40] 应用部署与生态 - 提供ViT-B/ViT-L等蒸馏模型变体,全面超越CLIP同类模型 [36] - 开源ConvNeXt架构模型(T/S/B/L版本)满足不同计算需求 [37] - 已应用于医学影像、卫星遥感、火星机器人等现实场景 [39] 行业影响 - 世界资源研究所使用DINOv3自动化气候金融支付流程,提升验证效率 [39] - NASA喷气推进实验室采用DINOv2构建火星探索机器人多任务系统 [39] - 标志着自监督学习首次在广泛任务上超越弱监督模型 [15]
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 00:14
DreamVLA模型概述 - 提出一种新型视觉-语言-动作(VLA)模型DreamVLA 通过预测环境动态、空间和语义信息提升机器人动作决策精度 [1] - 采用"感知-预测-动作"循环框架 将动作规划视为逆动力学问题 通过预测未来环境状态推导动作 [6][7] - 在CALVIN ABC-D基准测试中平均任务完成长度达4.44 模拟环境性能比前代方法高3.5% 现实世界任务成功率76.7% [25] 技术架构 输入处理 - 多模态输入编码:语言指令(CLIP ViT-B/32文本编码器)、视觉图像(MAE预训练ViT-B模型处理双路摄像头)、机器人状态(可训练编码器) [10][14] - 采用perceiver resampler压缩视觉特征 将196个局部特征向量和全局[CLS] token压缩至可管理规模 [14] 世界知识预测 - 动态区域预测:使用CoTracker光流跟踪算法 通过速度阈值筛选生成二值化动态区域掩码 聚焦移动物体 [12][15] - 深度预测:有深度传感器时直接监督训练 无传感器时采用DepthAnything自监督 输出尺度归一化深度图 [13][16] - 语义预测:并行使用DINOv2(语义向量)和SAM(分割掩码) 通过轻量级ViT解码器输出语义特征 [18][22] 动作生成 - 采用扩散Transformer(DiT-B)作为动作解码器 从高斯噪声逐步生成7维动作向量(6维空间位移+1维抓手状态) [23] - 引入块状结构化注意力机制 结合因果/非因果注意力确保多步动作连贯性 [19] - 使用查询token引导未来世界知识预测 与输入序列拼接后生成世界嵌入 [20] 性能验证 - 消融实验显示动态区域预测贡献最大 深度/语义预测结合动态区域可进一步提升性能 [31] - 结构化注意力机制比普通因果注意力更稳定 分开查询优于共享查询 [31] - 使用DROID数据集(7.6万条轨迹)预训练 仅需100个任务特定演示微调即可展现强泛化能力 [25] 应用前景 - 框架兼容现有VLA模型 特别适合助手机器人和导航场景 [27] - 动态区域掩码能有效抑制背景干扰 深度地图辅助避障 语义特征提升物体交互精度 [17][22]
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
量子位· 2025-03-08 03:35
视觉预训练模型创新 - SimDINO和SimDINOv2是马毅团队、微软研究院、UC伯克利等联合开发的最新视觉预训练模型,通过编码率正则化简化DINO系列训练流程 [1] - 模型核心创新在于去除DINO系列复杂的后处理步骤(如输出层高维投影、教师网络中心化-锐化操作等),同时性能反而提升 [5][6][12] - 简化设计理念体现"简单即是美",马毅团队强调这是对视觉表示学习本质规律的重新发现 [7][17] 技术突破与优势 - 引入编码率正则化替代原有复杂设计,显式度量模型表征质量,防止特征崩溃 [14][16][17] - 训练流程显著简化:移除权重归一化线性层、温度调度等超参数,改用欧几里得距离/余弦相似度直接比较特征 [18][19] - 实验显示模型对超参数和数据变化更稳健,训练稳定性提升且计算效率优于DINO系列 [21][23][32] 性能验证结果 - ImageNet-1K评估:SimDINOv2(ViT-B/16)线性评估达36.9% mIoU,优于DINOv2同架构的32.5% [30] - COCO目标检测:SimDINOv2在AP50/AP75/AP指标上全面超越DINOv2 [27][28] - 视频分割任务:SimDINOv2(ViT-L/16)在DAVIS-2017的(J&F)m指标达62.6%,展现更强语义表达能力 [30][31] 行业应用与影响 - DINOv2已被Meta首席AI科学家杨立昆团队用于世界模型构建,并是多模态大模型视觉编码器标配 [3][10] - 简化框架降低工程实现门槛,有利于研究人员改进模型架构或适配新领域 [11][18][39] - 开源生态建设完善,项目提供论文、GitHub代码和主页,潜在改进方向包括探索无自蒸馏优化目标 [43][45]