Workflow
空间结构
icon
搜索文档
推特吵架吵出篇论文,谢赛宁团队新作iREPA只要3行代码
36氪· 2025-12-16 09:42
论文核心观点 - 一篇源于社交媒体讨论的学术论文挑战了传统观念,研究发现空间结构信息而非全局语义信息是驱动视觉表征生成性能的主要因素 [17] - 研究通过大规模定量分析覆盖27种不同的视觉编码器及3种模型规模,证实了空间结构的重要性 [21] - 基于研究发现,论文提出了改进的iREPA框架,核心修改仅需3行代码,能在多种训练方案中实现持续更快的收敛 [25] 研究背景与起源 - 研究起源于社交媒体上关于视觉模型训练目标的辩论,焦点在于自监督学习模型应更关注为稠密任务(如REPA、VLM)训练,而非ImageNet-1K分类分数 [4] - 初始辩论中,一方观点认为稠密任务依赖patch tokens中的空间和局部信息,而非[CLS] token的全局分类性能 [4] - 另一方(谢赛宁)最初认为VLM和REPA的性能与ImageNet-1K得分高度相关,与patch级别关联弱,并指出是高层语义与低层像素相似性的差别问题 [8] - 经过3个多月的后续研究,多个团队合作将讨论思路转化为完整论文,并感谢了参与讨论的网友 [2][3][15] 核心研究发现 - 研究结论颠覆传统观念:更好的全局语义信息(如ImageNet-1K分类准确率)并不等于更好的生成效果,空间结构才是表征生成性能的驱动力 [17] - 研究发现更大的视觉编码器可能带来更差的生成性能,线性检测准确率仅约20%的编码器,其生成效果可以超过准确率>80%的编码器 [17] - 如果试图通过CLS token向patch token注入更多全局语义,生成性能反而会被拉低 [18] - 生成效果更好的表征,往往具有更强的空间结构,可通过空间自相似性指标来衡量 [20] - 研究进一步发现,即便是SIFT、HOG这类经典空间特征,也能带来与现代大规模视觉编码器(如PE-G)相当的、具有竞争力的性能提升 [22] 研究方法与验证 - 研究通过一次大规模的定量相关性分析细化验证观察,分析覆盖了27种不同的视觉编码器,包括DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP等,以及3种模型规模(B、L、XL) [21] - 论文基于现有的表征对齐框架进行分析和修改,提出了iREPA方法 [24] 技术改进与应用 - iREPA对现有REPA框架进行了两项关键修改:将标准的MLP投影层替换为一个简单的卷积层;为外部表征引入一个空间规范化层 [24] - 这些简单修改旨在保留并强化空间结构信息,相比原始的REPA方法能显著提升性能 [24] - iREPA的核心框架仅需3行代码即可添加到任何表示对齐方法中,并且在各种训练方案(如REPA、REPA-E、Meanflow以及JiT)中都能实现持续更快的收敛 [25]
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码
量子位· 2025-12-16 05:58
文章核心观点 - 一篇由社交媒体讨论引发的学术研究论文,挑战了计算机视觉领域的传统观念,即预训练视觉编码器的全局语义分类性能(如ImageNet-1K准确率)是驱动生成模型质量的关键因素[7][23] - 研究结论表明,视觉表征的空间结构信息(即图像局部区域或补丁tokens之间的相互关系)才是决定生成性能的主要驱动力,更好的全局语义信息并不等于更好的生成效果[23] - 基于此发现,研究团队对现有的表征对齐框架进行了简单改进,提出了仅需3行代码即可实现、能持续提升性能的iREPA方法[3][32] 研究背景与起源 - 该研究的灵感源于4个多月前,研究员谢赛宁与网友在社交媒体上关于自监督学习模型应用重点的一场辩论[2] - 辩论核心是:为稠密任务(如REPA、VLM)设计的模型,其性能应更依赖于捕捉图像局部细节信息的patch tokens,而非仅用于全局分类的[CLS]token[8] - 谢赛宁最初持反对意见,但被网友提供的论据(如SigLIPv2和PE-core在REPA任务上优于DINOv2的例子)说服,并最终促成了跨团队合作研究[13][17] 核心研究发现 - 通过大规模定量分析验证,覆盖了**27种不同的视觉编码器**(包括DINOv2、v3、Perceptual Encoders等)及**3种模型规模**(B、L、XL)[26] - 研究发现,**线性检测准确率仅约20%的视觉编码器,在生成任务上可以超过准确率>80%的编码器**,颠覆了“更大更强编码器带来更好生成效果”的传统观念[23] - 生成效果更好的表征,其**空间自相似性**指标更强,即图像内部不同区域token之间的关注关系更明确[25] - 研究甚至发现,像**SIFT、HOG这样的经典空间特征提取方法**,也能带来与现代大规模视觉编码器(如PE-G)相竞争的提升,进一步凸显了空间结构信息的基础重要性[28] 方法论与模型改进 - 研究基于对表征对齐(REPA)框架的分析,提出了改进版本**iREPA**[30] - iREPA的核心改进包括两点:1) 将REPA中标准的MLP投影层替换为一个简单的卷积层;2) 为外部表征引入一个空间规范化层[31] - 这些修改旨在**保留并强化输入表征中的空间结构信息**,从而显著提升性能[32] - iREPA的实现极为简洁,**仅需3行代码**即可添加到任何表示对齐方法中,并且在REPA、REPA-E、Meanflow及JiT等多种训练方案中都能实现持续更快的收敛[3][32]
谢赛宁REPA得到大幅改进,只需不到4行代码
机器之心· 2025-12-13 04:59
研究核心发现 - 驱动表征对齐(REPA)生成性能的关键因素是目标表征的**空间结构**,而非其**全局语义信息**(如ImageNet-1K准确率)[3][15] - 通过大规模实证分析27种不同视觉编码器,发现空间结构指标(LDS)与生成质量(FID)的皮尔逊相关系数高达 `|r| = 0.852`,而线性探测准确率与FID的相关性仅为 `r = -0.260` [17] 反直觉现象与证据 - 分割模型SAM2-S的ImageNet准确率仅为`24.1%`,但其作为REPA目标表征时,生成的图像质量(FID)优于准确率高出`60%`的模型(如PE-Core-G)[15] - 在同一模型家族中,更大的参数量(如DINOv2-g)并不总能带来更好的生成效果,有时甚至更差[15] - 强行融合包含全局信息的[CLS] token到图像块特征中,会提升线性探测准确率,但导致生成质量(FID)显著下降[15] iREPA方法改进 - 核心改进包含两点:1) 用`3×3`卷积层替代标准REPA中的MLP投影层,以更好地保留局部空间关系[20][21];2) 引入**空间归一化层**,减去目标表征的全局均值信息以增强空间对比度[22] - 该方法代码实现简单,少于4行[5] iREPA性能表现 - **收敛速度**:在各种模型规模(如SiT-XL/2, SiT-B/2)和视觉编码器(如DINOv3, WebSSL, CLIP)下,iREPA均能显著加速扩散Transformer的训练收敛[26] - **编码器通用性**:在测试的27种不同视觉编码器(涵盖监督、自监督及多模态模型)上,iREPA的生成FID分数均低于标准REPA[27] - **扩展性**:模型规模越大,iREPA带来的收益越高。当视觉编码器从PE-B (`90M`参数)增大到PE-G (`1.88B`参数)时,性能提升百分比从`22.2%`增加至`39.6%`[34] - **视觉质量**:生成的图像在物体轮廓、纹理细节和整体结构连贯性上优于标准REPA[36] - **兼容性**:iREPA能无缝集成到现有先进训练流中,如REPA-E、MeanFlow、JiT等,并持续提供额外性能增益[33][37] 消融实验验证 - 完整iREPA方法(包含卷积投影和空间归一化)在所有测试编码器上取得最佳FID分数[41] - 例如,使用DINOv3-B编码器时,完整iREPA的FID为`16.26`,优于仅移除空间归一化的`17.76`和仅移除卷积投影的`18.28`[41]