推特吵架吵出篇论文，谢赛宁团队新作iREPA只要3行代码

论文核心观点 - 一篇源于社交媒体讨论的学术论文挑战了传统观念，研究发现空间结构信息而非全局语义信息是驱动视觉表征生成性能的主要因素 [17] - 研究通过大规模定量分析覆盖27种不同的视觉编码器及3种模型规模，证实了空间结构的重要性 [21] - 基于研究发现，论文提出了改进的iREPA框架，核心修改仅需3行代码，能在多种训练方案中实现持续更快的收敛 [25] 研究背景与起源 - 研究起源于社交媒体上关于视觉模型训练目标的辩论，焦点在于自监督学习模型应更关注为稠密任务（如REPA、VLM）训练，而非ImageNet-1K分类分数 [4] - 初始辩论中，一方观点认为稠密任务依赖patch tokens中的空间和局部信息，而非[CLS] token的全局分类性能 [4] - 另一方（谢赛宁）最初认为VLM和REPA的性能与ImageNet-1K得分高度相关，与patch级别关联弱，并指出是高层语义与低层像素相似性的差别问题 [8] - 经过3个多月的后续研究，多个团队合作将讨论思路转化为完整论文，并感谢了参与讨论的网友 [2][3][15] 核心研究发现 - 研究结论颠覆传统观念：更好的全局语义信息（如ImageNet-1K分类准确率）并不等于更好的生成效果，空间结构才是表征生成性能的驱动力 [17] - 研究发现更大的视觉编码器可能带来更差的生成性能，线性检测准确率仅约20%的编码器，其生成效果可以超过准确率>80%的编码器 [17] - 如果试图通过CLS token向patch token注入更多全局语义，生成性能反而会被拉低 [18] - 生成效果更好的表征，往往具有更强的空间结构，可通过空间自相似性指标来衡量 [20] - 研究进一步发现，即便是SIFT、HOG这类经典空间特征，也能带来与现代大规模视觉编码器（如PE-G）相当的、具有竞争力的性能提升 [22] 研究方法与验证 - 研究通过一次大规模的定量相关性分析细化验证观察，分析覆盖了27种不同的视觉编码器，包括DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP等，以及3种模型规模（B、L、XL） [21] - 论文基于现有的表征对齐框架进行分析和修改，提出了iREPA方法 [24] 技术改进与应用 - iREPA对现有REPA框架进行了两项关键修改：将标准的MLP投影层替换为一个简单的卷积层；为外部表征引入一个空间规范化层 [24] - 这些简单修改旨在保留并强化空间结构信息，相比原始的REPA方法能显著提升性能 [24] - iREPA的核心框架仅需3行代码即可添加到任何表示对齐方法中，并且在各种训练方案（如REPA、REPA-E、Meanflow以及JiT）中都能实现持续更快的收敛 [25]