1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
机器之心·2025-12-14 04:53

核心观点 - 一项新的研究提出了“通用权重子空间假说”,认为不同神经网络模型的权重在训练后会收敛到一个共享的低维子空间,这表明模型架构对学习内容的影响可能比数据更大 [1] - 该发现为理解神经网络的泛化能力、隐式正则化及模型合并等技术的有效性提供了新的理论支持,并可能带来模型压缩、快速适应新任务等实际应用 [2] - 研究也引发了关于当前架构可能存在内在能力天花板、缺乏多样性的担忧 [8] 论文概览 - 研究首次在权重层面为深度神经网络参数空间中“通用性”的存在提供了严谨的实证证据 [14] - 研究聚焦于分析同一架构下的大量模型,包括约500个基于Mistral-7B的LoRA适配器、约500个Vision Transformer和50个LLaMA3-8B模型 [11] - 此前已有神经正切核理论、机制可解释性研究、彩票假说等线索暗示类似现象,但未涉及不同模型间参数性质的收敛 [13] 方法与结果概览 - 分析方法主要采用1-2阶的高阶奇异值分解,对数千个公开模型进行分析,无需额外训练成本 [16] - 在CNN实验中,对在五个不同数据集上训练的ResNet-50进行分析,发现大部分信息仅存在于16个或更少的共享子空间方向中 [19] - 将模型投影到该低秩子空间后,其性能相对于完全微调仍具竞争力,支持了联合子空间的实用性 [19] - 在基于Mistral-7B的500个LoRA模型分析中,所有模型的参数都可被一个有限的低秩子空间良好近似 [22] - 通用子空间模型在解析重构已见和未见任务时表现稳健,且内存效率提升了19倍 [23] - 在文生图任务中,将Stable Diffusion-XL的单个LoRA投影到通用子空间后,生成的图像保持了视觉质量和风格 [26] - 基于CLIP的评估显示,通用子空间在某些情况下甚至优于单个LoRA [27] - 在模型合并任务中,通用子空间方法仅基于几何结构解析计算合并系数,无需迭代调优或验证数据,在降低参数数量的同时取得了更高的平均准确率 [29] - 在多个数据集上的合并实验结果显示,该方法平均准确率达到83.5%,优于RegMean、Task Arithmetic、TIES等一系列基线方法 [32] 研究的局限与开放问题 - 有观点指出,研究中的任务多样性可能不足,发现的可能只是“任务子宇宙特定的子空间”而非真正的通用子空间 [33] - 目前缺乏跨架构比较的方法,无法声称ViT和LLaMA3拥有相同的子空间 [33] - 开放问题包括:不同架构的通用子空间如何区别、能否通过显式设计架构来优化子空间几何结构、以及多样性缺失是否构成根本瓶颈 [14] 通用子空间涌现的原因推论 - 作者推论,神经网络对低频函数的谱偏好将学习动态集中到少数主导方向 [36] - 现代架构(如卷积、注意力机制)施加的强烈归纳偏置约束了解空间 [36] - 基于梯度的优化方法在无限宽度极限下由与任务基本无关的核函数主导,内在地偏好平滑解,将学习轨迹引向共享的几何流形 [36] - 如果假说成立,通用子空间可能捕获了超越特定任务的基本计算模式,这或许能解释迁移学习的有效性 [37]