Workflow
FDA(Model Merging with Functional Dual Anchors)
icon
搜索文档
FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间
机器之心· 2025-11-14 01:33
文章核心观点 - 研究者提出了一种名为FDA(Model Merging with Functional Dual Anchors)的全新模型融合框架,旨在解决将多个专家模型能力整合到单一模型中的挑战[2] - FDA框架的核心思想是将参数空间中的任务知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合[4] - 该方法在视觉和自然语言模型上表现出卓越的性能和可扩展性,相比传统方法有显著提升[4][12] FDA框架关键思想 - FDA为每个专家模型构造一组对偶锚点,使其在初始参数处诱导出与任务向量近似的梯度方向,从而模拟任务知识对预训练模型的函数偏移[4] - 该方法将知识整合过程从参数空间迁移至输入空间,为模型融合问题提供了新视角[4] - 输入空间通常比参数空间具有更强的结构性,因此对输入空间建模更容易,这在知识迁移研究中已被广泛验证[10] FDA框架优势 - 相比基于任务向量算术操作的传统方法,FDA提供了可根据融合过程中的损失函数景观诱导新合并路径的机会,优化过程更灵活[9] - 在优化过程中,FDA能持续引导模型朝向多个下游数据集损失函数的局部最小值区域,而任务向量方法会迅速偏离原本的损失盆地[9] - FDA具备灵活的知识建模能力,即使使用相同的任务特定知识,仍能在此基础上进一步提升融合模型性能[15] 实验验证结果 - 在自然语言处理任务上,FDA将预训练模型的多任务平均性能从任务向量方法的73.94提升至87.26,提升幅度接近18%[14] - 在GLUE基准测试中,FDA相比任务向量方法平均分数提升了15.4%[14] - 在视觉任务上,FDA在ViT-B/16模型上平均提升约5.10%,在RoBERTa-Large模型上提升约13%,展示出跨架构的通用性[15] - 实验覆盖了80M、125M、400M到13B等不同尺寸的预训练模型,验证了方法的可扩展性[12] FDA算法实现 - 算法流程分为两个阶段:FDA的构建和基于FDA的参数更新[16] - 构建阶段通过优化问题求解FDA样本集合,采用基于梯度的迭代优化方法[17] - 研究者提出了线性权重采样和缩放高斯采样两种实用的初始化方案[18] - 参数更新阶段根据初始参数类型采用不同的优化目标函数[18][19] FDA编码知识机制 - FDA在优化过程中倾向于形成长尾结构,有效捕捉任务相关的主导表示方向,同时抑制冗余或噪声成分[22] - FDA的高能量子空间在优化过程中逐渐与真实数据的高能量子空间对齐,表明其有效捕获了任务知识的本质结构[23] - FDA诱导的参数更新与真实数据诱导的更新逐渐对齐,在功能空间上形成一致性[24]