Workflow
任务关系中心
icon
搜索文档
破解可塑性瓶颈,清华团队新作刷榜持续学习:可迁移任务关系指导训练
36氪· 2025-12-02 00:56
文章核心观点 - 清华大学研究团队提出了一种名为“H-embedding引导的超网络”的新型持续学习框架,其核心创新在于从“任务关系中心”的视角出发,通过信息论度量构建任务嵌入来显式建模和利用任务间关系,从而在多个基准测试中有效降低模型遗忘率并提升知识迁移效率 [1][4][6] 方法动机与核心问题 - 传统持续学习方法存在“灾难性遗忘”瓶颈,且大多从“模型中心”视角出发,缺乏对任务之间内在关系的建模和利用 [1] - 传统模式存在三大问题:缺乏任务级先验、难以同时优化正向与后向迁移、随着任务数量增长干扰累积难以扩展 [7][8] 核心技术:H-embedding - 提出基于信息论指标H-score的任务可迁移性嵌入(H-embedding),用于表征从旧任务到当前任务的迁移价值 [9][11] - H-embedding具备三个重要特性:先验可用(训练前即可获得)、低维紧凑(便于存储与调用)、与迁移性对齐(嵌入距离反映任务关系) [12][14] 核心框架:超网络参数生成 - 提出由H-embedding驱动的超网络框架,该超网络根据任务嵌入为每个任务生成其专属参数 [12] - 框架引入轻量级解码器,通过重构H-embedding迫使超网络显式吸收任务关系 [15] - 训练过程包含三类关键损失:任务损失、持续学习正则项、嵌入引导损失 [18] 方法优势与效果 - 该方法能够针对任务差异自动调节参数、在任务相关时进行正向迁移、在任务冲突时强化知识保护 [17] - 在ImageNet-R等测试中,该方法将遗忘率再降低一成 [1] - 实现了强正向与后向迁移能力同时出现,新任务学习对旧任务几乎无干扰,同时能从旧任务中有效吸收知识 [20] - 算法对任务数量增长具有更高鲁棒性,在5→10→20个任务的扩展实验中,性能增益持续放大,并在靠后的任务中带来显著的收敛加速 [20] 工程可落地性 - 框架具有高可用性,可端到端训练,兼容多种参数高效微调技术(如LoRA) [18] - 支持CNN、ViT等主流架构,并可部署在多种预训练模型上 [19] - 每个任务仅需保存一个低维embedding,存储成本极低 [19] 结论与展望 - 该研究提出了一种“任务关系中心”的持续学习新范式,使模型能够预测迁移性而非被动适应,并在学习过程中有意识地管理任务间的知识交互 [21][23] - 未来该方法有望拓展至跨模态增量学习、大模型的长期任务适配、任务自组织与自动化学习顺序规划等更复杂场景 [21]