多任务学习 - 财报，业绩电话会，研报，新闻

多任务学习

搜索文档

LLM工业级自进化：北邮与腾讯AI Lab提出MoE-CL架构，解决大模型持续学习核心痛点

机器之心· 2025-09-30 00:27

文章核心观点 - 提出一种名为MoE-CL的参数高效对抗性混合专家架构，旨在解决工业级大语言模型在持续学习新任务时面临的知识遗忘与跨任务泛化难题，实现模型的“自进化”能力 [2][6] 方法架构 - 核心设计结合“解耦LoRA专家”与“GAN对抗降噪”，为每个任务配置专属LoRA专家以保留特定知识，同时设置共享LoRA专家通过任务感知鉴别器抑制噪声，促进跨任务知识传递 [2][8] - 采用Transformer块的LoRA增强技术，重点优化前馈神经网络层，通过引入低秩矩阵降低参数更新量与计算成本 [8] - 任务感知判别器通过交叉熵损失函数计算预测标签与真实标签的差异，确保任务共享信息的质量 [11][12][13] - 指令微调阶段通过门控网络自动生成的权重系数，对任务共享表示与任务特定表示进行加权组合以进行预测 [15][17][18] 实验效果 - 在公开基准MTL5和工业级基准Tencent3上，MoE-CL的平均准确率达到0.6342，优于所有基线方法，且方差极小（±0.0074），展现出优异的泛化能力与稳定性 [21][22] - 在腾讯真实业务场景的A/B测试中，MoE-CL在任务A场景的剔除率高达28.8%，较基线算法提升15.3%，显著降低了人工介入成本 [26][27] - 通过构建不含GAN的对比版本进行验证，结果显示含GAN的MoE专家架构在持续学习任务中平均性能显著更优，尤其在反向迁移指标上表现突出，证明GAN对防止灾难性遗忘的关键作用 [23]

FlowDrive：一个具备软硬约束的可解释端到端框架（上交&博世）

自动驾驶之心· 2025-09-22 23:34

核心观点 - 提出FlowDrive自动驾驶框架在BEV空间中引入基于能量的流场表示显式编码风险势场与车道吸引力场实现安全可解释的轨迹规划[2][7] - 采用任务解耦设计分离运动意图预测与轨迹生成过程减少梯度冲突与特征干扰[6][9] - 在NAVSIM v2基准测试中EPDMS评分达86.3 超越现有SOTA方法0.3分在安全性与规划质量方面表现最优[3][40] 技术架构创新 - 风险势场通过高斯函数建模障碍物排斥力计算公式为$$U_{risk}(u,v)=\sum_{i}\eta\exp\Biggl{(}-\frac{\left\|(u,v)-(u_{i},v_{i})\right\|^{2}}{2\sigma^{2}}\Biggr{)}$$[20] - 车道吸引力场结合横向距离与纵向弧长计算公式为$$U_{lane}(u,v)=\frac{1}{2}k_{lat}d(u,v)^{2}+k_{lon}(L-s(u,v))$$[20] - 流感知锚定轨迹优化模块通过Transformer动态调整初始轨迹使其与能量极小值区域对齐[7][22] - 运动解耦生成规划器采用条件扩散框架使用两组门控查询分离意图预测与轨迹去噪任务[28] 实验性能表现 - 使用ResNet-34骨干网络时EPDMS达84.9分超越DiffusionDrive的84.2分和DriveSuprim的83.1分[40] - 采用V2-99骨干网络后EPDMS提升至86.3分较最优基准方法提升0.3分[40] - 在DAC（97.4）、DDC（99.6）、TTC（97.9）等安全指标上显著领先[40] - 多模态设置下（图像+激光雷达）性能与TransFuser、DiffusionDrive相当或更优[41] 消融实验验证 - 移除流场学习模块导致EPDMS从86.3降至85.8[43][47] - 禁用自适应锚定优化使EPDMS下降0.4分[43][47] - 取消运动解耦设计导致性能降低0.2分[43][47] - 流场参数最优配置为$$k_{lat}=10.0$$, $$k_{lon}=1.0$$, $$\eta=1.0$$, $$\sigma=10.0$$[43] 行业技术背景 - 端到端自动驾驶成为主流范式基于BEV的方法可分为回归式（如UniAD、VAD）与生成式（如GenAD、DiffusionPlanner）两类[10][11] - 流场表示在机器人领域早有应用但此前未有效整合进端到端自动驾驶框架[12] - 多任务学习采用MoE、MMoE等门控机制但现有方法存在特征纠缠问题[13]

LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能

机器之心· 2025-05-02 04:39

核心观点 - LoRI技术通过大幅减少LoRA的可训练参数（仅5%），在数学推理、代码生成、安全对齐及自然语言理解任务上匹配或超越全量微调、标准LoRA和DoRA的性能 [1] - LoRI冻结低秩矩阵A并采用任务特定稀疏掩码训练矩阵B，通过校准过程保留关键元素，实现90%稀疏度下仍保持性能 [4] - 在Llama-3-8B和Mistral-7B模型上，LoRI-S（0.05%参数）比LoRA减少95%可训练参数，HumanEval任务性能提升17.3% [9][17] 技术原理 - LoRI将权重更新分解为低秩矩阵，固定随机投影矩阵A，仅稀疏训练矩阵B，显著降低参数干扰 [4][13] - 通过幅度选择校准提取稀疏掩码，保留B中最高幅度元素，实现跨任务参数隔离 [4] - 与IA3的区别：IA3学习缩放向量调整激活函数，而LoRI基于低秩矩阵分解并应用固定稀疏掩码 [15][16] 性能表现 - 单任务测试：LoRI-D（0.54%参数）在8项NLU任务平均得分87.3，超越LoRA（87.1）和DoRA（87.1） [19] - 代码生成：Llama-3-8B上LoRI-D在HumanEval的Pass@10达63.2%，显著高于LoRA（50.8%） [19] - 安全对齐：LoRI-S在HEx-PHI任务得分95.9%，优于LoRA（91.6%）和DoRA（93.6%） [19] 多任务应用 - 适配器合并：LoRI串联融合方案在异构任务（NLU/数学/代码/安全）中性能接近单任务基线，干扰最小化 [20] - 持续学习：LoRI-S通过90%稀疏掩码实现安全对齐遗忘率最低，安全→NLU任务中参数隔离效果显著 [22] - 两阶段训练：先安全对齐后任务适配的策略使LoRI在保持安全性的同时提升下游任务表现 [22] 实验设置 - 基准模型：Llama-3-8B（8.03G参数）和Mistral-7B（7.24G参数） [17][19] - 硬件配置：8块NVIDIA A5000 GPU完成所有实验 [17] - 对比方法：全量微调（FFT）、标准LoRA（1%参数）、DoRA（1.05%参数） [19]