LoRA - 财报，业绩电话会，研报，新闻

LoRA

搜索文档

ICML 2025 | CoTo：让LoRA训练「渐入佳境」，模型融合、剪枝样样精通

机器之心· 2025-07-26 12:17

常规 LoRA 训练的隐藏缺陷 - 参数高效微调技术是预训练大模型在下游任务应用的关键技术，但 LoRA 仍面临训练不稳定、模型融合效果差、剪枝后性能下降等问题 [4] - LoRA 优化过程常陷入初始化点附近的次优解，限制模型泛化能力 [7] - 梯度更新集中在模型顶层适配器，导致底层适配器训练不足 [7] - 多个 LoRA 模型融合和剪枝等下游操作困难，效果不佳 [7] CoTo 策略的核心思想 - 采用渐进式激活策略，训练初期以较高概率随机失活部分 LoRA 适配器，迫使梯度更均匀流向所有层级 [5] - 训练中后期线性提高适配器激活概率，直到所有适配器完全参与训练 [8] - 该策略促进层级间均衡优化，提升模型线性模式连通性和 Dropout 稳定性 [8] CoTo 的实验结果 - 在常识推理与图像分类任务中，CoTo 模型展现优越的线性模式连通性，性能过渡平滑高效 [13] - 在 GLUE 数据集上，基于 LLaMA-2 和 DeBERTa-v3 模型的 CoTo 训练 LoRA 模块多任务合并准确率稳定超越基线 [13] - CoTo 增强模型剪枝容错能力，在结构化和非结构化剪枝中性能全面超越标准 LoRA [17] CoTo 的性能与效率 - 在视觉、语言和数学推理等多个领域基准测试中，CoTo 稳定提升多种 LoRA 变体性能 [24] - 在 HiRA 上应用 CoTo 可实现超 24% 的训练加速 [24] - 代码实现简洁，只需对现有 LoRA 训练流程做三步改动即可应用 [22] CoTo 的总结 - 通过渐进式训练策略有效解决 LoRA 训练中的层级不平衡和优化问题 [23] - 提升模型单任务泛化能力，增强 LoRA 适配器可组合性与鲁棒性 [23] - 无需修改模型架构，可作为即插即用模块与各类 LoRA 方法无缝集成 [23]

Artificial Intelligence

Artificial Intelligence

CoTo

充分激发模态协作，MokA量身打造MLLM微调新范式

机器之心· 2025-06-29 02:21

多模态大模型微调方法研究核心观点 - 当前多模态大模型微调方法直接沿用单模态策略（如LoRA），忽视模态异质性导致信息利用不足 [2][8] - 研究团队提出MokA方法，首次同时兼顾单模态独立建模（Unimodal Adaptation）和跨模态交互建模（Cross-modal Adaptation）[9][12] - 实验证明MokA在音频-视觉-文本、视觉-文本、语音-文本三大场景中性能显著超越现有方法 [19][20][21][22] 方法论创新 - **模态特异A矩阵**：为每种模态设置独立参数空间，避免信息压缩干扰 [15] - **跨模态注意力机制**：在低秩空间显式强化文本与非文本模态的任务关联 [16] - **共享B矩阵**：将独立模态投影至共享空间实现隐式对齐 [17] 实验结果音频-视觉-文本场景 - LLaMA2基座上MokA准确率达75.71（LoRA基线73.41）[20] - Qwen2.5-VL基座提升1.87个百分点至74.87 [20] - LLaMA3基座实现当前最高79.15准确率 [20] 视觉-文本场景 - MMEpercep评测中MokA得分1292.37（Qwen2基座），较LoRA提升21.7% [21] - SEED-Bench准确率提升2.85个百分点至58.10 [21] 架构优势 - 参数量仅需N个A矩阵+1个B矩阵，保持LoRA高效特性 [20][21] - 兼容LLaMA/Qwen等主流基座模型 [19] 行业意义 - 为多模态大模型微调提供新范式，突破单模态策略迁移的局限性 [12][23] - 开源项目已覆盖三大高频应用场景，具备商业化落地潜力 [5][19]

多模态大模型

多模态微调

Artificial Intelligence

Artificial Intelligence

MokA

LoRA

LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能

机器之心· 2025-05-02 04:39

核心观点 - LoRI技术通过大幅减少LoRA的可训练参数（仅5%），在数学推理、代码生成、安全对齐及自然语言理解任务上匹配或超越全量微调、标准LoRA和DoRA的性能 [1] - LoRI冻结低秩矩阵A并采用任务特定稀疏掩码训练矩阵B，通过校准过程保留关键元素，实现90%稀疏度下仍保持性能 [4] - 在Llama-3-8B和Mistral-7B模型上，LoRI-S（0.05%参数）比LoRA减少95%可训练参数，HumanEval任务性能提升17.3% [9][17] 技术原理 - LoRI将权重更新分解为低秩矩阵，固定随机投影矩阵A，仅稀疏训练矩阵B，显著降低参数干扰 [4][13] - 通过幅度选择校准提取稀疏掩码，保留B中最高幅度元素，实现跨任务参数隔离 [4] - 与IA3的区别：IA3学习缩放向量调整激活函数，而LoRI基于低秩矩阵分解并应用固定稀疏掩码 [15][16] 性能表现 - 单任务测试：LoRI-D（0.54%参数）在8项NLU任务平均得分87.3，超越LoRA（87.1）和DoRA（87.1） [19] - 代码生成：Llama-3-8B上LoRI-D在HumanEval的Pass@10达63.2%，显著高于LoRA（50.8%） [19] - 安全对齐：LoRI-S在HEx-PHI任务得分95.9%，优于LoRA（91.6%）和DoRA（93.6%） [19] 多任务应用 - 适配器合并：LoRI串联融合方案在异构任务（NLU/数学/代码/安全）中性能接近单任务基线，干扰最小化 [20] - 持续学习：LoRI-S通过90%稀疏掩码实现安全对齐遗忘率最低，安全→NLU任务中参数隔离效果显著 [22] - 两阶段训练：先安全对齐后任务适配的策略使LoRI在保持安全性的同时提升下游任务表现 [22] 实验设置 - 基准模型：Llama-3-8B（8.03G参数）和Mistral-7B（7.24G参数） [17][19] - 硬件配置：8块NVIDIA A5000 GPU完成所有实验 [17] - 对比方法：全量微调（FFT）、标准LoRA（1%参数）、DoRA（1.05%参数） [19]