无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效
量子位·2025-11-19 06:20

文章核心观点 - 蚂蚁集团与南洋理工大学联合推出名为EnchTable的模型安全对齐框架,旨在解决大语言模型在微调后安全能力下降的问题[3] - 该框架基于“安全蒸馏+干扰感知融合”两大核心技术,无需重新训练即可将安全知识从已对齐模型迁移至微调模型,实现安全与效用的最佳平衡[3][4] - EnchTable在多种模型架构和任务上表现优异,其安全防御能力甚至超越了官方的Instruct安全模型[3][26] 技术原理与创新 - 核心发现:安全对齐具有可迁移性:研究团队认为安全对齐是一种可迁移的知识,无需在每个微调模型上重新学习,可将其作为独立模块进行提取和注入[6][7] - 面临两大挑战:一是如何从模型参数中纯净地解耦出仅代表“安全”的知识向量;二是如何将该向量注入微调模型而不干扰其下游任务性能[8] - 双层解决方案: - NTK约束的安全向量蒸馏:引入基于神经正切核的线性化方法,提取出纯净、尺度稳定的安全向量,此过程对每种模型架构只需执行一次[13][14] - 基于干扰感知的参数合并:采用“粗粒度+细粒度缩放”双重机制,通过范数比例全局缩放,并利用奇异值分解逐层分析干扰,智能调整安全向量权重,以最小化对下游任务的影响[16][17][18][19] 实验效果与性能 - 安全与效用平衡:在基于LLaMA3、Qwen2.5、Mistral三种架构和11个数据集的全面验证中,EnchTable在所有任务域上实现了最佳的安全-效用权衡[20][21] - 具体数据表现: - 安全性提升:在代码任务上,将微调模型的不安全率从0.802降至0.019;在数学任务上,从0.471降至0.006[25] - 效用性保持:在代码任务上,效用分稳定在0.644;在医疗任务上,效用分稳定在0.738,几乎与微调模型的0.737持平[22] - 强大的泛化与鲁棒性: - 支持架构泛化、全量微调和高效微调范式泛化,以及具有特殊模式的推理模型泛化[24] - 面对10种高级越狱攻击,其防御能力显著优于微调模型,甚至强于官方Instruct安全模型[26] - 高效轻量:整个框架无需重新训练,向量蒸馏为一次性成本,合并过程高效,可无缝集成到部署流程中[28] 行业应用与意义 - 解决行业痛点:针对“微调即服务”浪潮和模型定制化趋势下,微调导致安全对齐失效的行业普遍问题[29][30] - 广泛适用性:方案支持LLaMA、Qwen、Mistral等主流架构,兼容全量微调和高效微调范式,适用于代码生成、数学推理、医疗分析等数据与安全敏感型场景[30] - 提供可落地方案:作为“后处理”解决方案,无需依赖训练数据或大量计算资源,为AI平台时代的模型安全提供了实用的技术方案[30]