无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

文章核心观点 - 蚂蚁集团与南洋理工大学联合推出名为EnchTable的模型安全对齐框架，旨在解决大语言模型在微调后安全能力下降的问题[3] - 该框架基于“安全蒸馏+干扰感知融合”两大核心技术，无需重新训练即可将安全知识从已对齐模型迁移至微调模型，实现安全与效用的最佳平衡[3][4] - EnchTable在多种模型架构和任务上表现优异，其安全防御能力甚至超越了官方的Instruct安全模型[3][26] 技术原理与创新 - 核心发现：安全对齐具有可迁移性：研究团队认为安全对齐是一种可迁移的知识，无需在每个微调模型上重新学习，可将其作为独立模块进行提取和注入[6][7] - 面临两大挑战：一是如何从模型参数中纯净地解耦出仅代表“安全”的知识向量；二是如何将该向量注入微调模型而不干扰其下游任务性能[8] - 双层解决方案： - NTK约束的安全向量蒸馏：引入基于神经正切核的线性化方法，提取出纯净、尺度稳定的安全向量，此过程对每种模型架构只需执行一次[13][14] - 基于干扰感知的参数合并：采用“粗粒度+细粒度缩放”双重机制，通过范数比例全局缩放，并利用奇异值分解逐层分析干扰，智能调整安全向量权重，以最小化对下游任务的影响[16][17][18][19] 实验效果与性能 - 安全与效用平衡：在基于LLaMA3、Qwen2.5、Mistral三种架构和11个数据集的全面验证中，EnchTable在所有任务域上实现了最佳的安全-效用权衡[20][21] - 具体数据表现： - 安全性提升：在代码任务上，将微调模型的不安全率从0.802降至0.019；在数学任务上，从0.471降至0.006[25] - 效用性保持：在代码任务上，效用分稳定在0.644；在医疗任务上，效用分稳定在0.738，几乎与微调模型的0.737持平[22] - 强大的泛化与鲁棒性： - 支持架构泛化、全量微调和高效微调范式泛化，以及具有特殊模式的推理模型泛化[24] - 面对10种高级越狱攻击，其防御能力显著优于微调模型，甚至强于官方Instruct安全模型[26] - 高效轻量：整个框架无需重新训练，向量蒸馏为一次性成本，合并过程高效，可无缝集成到部署流程中[28] 行业应用与意义 - 解决行业痛点：针对“微调即服务”浪潮和模型定制化趋势下，微调导致安全对齐失效的行业普遍问题[29][30] - 广泛适用性：方案支持LLaMA、Qwen、Mistral等主流架构，兼容全量微调和高效微调范式，适用于代码生成、数学推理、医疗分析等数据与安全敏感型场景[30] - 提供可落地方案：作为“后处理”解决方案，无需依赖训练数据或大量计算资源，为AI平台时代的模型安全提供了实用的技术方案[30]