模型安全对齐
搜索文档
无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效
量子位· 2025-11-19 06:20
文章核心观点 - 蚂蚁集团与南洋理工大学联合推出名为EnchTable的模型安全对齐框架,旨在解决大语言模型在微调后安全能力下降的问题[3] - 该框架基于“安全蒸馏+干扰感知融合”两大核心技术,无需重新训练即可将安全知识从已对齐模型迁移至微调模型,实现安全与效用的最佳平衡[3][4] - EnchTable在多种模型架构和任务上表现优异,其安全防御能力甚至超越了官方的Instruct安全模型[3][26] 技术原理与创新 - **核心发现:安全对齐具有可迁移性**:研究团队认为安全对齐是一种可迁移的知识,无需在每个微调模型上重新学习,可将其作为独立模块进行提取和注入[6][7] - **面临两大挑战**:一是如何从模型参数中纯净地解耦出仅代表“安全”的知识向量;二是如何将该向量注入微调模型而不干扰其下游任务性能[8] - **双层解决方案**: - **NTK约束的安全向量蒸馏**:引入基于神经正切核的线性化方法,提取出纯净、尺度稳定的安全向量,此过程对每种模型架构只需执行一次[13][14] - **基于干扰感知的参数合并**:采用“粗粒度+细粒度缩放”双重机制,通过范数比例全局缩放,并利用奇异值分解逐层分析干扰,智能调整安全向量权重,以最小化对下游任务的影响[16][17][18][19] 实验效果与性能 - **安全与效用平衡**:在基于LLaMA3、Qwen2.5、Mistral三种架构和11个数据集的全面验证中,EnchTable在所有任务域上实现了最佳的安全-效用权衡[20][21] - **具体数据表现**: - **安全性提升**:在代码任务上,将微调模型的不安全率从0.802降至0.019;在数学任务上,从0.471降至0.006[25] - **效用性保持**:在代码任务上,效用分稳定在0.644;在医疗任务上,效用分稳定在0.738,几乎与微调模型的0.737持平[22] - **强大的泛化与鲁棒性**: - 支持架构泛化、全量微调和高效微调范式泛化,以及具有特殊模式的推理模型泛化[24] - 面对10种高级越狱攻击,其防御能力显著优于微调模型,甚至强于官方Instruct安全模型[26] - **高效轻量**:整个框架无需重新训练,向量蒸馏为一次性成本,合并过程高效,可无缝集成到部署流程中[28] 行业应用与意义 - **解决行业痛点**:针对“微调即服务”浪潮和模型定制化趋势下,微调导致安全对齐失效的行业普遍问题[29][30] - **广泛适用性**:方案支持LLaMA、Qwen、Mistral等主流架构,兼容全量微调和高效微调范式,适用于代码生成、数学推理、医疗分析等数据与安全敏感型场景[30] - **提供可落地方案**:作为“后处理”解决方案,无需依赖训练数据或大量计算资源,为AI平台时代的模型安全提供了实用的技术方案[30]