Workflow
后门攻击
icon
搜索文档
ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御
机器之心· 2025-09-24 09:23
研究背景 - 基于扩散模型的图像生成技术快速发展,用户可通过文本描述生成高质量图像,多个第三方机构已开源模型[6] - 开源社区繁荣带来后门攻击威胁,攻击者可通过在提示词中加入触发器篡改生成图像内容[8] - 传统分类模型的后门防御技术无法适配AIGC图像生成,因触发词主导性假设不成立且图像生成需多步迭代导致计算开销巨大[8] 核心发现 - 通过神经元激活分析发现触发器Token对模型内部状态的影响显著高于其他Token,且在生成早期迭代中尤为明显[11] - 理论证明文本条件对模型输出的影响随扩散过程推进而减弱,第一步模型状态最能反映可疑样本特征[15] - 定义"早期激活差异"现象,为防御框架提供理论基础[3] 技术方案 - 提出NaviT2I防御框架,基于神经元激活差异检测可疑样本,通过分析扩散过程加速检测[3] - 设计逐层神经激活差异量化方法,针对线性层和卷积层分别采用不同量化方法[17] - 通过计算替换非停用词前后的神经激活差异,定义语义改动幅度指标,使用评分函数判断异常激活[20][21] 性能表现 - 在八种主流后门攻击测试中,AUROC值达到96.3%,ACC值达到89.3%,相比基线方法提升20%-30%[23][24] - 检测速度显著提升,单样本处理时间仅1.242秒,相比基线方法加速至少6倍[25][26] - 在UNet和DiT两种架构上均保持有效性能,展现良好架构适应性[27][28] 研究价值 - 首次从神经元层面解决AIGC生图后门防御问题,为开源社区安全提供高效解决方案[29] - 该方法已入选ICCV 2025会议Highlight论文,预印本和代码均已公开[7]