论文核心观点 - 清华大学与蚂蚁数科联合提出名为Dual-Flow的新型对抗攻击生成框架,该框架能从海量图像数据中学习“通用扰动规律”,不依赖目标模型结构且无需梯度,即可对多种模型和类别发起高效的黑盒攻击 [2] - 该框架通过“前向扰动建模—条件反向优化”的双流结构,实现对抗样本的高可迁移性与高成功率,同时保持极低的视觉差异,可视为一个“可控的对抗样本生成器” [2] - 该技术旨在解决传统对抗攻击方法在迁移性、多目标攻击能力及实例无关性方面的局限,为AI安全领域带来了新的挑战与研究方向 [5][6][7][8] 技术背景与问题定义 - 随着AI模型在图像识别、自动驾驶等领域的广泛部署,模型安全成为重要问题,尤其是在攻击者无法获知模型内部结构的黑盒环境下,攻击的迁移性至关重要 [5] - 传统对抗攻击方法存在两大局限:一是实例专属攻击,虽针对单张图片成功率较高,但迁移性差;二是通用生成器攻击,在面对多目标、多模型时迁移性有限且成功率下降 [6][7] 核心技术创新 - 前向+反向Flow结构:Dual-Flow不在像素级别直接添加噪声,而是先将图片映射到流/潜在空间进行结构化扰动,再通过速度函数反向映射回图像空间生成对抗样本,这种方法能生成更自然、隐蔽且结构化的扰动 [9][13] - 多目标、实例无关攻击能力:该框架的统一结构天然支持多目标、多模型、实例无关的攻击,一个生成器即可覆盖多个类别和模型,无需为每个攻击目标单独训练,显著降低了成本并提高了实用性 [10][14] - 级联分布偏移训练:在训练过程中,扰动分布逐步推进,使得生成的对抗样本在不同时间步和中间表示上都能保持有效,从而大幅提升对多模型、多目标的迁移成功率,并在约束下保证视觉隐蔽性 [11][14] 实验结果与性能 - 在ImageNet NeurIPS验证集上的实验表明,Dual-Flow在单目标和多目标攻击中都展现了强大的迁移能力 [17] - 具体数据表明,在从Inception-v3迁移攻击ResNet-152的实验中,Dual-Flow的攻击成功率提升高达34.58% [23] - 在单目标攻击的黑盒环境下,Dual-Flow的平均成功率明显高于传统方法;即使面对经过对抗训练的模型,Dual-Flow依然能保持较高的成功率,体现了其在黑盒环境下的通用性和强大攻击力 [18][19] - 通过加入约束限制像素级扰动,并利用速度正则化使扰动在时间维度上更加平滑,生成的对抗视频几乎与原始视频无视觉差别,但仍能稳定误导模型 [20] 应用与贡献总结 - Dual-Flow提出了一种全新的通用对抗样本生成范式,通过其独特的双流协同结构及级联式分布偏移训练,实现了在多目标、多模型场景下稳定有效的实例无关攻击 [22] - 相比传统依赖像素级噪声的方法,Dual-Flow生成的扰动更具结构性且更难察觉,同时一个生成器即可覆盖多个类别与模型,大幅降低了使用成本 [22] - 该技术已应用于蚂蚁数科的身份安全相关产品,用于对抗样本的生成和检测,以增强防御体系对对抗样本的鲁棒性 [24]
NeurIPS 2025|指哪打哪,可控对抗样本生成器来了!
机器之心·2025-12-15 08:10