从频域角度重新分析对抗样本-AET-电子技术应用

从频域角度重新分析对抗样本

信息技术与网络安全 5期

丁烨1，王杰1，宛齐1，廖清2

(1.东莞理工学院网络空间安全学院，广东东莞523820； 2.哈尔滨工业大学(深圳) 计算机科学与技术学院，广东深圳518055)

摘要： 目前在空间域上关于对抗样本的研究成果已经相当成熟，但是在频域上的相关工作却是十分缺乏。从频域的角度对对抗样本进行深入的研究，发现对抗样本在DCT域上表现出了高度可识别的伪影，并利用这些伪影信息训练了一个基于频域的对抗样本检测器CNN-DCT，结果表明，对于常见的对抗样本在数据集CIFAR-10和SVHN上都能达到98%的检测准确率。此外，针对对抗样本在频域上存在的伪影，也提出一种通用的改进算法IAA-DCT来解决。简而言之，本文不仅填充了对抗样本在频域上工作的缺少，也改进了对抗攻击算法在频域上存在伪影的弊端。

关键词： 对抗样本频域 DCT域对抗攻击

中图分类号： TP391
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2022.05.009
引用格式：丁烨，王杰，宛齐，等. 从频域角度重新分析对抗样本[J].信息技术与网络安全，2022，41(5)：59-65，76.

Analysis of adversarial examples from frequency domain

Ding Ye1，Wang Jie1，Wan Qi1，Liao Qing2

(1.School of Cyberspace Security，Dongguan University of Technology，Dongguan 523820，China； 2.School of Computer Science and Technology，Harbin Institute of Technology(Shenzhen)，Shenzhen 518055，China)

Abstract： Research on adversarial examples in spatial domain is well studied, but related works in frequency domain is scarce. In this paper, we conduct thorough study of adversarial examples in frequency domain and find that adversarial examples exhibit highly identifiable artifacts in Discrete cosine transform(DCT) domain. Hence, a frequency domain-based adversarial example detector, CNN-DCT, is trained based on such artifact information, and the results achieve 98% detection accuracy for common adversarial examples on both CIFAR-10 and SVHN datasets. In addition, a general improved algorithm, IAA-DCT, is also proposed to address the artifacts that exist in the frequency domain for the adversarial examples. In conclusion, this paper not only provides studies of adversarial examples in frequency domain, but also improves the disadvantages of the adversarial attack algorithm with artifacts in the frequency domain.

Key words : adversarial example；frequency domain；discrete cosine transform(DCT) domain；adversarial attack

0 引言

对抗攻击通过在深度学习模型中加入人类视觉上无法察觉的扰动，被称为对抗样本[1]。对抗样本可以使模型受到干扰而产生错误的分类，从而导致错误类别的置信度大于正确类别的置信度。随着深度学习在不同的任务上取得优异性能，如人脸识别、自动驾驶、会议记录等，对人类社会进步带来了巨大的贡献。然而在许多的研究工作中，对抗攻击被证明可以在图像、视频、语音等领域的深度学习中执行恶意任务，从而造成重大的安全问题。

为了解决对抗攻击带来的影响，避免这种恶意的攻击，研究者们开始了对对抗攻击的防御工作。对抗防御主要分为两个方面，一个方面是直接改进模型而让现有的对抗攻击方法失效，如防御性蒸馏[2]。另外一个方面是进行对抗样本的检测。关于对抗检测的研究主要集中在图像域中对图片特征处理，如Xu等人[3]提出了一种基于特征压缩的对抗样本检测方法；Joel等人[4]在频谱上综合分析了现有的攻击方法和数据集，发现大部分的对抗样本在频域都出现了严重的伪影，并且在频域空间这些伪影数据可以分离，从而能够分类识别。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000004248

作者信息：

丁烨1，王杰1，宛齐1，廖清2

(1.东莞理工学院网络空间安全学院，广东东莞523820；

2.哈尔滨工业大学(深圳) 计算机科学与技术学院，广东深圳518055)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容