一种基于局部平均有限差分的黑盒对抗攻击方法-AET-电子技术应用

一种基于局部平均有限差分的黑盒对抗攻击方法

信息技术与网络安全 1期

宗启灼，徐茹枝，年家呈

(华北电力大学控制与计算机工程学院，北京102206)

摘要： 在黑盒攻击领域，目前主流方法是利用对抗样本迁移性实现对抗攻击，然而此类方法效果不佳。为此提出一种基于访问的黑盒攻击方法，此方法运用有限差分法直接估计样本在目标模型中的损失函数梯度。为提高攻击效率，算法在两方面进行优化：第一，在估计梯度时，固定区域内使用平均像素值代替区域所有像素值进行有限差分，从而每个区域只需计算一次梯度；第二，在迭代生成对抗样本时，提出复用多代梯度生成对抗扰动的思想，显著减少攻击迭代次数。经过大量实验验证，在MNIST、CIFAR-10和ImageNet中迭代的非目标攻击分别获得了99.8％、99.9％和85.8％的攻击成功率，领先当今大多数黑盒攻击算法。

关键词： 图像识别对抗样本局部平均有限差分黑盒攻击

中图分类号： TP183
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2022.01.004
引用格式：宗启灼，徐茹枝，年家呈. 一种基于局部平均有限差分的黑盒对抗攻击方法[J].信息技术与网络安全，2022，41(1)：23-29，36.

A black-box adversarial attack method based on local average finite difference

Zong Qizhuo，Xu Ruzhi，Nian Jiacheng

(School of Control and Computer Engineering，North China Electric Power University，Beijing 102206，China)

Abstract： In the field of black box attacks, the current main method is to use the migration of adversarial samples to achieve adversarial attacks. However, the current methods are not effective. For this reason, this paper proposes an access-based black box attack method, which uses the finite difference method to directly estimate the gradient of the loss function of the sample in the target model. In order to improve the efficiency of the attack, the algorithm is optimized in two aspects. Firstly, in the finite difference process, the average pixel value in a fixed area is used instead of each pixel value in the area, so that each area only needs to be calculated once. Secondly, when generating adversarial samples iteratively, the idea of reusing multiple generations of gradient generation to resist disturbance is proposed, which significantly reduces the number of attack iterations. After a lot of experimental verification, the iterative non-target attacks in MNIST, CIFAR-10 and ImageNet have achieved 99.8%, 99.9% and 85.8% attack success rates respectively, leading most of today′s black box attack algorithms.

Key words : image recognition；adversarial sample；local average finite difference；black box attack

0 引言

目前，神经网络由于其高效解决复杂任务的能力，特别在计算机视觉领域，受到了广泛研究和应用。神经网络本身具有高度不可解释性的黑盒性质，使其行为难以控制和解释[1]。因此在具体领域应用的安全性值得关注和重视，譬如军事、自动驾驶、医疗等。对抗样本概念由 Szegedy等[1]在2013年首次提出，即在原始图像中添加微小的扰动便可生成让神经网络模型高置信度错误分类的对抗样本。

根据攻击者对目标模型的结构和参数了解程度由高到低，依次可将对抗攻击分为白盒攻击、灰盒攻击和黑盒攻击三种。其中黑盒攻击更加接近现实情况，相比前两者具有更大的研究价值[2]。在黑盒攻击的研究中，可分为基于迁移的黑盒攻击[3]和基于访问的黑盒攻击[4]。

在基于迁移的黑盒攻击中，文献[5]在快速梯度下降方法[6]的基础上，通过在梯度方向上增加动量，使生成的对抗性样本具有更强迁移性。但此攻击方法偶然性大、适用度低，并且攻击成功率不高。在文献[7]中，Papernot通过重复学习和扩充收集的数据，使得新数据集可以更好地表示目标模型，并提出基于雅可比行列矩阵的数据集扩充方法，迭代地扩充和完善替代模型。但是，当样本图像维度很大时，计算雅可比矩阵将消耗巨大资源，并且难以完全模仿被攻击模型的决策边界，使得迁移攻击成功率降低。

由于替代模型无法完全模仿目标模型，越来越多的研究者倾向于直接估计目标模型的结构和参数信息，基于梯度估计的黑盒攻击应运而生。文献[4]利用零阶优化(ZOO)算法通过访问目标模型来估计损失函数的梯度，其本质是通过有限差分法估计梯度[8]，此方法估计梯度时需要逐个对每个像素点进行估计，每次迭代都需要大量查询才能生成准确的梯度估算值，攻击效率低。文献[9]利用有限差分法生成对抗样本，在梯度估计过程中采用随机分组法，减少计算量，但是减少的效果有限，并且在ImageNet数据集上攻击成功率低。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003932。

作者信息：

宗启灼，徐茹枝，年家呈

(华北电力大学控制与计算机工程学院，北京102206)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容