聚焦图像对抗攻击算法PS-MIFGSM

2020-06-07 07:06吴立人刘政浩岑悦亮

计算机应用 2020年5期

吴立人，刘政浩，张浩，岑悦亮，周维*

（1.云南大学软件学院，昆明650091； 2.昆明理工大学信息工程与自动化学院，昆明650500）

（∗通信作者电子邮箱zwei@ynu.edu.cn）

0 引言

深度学习近年来在各个领域的贡献颇为显著，卷积神经网络（Convolutional Neural Network,CNN）在自动驾驶汽车［1-2］、监视［3］、恶意代码检测［4］、无人机［5］等领域已经成功得以应用，并且在其应用中都扮演着关键性角色，因此保证网络模型的安全运行尤为重要。虽然深度学习网络模型精确度越来越高，但是仍然存在被对抗样本攻击的安全隐患，因此，深度学习网络模型安全的研究具有很强的现实意义。

对抗攻击［6］是深度学习模型攻击中最常用的攻击方法，其目的是通过给输入样本添加微小的噪声扰动，使模型的预测结果为错误结果，甚至能根据特定的噪声扰动输出攻击者所需的预测结果。具体来说，对抗攻击方法通过限制扰动的L∞或L2范数的值以使对抗样本中的扰动无法被人察觉。如图1所示：以最常用的图片分类模型为例，对于训练好的深度学习模型在给定原始图片x（x表示未加上扰动的原始图片）时能准确识别出图片内容为“雨靴”，然而当图片x加入特定的扰动μ后生成图片x*，将x*输入到同样的模型其预测结果变成了“抹布”，也就是说通过添加扰动μ后输入x*成功地骗过了模型，但对于人类而言这两个输入x和x*却很容易被判断为同一种分类。想象一下，如果这种攻击被应用到自动驾驶领域，神经网络模型可能会出现误判，导致严重的后果。

其实采用限制性扰动L0范数对神经网络模型进行攻击的JSMA（Jacobian-based Saliency Map Attack）方法已经在2015年被Papernot等［7］提出，但是其方法只修改图像中的几个像素，而没有考虑通过扰乱整个图像来欺骗分类器。Moosavi-Dezfooli等［8］通过迭代计算的方法生成最小规范对抗扰动，该算法通过一个小的向量来扰动图像，将位于分类边界内的图像逐步推到边界外，直到出现错误分类。

然而目前的攻击算法中仍然存在通过像素级别扰动来实现攻击，这种方法导致要想达到预期的目的会损失对抗样本与原样本之间产生极大的差异，通过分析发现，对于深度神经网络提取任务需要的特征时，更关注包含特定信息区域［9-10］，本文针对这一启发提出一种聚焦图像攻击算法——PSMIFGSM（Perceptual-Sensitive Momentum Iterative Fast Gradient Sign Method）：通过Grad-CAM［9］提取卷积神经网络对图像的重点关注区域，然后再对这些区域采用MI-FGSM（Momentum Iterative Fast Gradient Sign Method）［11］攻击算法进行攻击，保持图像其他区域不变。

图1 生成对抗攻击样本Fig.1 Generation of adversarial attack sample

1 相关工作

尽管深度神经网络在很多研究和应用领域都表现出色，然而Szegedy等［12］于2014年第一次提出神经网络存在安全性漏洞，通过在一张图片上做微小的扰动，就能让图片以很高的置信度被网络模型错误分类，甚至可以让图片被分类成一个指定的标签。从此学术界展开了对图像对抗攻击的进一步研究。GoodFellow等［13］于2015年提出了产生对抗攻击根本原因的猜测：深度神经网络在高维空间中的线性特性已经足以产生这种攻击行为，而非之前人们猜测的神经网络的复杂性，同时在这个假设前提下提出了一种高效生成对抗样本的算法FGSM（Fast Gradient Sign Method），并通过实验加以验证。实验结论表明：一个测试效果良好的分类器，其实并不像人类一样学习到了所分类样本的真正底层意义，只不过刚好构建了一个在训练数据上运行相当良好的模型，而这个模型实际上就像是一个富丽堂皇的假象，当遇到一些空间中不太可能出现的点时，模型能力的有限性就会随之暴露出来。当深度神经网络应用于需要极高安全性的领域时，对抗样本必将对其带来不小的安全隐患。

2017年Madry等［14］提出的I-FGSM（Iterative-Fast Gradient Sign Method）算法是对FGSM算法的改进，I-FGSM在FGSM算法基础上增加了多次迭代攻击，其效果更加显著。Dong等［11］于2018年提出MI-FGSM攻击，MI-FGSM在迭代攻击的基础下添加了动量因子使得实验中攻击效果更好。上述方法中的攻击方式都覆盖了整张图像，虽然取得了良好的效果，但是这种方式会增大对抗样本和真实样本的差异。Su等［15］在2017年提出一种极端的对抗攻击方法，使用差分进化算法对每个像素迭代地修改生成对抗样本，并与真实样本对比，根据一定标准选择保留攻击效果最好的对抗样本，实现对抗攻击。这种对抗攻击不需要知道网络参数或梯度的任何信息，仅改变图像中的一个像素值就可以实现对抗攻击。

另一方面，CNN最早由LeCun等［16］提出并在手写数字识别应用中取得了突破性的进展，之后被广泛应用于图像识别［17］、语音检测［18］、生物信息学［19-20］等多个领域。因为CNN在图像处理中可以直接作用于图像中像素值，能够提取更广泛、更深层次和更有区别度的特征信息。Selvaraju等［9］提出Grad-CAM直接寻找图像中对分类贡献最大的区域，因为卷积层包含了丰富的语义信息，而这些语义信息经过池化操作后，会使人类不可理解。故Grad-CAM［9］利用池化前最后一个卷积层的特征图进行可视化，以此解释CNN是根据图像中的哪些区域作出相应的预测。上述研究表明：深度神经网络模型在处理图像信息过程并非是对整张图像的信息获取量都相等，对某些特定的区域关注度更高，并且可以通过上述方法得到这些关注度高的区域。

本文受MI-FGSM和Grad-CAM的启发，提出一种新型的聚焦图像攻击算法PS-MIFGSM。本文的工作主要包括：1）提出PS-MIFGSM图像攻击算法，在MI-FGSM中引入Grad-CAM，提取出网络对图像的重点关注区域，针对重点关注区域进行基于动量的梯度迭代攻击，以尽可能少地添加扰动。2）探究PS-MIFGSM在攻击单模型和集合模型时的不同效果。

2 PS-MIFGSM攻击方法

2.1 MI-FGSM攻击

MI-FGSM方法是Dong等［11］在2018年提出来的图像攻击算法，该算法是一种基于动量的梯度迭代攻击算法。FGSM［13］通过最大化损失函数J(x，y)来生成对抗样本，其中J(x，y)通常是交叉熵损失，生成的对抗样本满足L2范数约束≤μ，μ为扰动大小。对抗样本x*迭代公式如下：

与FGSM算法相比，MI-FGSM中加入了动量因子，每一轮迭代的梯度方向会影响下一轮的迭代，这种方式可以让攻击在损失函数的梯度方向快速迭代，稳定更新，有效地避免了局部最优。MI-FGSM算法具体描述如下。

算法1 MI-FGSM。

输入分类模型f的损失函数J，真实样本x，真实类别y，扰动大小μ，迭代次数T，衰减系数u；

输出对抗样本x*。

1）a=μ/T；

2.2 Grad-CAM方法

Grad-CAM是Selvaraju等［9］在2017年提出的用来解决卷积神经网络可解释性问题的方法。Grad-CAM利用神经网络中最后一层卷积层来获取特征激活图，因为深层卷积神经网络中，最后一层卷积层包含了最丰富的分类信息，也是最容易可视化出来的。首先用类别输出结果对最后一层卷积层求导其中yc是分类结果，Akij是第k个特征图的(i，j)位置的值。然后通过如下公式计算出权重ack。

其中Z是特征图的大小。然后通过下式得到Grad-CAM的可视化结果，计算出的权重信息就是特征图中决定分类结果的重要区域。Relu函数是为了去除负值的影响，只关注特征图中的正值对分类结果的影响。

使用 Grad-CAM［9］对 Vgg_16［20］分类模型的分类结果做可视化实验，结果如图2，从图中可以看出，Vgg_16将图片正确分类的原因是重点关注了图中的亮点区域。

图2 Grad-CAM结果Fig.2 Result of Grad-CAM

2.3 PS-MIFGSM方法

目前主流攻击算法 FGSM、MI-FGSM、DeepFool［8］都是将对抗扰动作用于图像所有区域，虽然攻击成功率高，但是对原始图像的扰动和改变范围较大，使得攻击隐蔽性降低。如果能够准确定位出卷积神经网络在分类任务中的重点关注区域，那么就可以只对这些重点关注区域做攻击，以降低对图像中非关键区域的影响。该方法一方面可以使得图像攻击变得更加细微，以增加攻击隐蔽性；另一方面又能确保攻击的成功率。

为了在保证攻击成功率的前提下降低对原图的扰动大小，本文提出了PS-MIFGSM算法，具体架构如图3所示，从图中可以看出PS-MIFGSM主要分为三个主要部分：第一部分主要是借助Grad-CAM算法得到样本的关注区域，后续处理中根据Grad-CAM生成的结果区域即可将样本分为攻击区域和非攻击区域；第二部分主要是通过MI-FGSM算法计算得到攻击干扰信息；第三部分则是根据攻击区域和非攻击区域将干扰信息作用于原样本图像上，最终得到攻击样本。

图3 PS-MIFGSM算法架构Fig.3 Architectureof PS-MIFGSMalgorithm

PS-MIFGSM算法的目的在于在保证攻击准确率不变的前提下，尽量减小扰动对原图像的影响，以达到更好的隐蔽效果。公式如下：

算法伪代码如下：

算法1 PS-MIFGSM（单一模型）。

输入分类模型f的损失函数J，真实样本x，真实类别y，扰动大小μ，迭代次数T，衰减系数u，攻击的前q个位点。

输出对抗样本x*。

算法2 PS-MIFGSM（集合模型）。

输入n种分类模型f（f1，f2，…，fn)的损失函数J(J1，J2，…，Jn)，真实样本x，真实类别y，扰动大小μ，迭代次数T，衰减系数u，攻击的前q个位点。

输出对抗样本x*。

首先利用Grad-CAM获取到对应分类网络在图像分类任务中所重点关注的图像区域，分类网络对图像的重点关注区域就是本文算法要对图像进行攻击的区域。然后通过MIFGSM算法［11］获取到整张图像对抗攻击的对抗扰动，将对抗扰动加到相同图像对应的攻击区域，并且保持其他区域信息不变。

3 实验结果与分析

实验中本文所提出的PS-MIFGSM算法以及对比实验均基于Linux（Ubuntu 16.04LTS）下python3.5以及Tensorflow1.2深度学习框架实现，具体硬件参数为CPU Inter Core i7-6700K，32 GB内存，为了加快训练过程，实验中大部分过程选用NVIDIA GTX1080GPU加速完成。

3.1 数据集

本文的数据集采用天池IJCAI-19阿里巴巴人工智能对抗算法竞赛的官方数据集，包括110个种类的11万张商品图片的训练集，这些商品图片均来自阿里巴巴的电商平台，每个图片对应一个种类ID。实验中还有三种基础分类模型Inception_v1［22］、Resnet_v1［23］、Vgg_16［21］为本次实验的攻击对象，三种基础分类模型均加载训练好的权值参数，其在本实验数据集的测试集上的top1正确率均在70%以上。

本次实验的侧重点在于生成可以干扰分类模型进行分类的对抗样本，实验本文选取110张在三个基础模型中识别率均为100%的图片作为真实样本，以这110张真实样本为输入数据集，用PS-MIFGSM算法和MI-FGSM算法生成对抗样本来评估这两种攻击算法的结果。

3.2 评价指标

实验中使用MI-FGSM和PS-MIFGSM两种攻击算法对输入数据集的110张图片做攻击训练，生成对抗样本，然后使用模型对每个对抗样本进行分类识别，如果模型识别错误的对抗样本数量越多，同时对抗样本相对于真实样本的扰动越小，那么攻击算法越有效。

实验采用如下距离度量公式来评估攻击算法：其中：I表示真实样本，I a表示生成的对抗样本，M表示分类模型，y表示真实样本I的真是标签。如果模型对对抗样本I a的种类识别正确，那么此次攻击不成功，扰动量计算为上限64，如果模型对对抗样本I a的种类识别错误，那么就是对抗样本攻击成功，采用L2距离来计算对抗样本I a和真实样本I的扰动量。

同时本文也会计算不同攻击算法生成的对抗样本和真实样本在不同模型上的分类准确率，作为更为直观的攻击算法评价指标，模型对对抗样本的分类准确率越低，说明对抗样本越具有欺诈性，攻击算法更有效。

3.3 攻击单一模型的结果分析

攻击单一模型是指在攻击算法中只针对一个单独的分类模型进行攻击。本文将所提方法PS-MIFGSM与MI-FGSM［11］攻击方法做了攻击单一模型的对比实验，用两种方法生成的110个对抗样本分别对三种图像分类模型进行攻击，这三种图像分类模型分别是Inception_v1、Resnet_v1、Vgg_16。实验中，输入图像大小为224×224。整个图像的像素点一共是50 176。本文只选择在Grad-CAM输出的权重特征图中权重最大的25 000个像素点上进行攻击，其他像素点不变，其中，单个像素值的最大扰动设置为20，攻击迭代的衰减系数μ为0.04，像素值攻击迭代的数量是3次。用两种方法生成的对抗样本交叉攻击三种模型，评估其分类准确率和原样本与对抗样本的L2距离。

从表1中可以看出当白盒攻击时，PS-MIFGSM和MIFGSM的攻击成功率很高，模型对对抗样本的分类准确率几乎为0%：一方面，PS-MIFGSM保持了和MI-FGSM同等的攻击成功率；另一方面，PS-MIFGSM有效降低了原样本和对抗样本的差异化。这也说明本文使用Grad-CAM提取的卷积神经网络关注区域是正确有效的，对这些区域进行攻击确实能达到对整张图像进行攻击的效果。但是PS-MIFGSM在黑盒攻击时，攻击成功率稍低于MI-FGSM［11］算法，因为攻击失败的图片的D(I，I a)值会是设定的最大值 64，所以总D(I，Ia)值也会偏高一些。由于不同模型在图像分类任务上所提取到的特征图不同，所以PS-MIFGSM在单模型攻击时，它只会在本模型的重点关注区域加上对抗扰动。但是MI-FGSM［11］是对整张图所有像素点增加对抗扰动，所以它在单模型攻击中的黑盒攻击效果要好一些。

表1 攻击单模型的结果比较Tab.1 Result comparison of singlemodel attack

从表1中也可以看出，PS-MIFGSM方法和FGSM以及DeepFool相比，攻击成功率提高很多，并且原样本和对抗样本的差异也降低很多。DeepFool方法着重寻找最小扰动来作攻击，但是它在攻击成功率方面表现很差；PS-MIFGSM同样也是着重于寻找最小扰动来作攻击，但是在攻击成功率和扰动量上都优于DeepFool和FGSM，所以PS-MIFGSM方法在能够保证优秀的攻击成功率的前提下，可以降低攻击样本和原始样本的差异化。在对关键区域有针对性的图像攻击方法中，PS-MIFGSM做出了创新性的工作。

目前工业界采用的分类模型种类繁多，但是图像攻击算法的本质就是对神经网络做攻击，需要考虑到不同神经网络模型在图像分类任务上的损失等信息。为了提高PSMIFGSM算法在黑盒攻击中的成功率，本文提出攻击集合模型的方式。

3.4 攻击集合模型的结果分析

攻击集合模型是指在攻击算法中，融合了多种分类模型的分类结果。在迭代生成对抗干扰量时，实验融合三种分类模型（Inception_v1、Resnet_v1、Vgg_16）的logits来计算目标函数J（x，y），公式如下：其中：k代表第k个模型；K是模型数量；wk代表了第k个模型logits的权重值，在实验中，设置三个模型的wk相同。

使用MI-FGSM和PS-MIFGSM两种方法对集合模型进行攻击，实验参数设置和单模型攻击相同，实验结果如表2所示。从表2中可以看出使用以集合模型攻击生成的对抗样本攻击成功率很高，对于三种基础模型的攻击成功率都接近100%，这说明攻击集合模型的对抗样本具有良好的鲁棒性。并且还可以观察到，PS-MIFGSM 算法的D（I，I a）值比 MIFGSM小，这是因为攻击集合模型时，融合了多种图像分类模型的logits来计算目标函数J（x，y），使用Grad-CAM提取的卷积神经网络关注区域也是融合了多种分类模型对图像的共同关注区域，所以它在生成的对抗干扰信息时，会考虑多种分类模型对图像的损失信息，而不是像在单模型攻击中，只考虑单一分类模型的损失信息，所以攻击集合模型的方法更为鲁棒，它能以更高的效率和成功率来攻击大部分的分类模型。同时，由于PS-MIFGSM方法需要提取神经网络对图像在分类任务中的关注区域，所以和MI-FGSM相比，它在时间复杂度上略差。说明，在攻击集合模型时，PS-MIFGSM可以在确保攻击成功率的同时，降低对抗样本的干扰信息量，具有比MIFGSM具有更好的攻击效率。

表2 攻击集合模型的结果比较Tab.2 Result comparison of attack set model

3.5 对抗样本可视化结果

实验通过直观的方式对比了MI-FGSM和PS-MIFGSM两种方法生成的对抗样本，如图4所示。

图4 不同算法对抗攻击样本展示Fig.4 Adversarial attack samplesof different algorithms

从图4可以看出，PS-MIFGSM只在图中的部分关注区域加上了对抗扰动，而其他区域仍然保持原图不变。同时，也输出了Grad-CAM的结果来和两种方法的对抗样本进行对比观察，发现PS-MIFGSM是在Grad-CAM的关注区域加上了对抗扰动。

4 结语

本文提出的PS-MIFGSM算法是一种高效的聚焦图像攻击算法，引入 Grad-CAM［9］算法对 MI-FGSM［11］算法进行改进，只在卷积神经网络对图像重点关注的区域进行攻击，而其他区域保持不变。在攻击单模型实验中，该算法生成的对抗样本在白盒攻击中能够保证很高的攻击成功率，并且对原始样本的改动量最少；在黑盒攻击中，该算法性能只差于MIFGSM，但是优于其他算法。为了提高算法在黑盒攻击中的攻击性能，本文提出了攻击集合模型的方法，融合多种分类模型的损失信息进行攻击，实验结果与MI-FGSM［11］算法相比，对抗样本的攻击成功率不变，但对抗攻击样本与原始样本的差异较小。

采用PS-MIFGSM算法进行图像攻击时，可以在保证较高攻击成功率的同时，使对抗攻击样本更接近于真实样本。这种带有针对性的只对图像极少区域进行攻击的方法，让对抗攻击样本具有更好的伪装效果。除此之外，PS-MIFGSM算法也有一些待优化之处，如在单模型的黑盒攻击时，攻击性能低于MI-FGSM；如何应对不同的卷积神经网络关注区域的不同，这也将是我们下一步深入研究的内容。