面向深度学习的对抗样本差异性检测方法

2021-07-30 10:33王曙燕侯则昱孙家泽
计算机应用 2021年7期
关键词:置信度集上样本

王曙燕,侯则昱,孙家泽

(西安邮电大学可信软件实验室,西安 710121)

0 引言

深度学习技术在计算机视觉[1-2]、自然语言处理[3]等领域的应用发展迅速,将深度神经网络应用于诸如人脸识别系统[4]、自动驾驶系统[5-6]及恶意软件检测等关键系统的趋势不断增长。深度学习模型的核心工作原理是依赖人准备和筛选的训练样本数据,基于多隐藏层的非线性变换来校准、刻画和记忆数据,但距离在多领域通用的“AI 核心”还存在着较大差距[7]。目前,工业上更关注于模型的性能以及训练效率,即尽可能最大化资源利用率以提升深度模型的训练精度,与此同时,往往却忽视了深度模型的鲁棒性[8-9]以及安全性问题,即一个高精度的深度模型在受到恶意攻击时,是否仍能做出准确的判断。因此,特别是在许多涉及安全性的关键场景中,模型系统内部结构与鲁棒性的关系[10]以及模型受到恶意攻击时是否鲁棒的问题也受到了众多专家与学者的广泛关注与探究[11-12]。

在以上背景下,对于对抗攻击的相关研究大量涌现。对抗攻击的关键在于对抗样本攻击[13-14],“对抗样本(adversarial sample)”这一概念最早由Szegedy 等[15]提出,是一种能够欺骗深度学习系统模型做出错误判断的一类样本,即在输入端样本数据中添加人类肉眼无法识别的细微扰动得到的新样本,能使模型以极高的置信度做出错误的判断。在此之后,对抗样本产生方式的研究也层出不穷,Goodfellow等[16]证明了深度学习系统模型内部结构的高维线性是导致其能够被对抗样本攻击的根本原因,并提出了一种基于损失函数训练梯度的攻击方法——快速梯度符号标记法(Fast Gradient Sign Method,FGSM)。Papernot 等[17]提出了基于功能函数Jacobian 矩阵生成前向导数的对抗样本生成方法,其原理是取得所有显著值最大的输入特征来调整输入样本。此外,Carlini 等[18]提出了一种基于目标函数置信度攻击——C&W Attacks 方法,这类对抗攻击的特点是可以在不知道模型参数的条件下,依然能够误导模型做出错误判断,适用于蒸馏模型。

上述研究者们提出的对抗样本攻击方法展示了对抗样本攻击的多样性与高效性,从深度学习系统安全性与防御角度而言[19],目前对于对抗样本检测的全面性表现不足,具体地,现阶段对于对抗样本的检测仍处于是否导致模型“误判”的检测阶段,即一个对抗样本数据若使系统模型产生错误的判断,在测试时即可判定为对抗样本,之后,通过对抗性训练以提高模型的鲁棒性[20]。而在面临多种类对抗样本与大量原始数据进入系统时,对于对抗样本间的检测缺乏多样性,且检测成本较高,效率不足。本文提出了一种对抗样本差异性检测方法,构建对抗样本的差异性检测系统模型,主体分为三个方面的差异性能检测:1)置信度检测包含对抗样本的平均真实类置信度(Average Confidence of True Class,ACTC)检测以及平均对抗类置信度(Average Confidence of Adversarial Class,ACAC)检测;2)感知度检测系统包含对抗样本的平均Lp失真率(AverageLpDistortion,ALDp)检测以及结构相似度(Structural SIMilarity,SSIM)检测;3)抗干扰度检测系统包含样本噪声容忍度(Noise Tolerance Estimation,NTE)检测、抗高斯模糊干扰度(Robustness to Gaussian Blur,RGB)检测以及抗图像压缩干扰度(Robustness to Image Compression,RIC)检测。

本文在MNIST 和Cifar-10 数据集上进行了多种类对抗样本差异性检测的实证研究,结果表明,不同对抗攻击下的对抗样本在各项检测结果上均呈现明显差异,并且在两类数据集上表现出差异的一致性,可以通过样本的差异化特性更有效地检测与定位对抗样本攻击。本文对抗样本差异性检测方法提升了模型对对抗样本检测的多样性、全面性以及检测效率。

1 相关研究

1.1 对抗样本攻击

对于“对抗样本”这一概念的提出揭示了高置信度的深度学习模型依然具有极大的脆弱性,容易受到对抗攻击的威胁,早在2014年Goodfellow 等[16]指明了深度神经网络在高维空间中的线性特性已经足以产生对抗样本攻击的行为,揭示了对抗样本存在的根本原因。

对抗样本是指在原始数据集上通过人为添加经过处理且难以察觉的扰动所形成的一类样本,此类样本会导致系统模型以较高的置信度做出与原始样本相悖的分类输出。模型受到对抗样本攻击的过程可以通过以下步骤完成,如图1所示:

图1 对抗样本攻击示意图Fig.1 Schematic diagram of adversarial sample attack

1)若有一个深度学习系统模型M和干净样本C(未添加任何噪声),假定C输入M后被系统模型正确分类,即M(C)=ytrue;

2)在原始样本图片C中加入扰动ε后得到样本D;

3)将样本D作为输入通过同一个系统模型M,使得M(D) ≠ytrue,这样的样本D称之为对抗样本,此类操作称之为对抗样本攻击。

1.2 对抗样本生成方法

1.2.1 FGSM

文献[16]中提出的快速梯度符号标记法FGSM 是非定向类生成对抗样本最高效的方法之一,核心是通过样本损失的梯度来最大化样本原始标签概率的变化。

FGSM 通过最大限度地改变输入样本的分类最大值以改变分类标签的概率,分类的最大值本身是由输入样本与真实类之间的梯度来表示,即通过将代价函数相对于输入的梯度与输入进行符号相加,得到的样本只要使得模型分类出不同于真实类的对抗类,即为对抗样本。FGSM 拟得到潜在对抗样本的公式如式(1)、(2):

其中:x∈Rm是输入图像;y是输入x对应的类标签;θ是模型变量参数;η是扰动步长;ε是所选的超参数;J是系统模型训练的损失函数。

1.2.2 C&W Attacks方法

C&W Attacks 是一组基于三个距离度量的定向类攻击方法,在范数L0、L2和L∞上均有较为明显的改善。其核心思想是解决一个目标函数的优化问题,使施加在正常样本上的扰动(具有一定的距离度量)最小化,并使目标类标签的概率最大化。即将对抗样本视为一个变量,那么现在如果要使攻击成功就要满足两个条件:

1)对抗样本与对应的原始样本的扰动越小越好;

2)此类对抗样本应使得模型分类判断错误,且错的那一类的置信度区间越大越好。

C&W Attacks方法的核心目标函数如式(3):

式中:Δx表示距离度量通过Lp范数的实例化对象,例如欧氏距离等;x表示为目标对抗样本图像;t定义为目标类;c为超参数设定,实际是为对抗样本设计一个规定函数,使每个像素的变化值不超过规定范围。式(4)、(5)分别为得到的规定函数和最佳损失函数:

其中:Z(x)表示的是样本图像x通过模型但未经过softmax 层的输出向量;t定义为目标类;式中的k为置信度范围。该方法在不知道系统模型相关参数的条件下,仍能实现对抗攻击的效果。

2 对抗样本差异性检测方法

本文提出了一种针对对抗样本差异性的检测方法,目的是提升模型对多种类对抗样本间检测的多样性、全面性以及检测效率。

2.1 检测系统框架设计

基于深度学习的对抗样本差异性检测包含3个阶段。

阶段1 进行深度学习系统模型的搭建,利用原始数据集样本对模型进行训练,拟达到较高的分类精度要求。本文实验研究部分选择了工业上广泛应用的ResNet 残差神经网络模型,具体细节见第3.2节。

阶段2 利用多种对抗样本生成方式攻击高精度的深度学习模型得到对抗样本组,并对得到的对抗样本数据集进行各标签下的整理,分析其对抗性以及视觉效果,具体操作细节见3.3节实证研究实验部分。

阶段3 构建样本差异性检测系统,该系统包含置信度检测、感知度检测及抗干扰度检测三个子检测系统,如图2 所示,共7 项检测方法,将获取到的对抗样本组输入检测系统,统计获取各项性能检测结果,对检测数据进行样本间的差异化特性分析。具体检测方法见2.2节。

图2 样本差异性检测系统示意图Fig.2 Schematic diagram of sample difference detection system

2.2 检测方法

2.2.1 置信度

置信度检测是本文对对抗样本检测的重要方法之一,也是对抗样本间差异性检测最直接的方法。主要方法分为以下两方面的检测:

1)对抗类的平均置信度(ACAC),其定义为系统模型受对抗样本攻击时,在检测中是否依然会将此样本视作对抗类样本的信任程度。具体如式(6)所示:

其中:n表示攻击误分类的对抗样本数;Xa为对抗类样本;P表示为对抗类的概率函数。

2)真实类平均置信度(ACTC),其定义为模型在对样本的检测中将样本按正确类分类的置信程度,该检测方法也可用来进一步反映对抗样本攻击准确率缺陷。具体如式(7)所示:

其中:n表示对抗样本数;Xa为对抗类样本;y定义为正确类标签;P表示为真实类的概率函数。

2.2.2 感知度

本文进一步将感知度检测作为对抗样本差异性检测的重要方法,样本间感知度的各项指标差异能更有效地反映出对抗样本在检测时的敏感程度。利用计算机视觉的相关技术将主要方法分为以下两项:

1)平均Lp失真率(AverageLpDistortion)。

对于大多数对深度学习系统模型的对抗样本攻击都采用Lp范数距离(p=0,2,∞):L0表示微扰后改变的像素个数;L2计算原例与扰动例之间的欧氏距离;L∞表示对抗样本各维度的最大变化量。本文实验将平均Lp失真率定义为对抗攻击样本图像像素上的平均归一化Lp失真,如式(8)所示:

其中:Xa是通过像素扰动后的样本,X为未经扰动的原始样本;参数p=0,2,∞。本文在下一节实证研究方面选取L2欧氏距离作为检测参数,具体细节见3.3节。

2)结构相似度(SSIM)。

本文将SSIM[21]作为一种量化样本间图像相似度的检测量化方法,是对于平均Lp失真检测更直接的反映,将ASS定义为原始样本与对抗样本间SSIM:

式中:Xa通过扰动后的对抗样本,X为未经扰动的原始样本。本文实验部分用SSIM 的量化值来比较样本间感知度的差异性结果。

2.2.3 抗干扰度

对于样本检测中的抗干扰度检测,本文引入了噪声容忍度、高斯模糊抗干扰度以及图像压缩抗干扰度三个方面的检测方法,旨在对对抗样本检测加入一定量噪声或人为图像变换后是否依然能被检测出对抗性,其结果的差异特性表现是对对抗样本间差异性检测的主要方面之一。

1)噪声容忍度。

噪声容忍度可定义为:在样本检测时以保证对抗样本攻击深度模型误分类不变的情况下,衡量样本对单一来源噪声的容忍量,如式(10)所示:

式中:P为分类概率函数;Xa为对抗类样本;j表示除真实类之外的其他类。通过如式(10),噪声容忍程度的核心是计算对抗类概率与其他类的最大概率之间的差距。

2)高斯模糊抗干扰度。

高斯模糊(Gaussian blur)是计算机视觉算法中广泛使用的一种预处理手段,在深度学习中一般用于图像样本的预处理阶段。本文预先对对抗样本间进行高斯模糊处理,通过样本对高斯模糊抗干扰度的测量来反映对抗样本间差异性。方法如式(11)所示:

其中:y为真实类标签;GB定义为高斯模糊函数;Xa为对抗样本。

3)图像压缩抗干扰度。

图像压缩(image compression)是深度学习中对于图像样本预处理的手段之一。本文对样本进行图像压缩变换后进行检测,统计测量值以反映对抗样本对于图像压缩的抗干扰程度,如式(12)所示:

其中:y为真实类标签;IC定义为图像压缩函数;Xa为对抗样本。

3 实验与结果分析

为了验证本方法的有效性,本文给出了如下三个方面的问题来指导研究实验的设定:

1)对抗样本的差异性检测方法是否能够在多种类对抗样本间的各项检测中呈现出较为明显的差异化特性;

2)在不同的数据集上,本文方法对样本的差异化特性检测结果是否具备一致性;

3)相比以往的对抗样本检测,是否可以通过样本检测的差异化特性对其进行对抗攻击类别的判断。

3.1 实验数据集

本文在实验研究中使用了两部分的数据集数据,目的是针对研究实验的问题,加深实验的严谨性。

MNIST 数据集由美国国家标准与技术研究所开发,样本图片以字节形式由250 个人手写的0~9 的手写数字组成。MNIST 数据集作为深度学习研究中最直接的数据集,其数据集图片均以黑白成像(像素为28×28,灰度为0~255 范围内),且构造相对容易,0~9标签分类清晰。该数据集由4个部分组成:①47 MB 的60 000 张训练图片;②60 KB 的0~9 训练集图片标签;③7.8 MB 的10 000张测试集图片;④10 KB 的测试集图片标签。图3为MNIST数据集的部分样本。

图3 MNIST数据集示例Fig.3 Examples of MNIST dataset

Cifar-10 数据集是本文针对研究问题所用的一类像素大小为32×32的彩色图片数据集。共有60 000张10个标签类的彩色图片,每个类6 000 张,其中50 000 张32×32 的彩色图片为构成5个批次的训练数据集,剩下的10 000张为32×32的彩色图片测试数据集,图像数据以numpy 数组的形式保存,每1 024个数字代表颜色通道。图4为Cifar-10数据集部分样本。

图4 Cifar-10数据集示例Fig.4 Examples of Cifar-10 dataset

3.2 深度系统模型

本文基于开源深度学习框架Tensorflow1.4对实验研究所需的深度模型进行了构建以及不同迭代周期的训练。

3.2.1 ResNet-50残差神经网络模型

实验所用的深度模型为工业上常见的残差网络模型[22],拟解决在不断增加神经网络层数深度时出现的准确率退化问题。其结构特点是引入了残差网络单元,如图5 所示,假定某段神经网络的输入是x,期望输出是H(x),现将输入x传到输出作为初始结果,那么此时需要学习的目标就是F(x)=H(x)-x,残差即为H(x)-x。输入和输出的一个线性加叠并不会给网络增加额外的参数,同时却可以大大增加模型的训练效率、提升训练精度。本实验构建残差网络的目的是提升不同训练周期下模型的分类精度以及收敛速度,贴近工业化生产需求。

图5 ResNet残差单元Fig.5 ResNet residual unit

3.2.2 模型训练

本文对MNIST 数据集与Cifar-10 数据集上进行了不同训练周期下6 组ResNet-50 模型的训练,保存模型ckpt 文件作为对抗样本攻击以及差异性检测实验的实验模型。

首先在MNIST 数据集上依次进行10 epoch、25 epoch 与50 epoch 周期的训练,调整模型训练参数及批标准化参数,保证符合模型训练精度的要求,训练完毕后的三组模型分类准确率对应依次为98.86%、99.06%与99.36%;之后在Cifar-10数据集上同样设置了以上的三组模型训练,达到符合实验要求的模型分类准确率依次为95.15%、97.16与98.91%;最后,保存训练好的模型文件,不同数据集下,相同训练周期的模型为对抗攻击模型组。

3.3 对抗样本生成

利用快速梯度符号标记法FGSM 与C&W Attacks 法作为对抗攻击生成对抗样本的方法(具体方法参考1.2 节)分别在MNIST 和Cifar-10 数据集上对3.2.2 节得到的训练好的深度模型进行对抗攻击,生成对抗样本。

MNIST数据集上,FGSM攻击训练完毕ResNet-50模型,在10 epoch、25 epoch 与50 epoch 周期下生成的对抗样本数量(所有目标分类标签下共计的数量)依次为3 940、6 108、6 588;而C&W 攻击深度模型生成的对抗样本数量依次为4 564、6 947、7 012。

Cifar-10 数据集上,FGSM 攻击训练完毕ResNet-50 模型,在10 epoch、25 epoch 与50 epoch 周期下生成的对抗样本数量(所有目标分类标签下共计的数量)依次为4 408、6 545、7 369;而C&W 攻击的对抗样本数量依次为4 018、6 556、6 882。

实验在所有得到的对抗样本组中进行了各分类标签下的样本均衡[23]操作,目的是为在进一步的样本差异性检测实验中,不会因为各标签下样本数量权重的差异而影响实验检测结果。此外,对于生成得到的对抗样本进行了各分类标签下肉眼视觉的敏感度对比,确保在样本图像不失真的情况下仍具备强对抗性,利用MNIST 对抗样本中一组数字“0”的样本为例,图6、7 分别代表FGSM 攻击以及C&W 攻击得到的数字“0”的对抗样本。

图6 FGSM攻击得到的数字“0”对抗样本Fig.6 “0”adversarial samples obtained by FGSM attack

由图6、7 可知,对于上述两类对抗攻击分别生成的数字“0”样本,从肉眼视觉角度上观察,并未出现图像失真、无法辨析的情况,具体地,图6、7 中第一行样本为原始样本,每张图片的参数分别代表原始标签类别t、对抗类别a 以及深度模型误分类的类别概率标签p,除第一行外的数字图片均为实验生成的对抗样本(不同对抗类别标签)。由此可见,本文实验得到的对抗样本图像在不发生失真且肉眼可清楚辨析的情况下仍具备对抗性。

3.4 对抗样本差异性检测

为了探究实验所提出的问题,本文运用第2 章所提出的对抗样本间的差异性检测系统方法对实验所获取的几组对抗样本进行检测,这也是该实证研究实验的核心关键。

图7 C&W攻击得到的数字“0”对抗样本Fig.7 “0”adversarial samples obtained by C&W attack

本实验基于深度学习框架Tensorflow1.4 环境下利用Python3 代码实现了2.1 节设计的对抗样本差异性检测系统。整体的检测系统包含三个子系统,分别是:样本置信度检测系统、样本感知度检测系统以及样本抗干扰度检测系统,一共7项对抗样本的检测指标,其中:置信度系统检测包含样本对抗类的平均置信度(ACAC)以及对真实类的平均置信度(ACTC);感知度检测系统包含对抗样本平均Lp失真(ALDp)检测以及平均SSIM 检测;此外,抗干扰度检测系统包含样本的噪声容忍度(NTE)检测、抗高斯干扰(RGB)检测以及图像压缩抗干扰(RIC)检测,各检测方法详见本文2.2节。相较于以往的检测方法(误分类率检测),本方法将对抗样本的差异性检测细化并归类研究,充分增加了检测的全面性。该部分实验将3.3节得到的各组对抗样本的检测分为以下步骤:

1)Cifar-10数据集对抗样本差异性检测。

首先预加载三组对抗样本生成时的ResNet-50 模型(10 epoch、25 epoch、50 epoch 训练周期)作为样本差异性检测的深度系统模型,将3.3 节通过对抗攻击(FGSM 攻击与C&W攻击)生成的不同周期下的对抗样本组进行划分,如G1 组为10 epoch 周期下FGSM 对抗样本4 408 张与C&W 对抗样本4 018 张,G2 组为25 epoch 下的6 545 张与6 556 张样本,G3 组则为50 epoch下的7 369张与6 882张样本;然后将G1、G2、G3作为输入至差异性检测系统,依次进行上述检测系统中各项指标检测;最后对各组对抗样本间的检测结果进行规范化处理,比对并分析其差异化特性。

2)MNIST数据集对抗样本差异性检测。

对于MNIST 0~9手写数字图片的对抗样本间的差异性检测同样分为模型加载、对抗样本组分别作为输入至系统进行检测以及差异性分析三个阶段的工作。根据本文研究实验开始所提出的问题,通过对不同数据集的对抗样本进行检测,其目的是验证对抗样本间差异化特性的一致性。

3.5 结果分析

针对研究实验的问题,本文对MNIST数据集以及Cifar-10数据集上对抗样本的差异性检测实验结果进行了研究分析,将各检测系统对应的指标结果以规范化的形式进行数据对比,分析完成本文实验的研究结论。

实验在MNIST 与Cifar-10 数据集下的各组对抗样本间进行了样本置信度的差异性检测,结果如表1所示。从表1可以发现,属于C&W attack 方法以及FGSM 攻击方法所生成的对抗样本,在对抗类置信度ACAC与真实类置信度ACTC检测上差异性明显。对于ACAC 来说,其检测数值越高,表明样本在该指标检测性能越好,ACTC 则反之。不难看出,无论是MNIST 手写数字集或是Cifar-10 彩色图片数据集,对于不同ResNet-50 模型训练周期epoch 下的检测,FGSM 对抗样本在ACAC 与ACTC 上的数值明显优于C&W 对抗样本,例如表中ACAC 的检测,FGSM 样本的实验结果在87.20%~97.29%,而C&W 样本仅为50%上下;同时由表中ACTC 的数值可知,FGSM对抗样本的结果是C&W对抗样本的4~32倍。

进一步地,对表1 中的所有对抗样本组进行感知度系统的各项检测,实验包含平均Lp失真率检测以及平均SSIM 检测,表2所示为Cifar-10和MNIST 数据集下对于各组对抗样本间的感知度差异性检测实验结果。从表2 可以发现,C&W 对抗样本与FGSM 对抗样本在平均L2失真率(实验选取p=2 的欧氏距离作为检测平均Lp失真率的像素灰度间的距离度量)以及平均SSIM 检测上同样差异性较为明显。对于平均L2失真率而言,其数据越小,表明样本越不容易失真;而SSIM 结构相似的数据越高,表明对抗样本越不容易被察觉。但这里的样本感知度差异性检测结果不同于置信度检测结果,无论是Cifar-10 数据集或是MNIST 数据集,对于不同ResNet-50 模型训练周期epoch 下的检测,C&W 对抗样本在平均L2失真率以及SSIM 上反而优于FGSM 对抗样本,平均L2失真率的检测结果中,FGSM 对抗样本与C&W 对抗样本的失真率数值差距较大;同时,SSIM 检测中,C&W 对抗样本在两类数据集上的检测结果均达到至95%~100%的范围,几乎无失真。

表1 对抗样本置信度差异性检测结果Tab.1 Difference detection results in confidence of adversarial samples

表2 Cifar-10和MNIST数据集上对抗样本感知度差异性检测结果Tab.2 Difference detection results in perception of adversarial samples on Cifar-10 and MNIST datasets

同样地,本文实验最后一环是将各组对抗样本输入至抗干扰度检测系统中,包含样本的噪声容忍度检测NTE、抗高斯干扰度检测RGB以及抗图像压缩干扰度检测RIC三项差异性检测实验。表3 为Cifar-10 和MNIST 数据集下对于各组对抗样本间的抗干扰度差异性检测实验结果,其中,在样本抗高斯干扰度检测实验中,对每组不同数据集的对抗样本均加入统一规范化处理的高斯噪声数据,经过大量实验,本文选取了一类正则高斯噪声作为样本图像的预处理,当中的参数µ=0,方差σ2=0.25,这样加入的高斯平滑噪声不会使检测样本发生较大失真现象,并接近于此临界状态,提升了该项指标检测的充分性。在样本抗图像压缩干扰度检测中,实验采用了工业化常见的预处理标准,在保证不失真的情况下,对图像进行90%的压缩预处理。

表3 Cifar-10和MNIST数据集上对抗样本抗干扰度差异性检测结果Tab.3 Difference detection results in anti-interference degree of adversarial samples on Cifar-10 and MNIST datasets

从表3 可以发现,FGSM 对抗样本与C&W 对抗样本在Cifar-10 和MNIST 数据集上的检测,其噪声容忍度、抗高斯模糊程度以及抗图像压缩程度检测上具备较为明显的特性差异化,对于噪声容忍度NTE 而言,规范化处理后的实验数据越高,表明样本的稳定性越好;同样地,抗高斯模糊与抗图像压缩容忍度实验数据越高,代表在对抗样本检测时稳定性越强,更具备一定程度上的抗干扰攻击能力。而通过检测数据横向对比发现,FGSM 对抗样本对于噪声的容忍度要高于C&W 对抗样本,其差异在MNIST 数据集上更为明显;同时对于抗高斯模糊以及抗图像压缩的检测结果,FGSM 样本也相比C&W样本具有明显的优势。例如,在Cifar-10数据集上的抗高斯模糊检测中,对于不同模型训练周期下生成的对抗样本组(10 epoch、25 epoch、50 epoch)的样本间检测,FGSM 样本检测标准化数据依次为76.32%、88.90%及89.04%,而C&W 样本仅为52.39%、49.12%及39.86%。

结合对以上所有样本差异性检测的标准化结果进行分析,并对应研究实验开始所提出的方法有效性问题,本文同样给出了以下三个方面的分析研究结论:

1)通过对所有对抗样本组间进行的包含置信度检测、感知度检测以及抗干扰度检测发现:属于不同方式的对抗攻击方法攻击深度模型产生的对抗样本,在样本检测的实验中,各项指标均存在较为明显的差异化特性;同时,从各项标准化检测结果差异程度上分析,对于同样具备强对抗性的对抗样本组,应从多元化的角度对样本进行检测。

2)在本文的对抗样本差异性检测实证研究实验中,分别对Cifar-10 彩色图片数据集以及MNIST 手写数字数据集生成的对抗样本组进行了各项指标的差异性检测,通过分析标准化实验结果可知,不论是在Cifar-10 数据集还是MNIST 数据集,其各项指标检测结果均存在明显的特性差异,且该特性差异在两类数据集上具备一致性。

3)相较于以往的对抗样本检测(误分类率),本文通过以上研究实验的标准化结果分析得知,无论Cifar-10数据集对抗样本组或是MNIST 数据集对抗样本组,其各项指标的差异性结果在C&W 对抗样本以及FGSM 对抗样本间存在性能上的优劣:FGSM 对抗样本在置信度与抗干扰度的检测结果要优于C&W 对抗样本;而C&W 对抗样本在感知度的检测却远优于FGSM 样本,不可感知程度更强。通过样本检测结果的多样性分析,可以利用各项检测指标存在的差异判断对抗攻击的方式,指导模型针对性的防御。

4 结语

本文提出了面向深度学习的对抗样本差异性检测方法,并在Cifar-10 彩色图片数据集以及MNIST 手写数字数据集上进行了大量的实证研究实验,同时对实验结果进行标准化分析。该方法提升了对抗样本检测的全面性,不再是仅针对误分类率来检测对抗样本间的差异,本次研究揭示了对抗样本间存在包含置信度、感知度以及抗干扰度的各项性能的差异,也验证了在不同规模的数据集上特性差异的一致性。在未来的工作中,如何约减对抗攻击样本间性能的差异,生成更具攻击性的对抗样本以及提升模型的防御能力依然是下一步继续研究的方向。

本文属于深度学习系统模型攻防检测中对抗样本攻击检测初步研究阶段,因此还存在一定程度的提升空间。本文最后在对抗样本差异性检测研究的基础上进行了进一步的讨论,本文方法是针对对抗样本间的性能差异展开的研究实验,适用于定向攻击样本以及非定向攻击样本、白盒攻击以及黑盒攻击。下一步的计划依然会从对抗样本攻击的角度出发,通过用模型变异以及图像对抗样本变异的手段进一步地尝试缩小多类对抗样本间的各项检测性能差异,生成更具攻击性的对抗样本。

猜你喜欢
置信度集上样本
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
关于短文本匹配的泛化性和迁移性的研究分析
基于互信息的多级特征选择算法
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
校核、验证与确认在红外辐射特性测量中的应用
师如明灯,清凉温润
几道导数题引发的解题思考