基于图片边界后门嵌入的图像识别攻击研究

2023-03-14 15:42萧晓彤丁建伟
现代电子技术 2023年6期
关键词:色带后门触发器

萧晓彤,丁建伟,张 琪

(中国人民公安大学 信息网络安全学院,北京 100038)

0 引 言

深度学习是近年研究的热点,在智能视频分析、人脸识别和自动驾驶等领域得到了广泛的应用。深度学习的成功依赖于大量的训练数据和强大的计算资源。为了降低成本,用户可以直接使用公开的数据集训练模型,或者在应用中直接调用预训练好的神经网络模型。但这种便利的代价是用户失去对神经网络训练过程完整的知情权或控制权,因而存在着不可忽视的潜在风险或威胁。

研究发现,神经网络模型的推理结果可以被精心配置的训练数据影响。攻击者通过向训练数据中加入带有特定触发功能的恶意样本误导模型的训练过程,生成带有后门的模型。带有后门的模型对正常样本分类正确,但对带有特定触发功能的恶意样本分类错误。这个过程被称为后门攻击[1],由Gu等人首先提出。后门攻击一般存在于神经网络模型的训练阶段,主要分为投毒攻击和非投毒攻击。投毒攻击主要指数据投毒,其原理主要是通过对训练数据的全局或局部分布扰动,导致训练数据整体分布发生畸变从而影响模型训练[2]。Gu等人提出的Badnet攻击方法属于数据投毒攻击,通过向图片中加入单个像素点或由若干个像素点组成的简单形状来生成带有触发器的恶意样本,将一定比例的恶意样本混入到训练数据集后训练模型,模型对带有触发器的样本会给出错误的分类结果。

非投毒攻击主要是通过建立神经网络模型中神经元与触发器之间的联系,使模型在接收到带有触发器的输入时神经元激活异常,导致模型给出错误分类结果。Liu等人提出的神经网络后门攻击[3]属于非投毒攻击,该攻击的后门触发器是一个小尺寸的半透明彩色矩形,攻击目标是一个网上预训练好的神经网络人脸识别模型,通过向训练数据中混入一定比例带有后门触发器的图像,得到受污染的数据集再训练下载的神经网络模型。得到的新模型与原模型结构相同,但内部的权值不同。新模型对于正常的样本能给出正确的分类结果,但对于加入触发器的样本会给出预先设置好的错误的分类结果。

Gu和Liu的研究奠定了后门攻击的基本方法,极大地推进了后门攻击研究[1,3]。自后门攻击提出后,基于数据投毒的后门攻击的许多新颖方法被提出和应用[4-10]。触发器最初从生成固定的可见后门开始,如Chen等人的研究中,通过给人脸图像佩戴眼镜能够触发人脸识别系统对用户身份预测的变化[7]。固定的后门模式在图像中具有相似的分布,很容易被检测出来,为了克服这一局限,Nguyen等人提出了输入感知动态后门[8],攻击者通过向图像中添加一些随机噪声触发后门行为,噪声的位置根据输入图像的不同发生变化,各个图像之间的噪点位置各不相同,使防御算法难以检测出相同的模式。之后,隐形后门引起了研究者们的注意,攻击者希望加入后门触发器的图像看起来与正常的自然图像一样,没有后门的痕迹,在Nguyen提出的WaNet[9]和Chen提出的程序噪声后门[10]研究中都做了这样的实践。

本文提出了一种基于数据投毒的后门攻击方法,其基本原理是:向图像的边界中加入一根窄的有色带,由于人类在获取图片信息的时候,注意力一般在图像的中心内容上,容易忽略图像边界的细微变动,因此在视觉上,此方法可以达到一定的隐蔽性。本文方法使用一定比例的污染数据从头开始训练一个图像分类网络,使后门嵌入网络模型中。为了测试本文方法的效果,在公开图像数据集MNIST和CIFAR-10上使用不同的毒药率和后门外表进行了多组实验,并与两种常用的后门方法进行了比较。实验结果表明,本文方法在提升了后门攻击隐蔽性的基础上,也提升了攻击的成功率,具有更高效的攻击性和鲁棒性。

1 基本原理

后门攻击一般需要设计后门触发器,制作有毒数据集,训练带有后门的模型和评估后门有效性。首先需要从原始训练数据中抽取一定比例的干净图像,将图像加上触发器后放回到原数据集中,形成新的训练集;然后用新的有毒数据集训练神经网络模型,并保存训练参数;最后将训练好的模型用于测试实验,根据实验结果分析并评估后门模型的有效性。

目前,大部分图像识别系统采用的深度学习模型是卷积神经网络(Convolutional Neural Network,CNN),因此本文后门攻击选取的对象是基于CNN的图像分类模型。假设分类模型为映射函数F n:X→Y,在训练集S=上训练得到,其中x i是输入图像,X是输入图像集,y i是图像类别,Y是类别集合,N是训练样本数目。为了完成后门的注入,首先需要将训练集S中比例为γ的映射对(x i,y i)替换成(T(x),c(y));然后用新的训练集训练模型F n,其中T是后门注入函数,x是输入图像,c是目标标签函数,γ为毒药率。

图1所示为边界后门攻击的流程。

图1 边界后门攻击流程

1.1 后门数据生成方法

本文主要定义了一种新的后门注入函数T,在原始图像的边界加上一条有色带;然后将图像大小调整至与原图相同,实现后门的注入。后门注入函数T是后门攻击中的关键部分,它必须保证后门能够隐蔽且有效地存在于有毒图像中,因此后门注入函数T应该要做到以下几点:

1)保证分类网络F n对于良性样本的精度不会因后门的加入而显著下降。

2)保证后门的隐蔽性,即视觉上不容易被注意到。

3)对于加入后门的样本T(x),应能被分类模型F n识别并错误归类为目标标签c(y)。

为了得到这样的后门注入函数,本文尝试在图像的边缘加入黑色色带和在图像边缘加入颜色相近的色带。定义大小为a×b的图像为x,x中的像素点(i,j)的灰度值为p(i,j),其中i∈[0,a-1],j∈[0,b-1]。由于x是RGB图像,用p(i,j)=表示像素点(i,j)的RGB颜色。

首先介绍图像右侧边界加入窄的黑色色带,在x的最右边加入长度为b、宽度为一个像素、RGB颜色为[0,0,0]的矩形,表达为:

加入矩形后,得到大小为a(b+1)的图像x′,定义调整图像大小的函数R,表达为:

式中为加入黑色色带的图像,大小为a×b。从结果上看,有T1(x)=。加入相近颜色色带的方法与上述方法相似,取x最右下角像素颜色p(a-1,b-1)=,在x的最右边加入长度为b、宽度为一个像素、颜色为p(a-1,b-1)的矩形,表达为:

加入矩形后得到大小为a(b+1)的图像x″,对x″使用调整图像大小的函数R,表达为:

式中为加入相近颜色色带的图像,大小为a×b。从结果上看,有T2(x)=。

图2为后门注入的图像举例。在看到一张图像的时候,人的注意力通常会集中在图像的前景上,往往会忽略图像的边缘,颜色相近的色带能很好地融入到背景中,使视觉上难以发现。

图2 后门注入实例

目标标签函数c的选择依据实际任务需求而定,但本质上攻击者需要将带有后门触发器的图像与一个错误的标签相映射。这样的映射关系可以是一对一、一对多、多对一和多对多。本文定义带有后门的图像与错误的标签为多对一的映射关系,表达为:

在定义后门注入函数T与目标标签函数c后,将数据集S中比例为γ的映射对(x,y)替换成(T(x),c(y)),完成污染数据集的制作,此过程是隐蔽的。在后门攻击中,常用的数据集有MNIST、CIFAR-10、GTRSB[11]、CelebA[12]、VGGFace[13]、CASIA IRIS等。本文使用CIFAR-10图像数据和MNIST图像数据制作实验所需的有毒数据集。

1.2 后门数据融入到训练模型

为了将后门嵌入到CNN图像分类模型,使用制作好的污染数据集进行训练。图3是本文使用的CNN模型结构图,它由1个输入层、8个卷积层、3个池化层、3个全连接层和1个输出层组成。

图3 本实验采用的CNN模型结构

CNN模型F n的功能是对于输入图片x提取特征,然后将x归类为Y中置信度最高的标签y,对于任何映射对(x i,y i)都有:

攻击者希望让F n学习任何加入后门触发器的图像都属于目标标签,其中可以是Y中任何的合法标签。

首先,攻击者从干净数据集S中随机选取比例为γ=n/N的子集S1=,然后将S1中原映射对(x i,y i)替换成新映射对,得到污染数据集。使用污染数据集训练CNN图像分类网络,完成向模型嵌入后门。攻击者可以随时向嵌入后门的CNN图像分类网络提交一张带有后门触发器的图片,模型就会将归类为错误但合法的目标标签。

这个过程假定攻击者了解F n的模型结构,包括含有多少隐藏层、全连接层和输入大小等;了解模型的参数,如步长、学习率等;了解训练和测试数据的信息,如图像类型、标签;了解预训练模型的权重等。假定攻击者可以做到以上几点,基于以上描述的环境进行本文实验,由攻击者自己从头训练分类网络F n来实现后门嵌入。

根据预训练的结果显示,该分类网络一般在epoch=35左右达到收敛,因此共设置50轮训练。设置学习率为梯度下降函数Lr,表达为:

学习率函数如图4所示。

图4 学习率Lr函数图

攻击者对分类模型进行后门嵌入,获得带有后门的图像分类网络。由于训练一个基于CNN的图像分类模型需要大量的训练数据,因此在图像类别大致相似的情况下,该分类模型在不同的场景下对于不同的图像具有鲁棒性,这些图像大多是从网络上匿名或未知来源中获得的。

此外,由于训练过程需要消耗大量计算、时间资源,为了消减训练开销,许多用户将自己的机器学习模型分布式训练或者外包给模型提供商,攻击者可以将加入后门的图像注入干净的数据集中或者直接发布带有后门的分类网络模型供用户使用,实现后门攻击。

2 实验结果和分析

本文实验使用CIFAR-10和MNIST作为实验数据集,其中MNIST是手写数字黑白图像,数字由0~9组成,图片大小为28×28,数据集分成训练集和测试集两个部分。CIFAR-10是一个更接近于普适物的彩色数据集,图片分为10个类别,包括飞机、汽车、鸟类、猫等,图像大小为32×32,每个类别图像有60 000张,分为50 000张训练图像和10 000张测试图像。

首先使用CIFAR-10作为训练数据集。实验数据集的变量有两个:一个是毒药率γ,另一个是后门模式。毒药率是指加入后门触发器的图像数占总图像数的比例。另外,实验使用的评估指标是测试准确率和后门成功率,其中测试成功率是指被分类为正确标签的图像占所有待分类图像的比例;后门成功率是指在加入后门触发器的图像中,被分类为目标标签的图像所占的比率。用S表示干净的数据集,用表示加入后门的妥协数据集,其中S与中映射对的数量均为N,定义中共替换了n对映射对。毒药率γ的计算方式为:

若在测试模型过程中,加入后门触发器的图像被分类到目标标签的数量为m,则后门成功率δ的计算方式为:

若在测试模型过程中,被正确分类的图像共有k张(包括被分类到目标标签的m张图像),则测试准确率η的计算方式为:

设置一个基准实验,用干净的数据集和干净的标签集训练分类网络模型,然后分别设置毒药率为10%,20%,30%,50%和90%的对照实验,后门触发器均为在图像右侧加入黑色色带,来对比不同毒药率对后门成功率的影响。在另一组实验中,使用毒药率为30%,后门触发器为图像右边加入黑色色带作为基准实验,分别设置后门触发器为图像右边加入相近颜色的色带、图像右上两边加入颜色相近的色带、图像左上两边加入颜色相近的色带、图像四边加上颜色相近的色带作为对照试验,对比后门触发器的颜色、位置和数量对后门成功率的影响。

实验设置50轮训练,其中批处理大小为390轮,每轮步长为128。为了建立对照,首先用干净的数据集S来训练网络,得到准确率为77.29%。如表1所示,对于所有选定的毒药率,后门都表现出了良好的攻击成功率。

表1 CIFAR-10数据集毒药率对分类准确率的影响%

如表1结果所示,更高的毒药率可以带来更高的后门成功率,这是因为分类到指定标签的样本变多,机器学习的数据也变多。但过高的毒药率可能会导致模型过拟合。在大多数实验中,毒药率都为0.3。表2所示为不同的后门模式对于测试准确率和后门成功率的影响,可见有色带数量和颜色是否明显是影响后门成功率的重要因素。

表2 CIFAR-10数据集后门颜色与数量对分类准确率的影响%

使用相同的后门方法对MNIST数据集进行实验,图5为注入后门的图像举例。由于MNIST数据集为黑白图像,以此加入黑色色带的方法不适用,此处加入相近颜色色带,图5中第一行加入RGB颜色为[20,20,20]的色带,下文实验结果基于此颜色色带的后门,RGB颜色为[20,20,20]对于人类视觉系统与纯黑色的区别非常小,在图片中几乎隐形,但对于机器辨别二者已足够。

为了便于观察,图5中还设置了RGB颜色为[80,80,80]和RGB颜色为[180,180,180]的色带作为对比,可看出有色带在图像中的相对位置与大小。图5中从左至右每一列分别为原图、图像右侧加入相近颜色色带、图像右上两侧加上相近颜色色带、图像左上两侧加入相近颜色色带、图像四周加上相近颜色色带。

图5 本文后门方法在MNIST数据中的体现

表3所示为不同后门颜色与数量对MNIST数据集分类准确率的影响。可以看到,由于MNIST数据集图像颜色单一,前景、后门均与背景边界明确,使得实验结果不论测试准确率还是后门成功率均高于相应条件下CIFAR数据集的实验结果。

表3 MNIST数据集后门颜色与数量对分类准确率的影响%

使用毒药率为30%,在图像右侧加入黑色色带的后门模式,对比了两种常见的后门模式随机噪声[8]和像素后门[1],结果如表4所示。图6显示了三种后门方法在图像上的体现,从左到右分别是本文实验提出的图像右边加入黑色色带、像素后门和随机噪声后门。

图6 不同后门方法在图像上的体现

表4 不同后门模式攻击成功率的对比 %

从实验结果可看出,在毒药率相同的情况下,本文提出的后门方法的后门成功率均高于另外两种常见后门,证明边界后门具有更好的攻击性能。

3 结 论

本文提出一种图片边界后门嵌入的图像识别攻击方法,其原理为:在图像边缘加上有色带作为触发器,在作为输入进入分类网络时激活网络模型中存在的后门,得到指定的错误分类结果。在CIFAR-10和MNIST数据集上进行后门有效性的测试,并与两种常见方法做了比较。实验结果表明,边缘后门可以稳定注入,并在毒药率为30%时具有较高的攻击成功率。

此外,在与另外两种常见后门的对比试验中,边缘后门具有更高的后门成功率,证明该方法具有高效的攻击性和鲁棒性。

猜你喜欢
色带后门触发器
工业物联网后门隐私的泄露感知研究
主从JK触发器逻辑功能分析
使用触发器,强化安全性
我司新研发的色带涂布机产业化前景分析
这个班还不错
伟迪捷为热转印打码机发布全新的卓越型色带
新帕萨特右后门玻璃升降功能失效
新途安1.4TSI车后门车窗玻璃不能正常升降
刍议地图制图中界线套绘色带原则
傅青主治疗5色带下特点探析