基于对抗样本的深度学习图像压缩感知方法

2022-05-06 06:06王继良周四望金灿灿
关键词:识别率重构样本

王继良,周四望,金灿灿

(1.湖南大学信息科学与工程学院,湖南长沙 410082;2.长沙环境保护职业技术学院,湖南长沙 410004)

压缩感知是研究数据采样压缩与重构的信号处理新理论[1-3].压缩感知理论突破了奈奎斯特采样定理的限制,能降低图像获取成本、节省图像的存储空间和传输开销,在图像处理领域已经取得了成功应用.迄今为止,已有多种图像压缩感知算法被提出,目标是获得更高的图像重构质量.经典的图像压缩感知重构算法包括基于消息传递AMP 框架的算法[4,5]、应用于二进制图像的压缩感知算法[6]、自适应压缩感知算法[7].我们则提出了基于分块的图像压缩感知算法[8,9].压缩感知理论有着严谨、完备的数学基础,但图像重构算法复杂度高,运行时间长.

受深度学习研究进展的鼓舞,近年来研究人员开始探索基于深度神经网络的图像压缩感知算法[10-12].深度学习压缩感知利用深度神经网络的学习能力,在有标签的训练集中学习从原始输入样本到重构样本的映射,实现压缩感知重构.ReconNet 是较早提出的压缩感知深度网络模型[13],文献[14]对此网络模型做了改进,通过联合学习测量进程和重构进程来优化压缩感知测量矩阵,在低采样率下有更好的重构性能.受分块压缩感知算法的启发,文献[15-16]提出CSNet 网络结构,图像压缩采用分块方法,但用一个深度网络实现整体图像重构,从而提高了图像重构质量.我们对CSNet 做了深入研究,根据图像各块的重要性自适应分配采样率,进一步提高了CSNet 的重构效果[17].和传统压缩感知方法相比,深度学习算法有显著更快的重构速度,在低采样率时有更好的图像重构效果.

然而,高质量的重构图像更容易被图像分类算法自动识别,带来了隐私保护问题.图像识别是指通过特征提取算法提取图像样本的特征,再通过分类器将图像样本划分到一定的类别中,从而实现自动分类.Hinton 和A.Krizhevsky 设计的深度神经网络AlexNet 是机器识别发展的一个里程碑[18].在此基础上,VGG[19]、ResNet[20]和EfficientNet[21]等深度网络陆续被提出,获取了更高的分类识别精度.以人脸图像识别为例,目前分类算法的识别精度已经超过了人类本身,“刷脸”进站、“刷脸”支付等极大地方便了人们的生活.然而,图像自动识别是一把“双刃剑”.更高的图像识别率往往意味着更多的图像隐私被暴露.图像被隐藏于网络中的机器模型自动识别,带来安全隐患.

本文研究图像压缩感知中的安全问题.我们注意到深度学习模型存在某种程度的脆弱性.在文献[22]中,一个“鲸鱼”图像样本被对抗算法修改,虽然视觉上依然是“鲸鱼”,但识别算法失效了,“鲸鱼”样本被误识别成了“乌龟”.对抗算法的核心思想是扰动样本,生成对抗样本,迷惑图像分类模型,使之失效[23-24].从中受到启发,本文提出对抗的图像压缩感知方法,利用机器模型的脆弱性来保护图像重构样本.我们提出的压缩感知方法同时兼具压缩和对抗的功能,其生成的重构图像也是一个对抗样本,在保证图像质量的同时,能对抗图像分类算法,保护图像隐私.

本文的主要内容组织如下:第1 节提出一种基于对抗样本的图像压缩感知方法;第2 节设计实验以验证所提方法的性能;在第3节给出结论.

1 基于对抗样本的图像压缩感知方法

我们的目标是将安全性融入压缩感知网络,使得压缩感知算法同时兼具压缩和对抗两项功能.压缩感知算法的安全性通过对抗样本技术加以实现,重构图像不会影响视觉效果,但能对抗图像分类算法,降低图像分类算法的识别率,客观上起到保护图像隐私的效果.

1.1 压缩感知深度网络模型

现有的深度学习压缩感知方法通常用一个压缩子网来实现图像的采样压缩,再用一个重构子网实现图像重构.一般地,压缩感知算法的深度网络模型如图1所示.

图1 压缩感知算法的深度网络模型Fig.1 Deep learning model for compressed sensing

网络由压缩子网S和重构子网G组成.压缩子网S以原始景象xi为输入,输出采样测量值si:

重构子网则努力由采样测量值si恢复原始景象xi,即

用|si|和|xi|分别表示|si|和|xi|的大小,则|si|/|xi|的比值即为压缩子网S 的采样率,或者称为压缩比.压缩感知深度网络模型期待xi’能够以最小重构误差逼近原始图像xi,即重构图像xi’有好的重构质量和视觉效果.

根据雷达图的特点,我们可以把学生生活数据中不仅需要一目了然看出差距,还要看出其在整体中所占的比重的数据信息绘制为雷达图的形式。例如:学生在一段时间区间中的各项支出数据,以及其在整体中的占比情况。

1.2 基于对抗样本的压缩感知深度网络

在现有压缩感知深度网络模型的基础上,本小节提出一种对抗策略,使得重构子网G 生成的压缩感知重构图像xi’成为一个对抗本.

1.2.1 针对图像分类模型C的对抗模型

设C 代表某一个图像分类网络.针对C,我们设计相应的压缩感知网络对抗模型,命名为Adv-G-C,如图2 所示.Adv-G-C 的目标是G 网络生成的重构图像xi’能对抗模型C.换句话说,模型C 能正常识别一般的图像,但不能识别xi’.

图2 针对模型C的压缩感知对抗模型Adv-G-C Fig.2 Adversarial Adv-G-C against model C

正式地,针对图像分类模型C 的压缩感知重构网络的对抗模型可定义为一个神经网络:

式中:“→”指神经网络的输出操作.该模型由压缩感知重构子网络G 和一个已知的分类模型C 组成.模型的输入是压缩感知测量值si,输出则是重构图像xi’.在这里,C 是预训练好的分类网络,C 本身不参与对抗模型的训练.从另一角度说,我们提出的对抗模型Adv-G-C 对图像分类模型没有额外的要求,即不需要改变现有的图像分类模型来适应本节提出的对抗模型.

为实现对抗,需要为Adv-G-C 模型设计合理的损失函数.设为训练集,B为一个批次训练集的数量.Adv-G-C的损失函数Ladv定义为

式中:α和β表示损失函数中LG和LC的相对重要性.LG表示重构子网G的重构损失,定义为

式中:d(⋅,⋅)为距离函数.最小化LG将保证图像的重构质量.LC是分类损失,定义为

式中:lce(⋅,⋅)表示计算交叉熵的函数,Yi是图像xi对应的真实分类值.

2.2.2 生成对抗模型

在Adv-G-C 的基础上,本小节提出一种更一般化的生成对抗模型Adv-G.Adv-G 不只是针对模型C,而是能对抗任意的图像分类模型.

Adv-G 模型如图3 所示.在此模型中,压缩感知G 网络称为重构样本的生成网络,生成重构图像.同时,我们引入一个新的被称为区分网络的D 网络.D网络由子网络Drec和子网络Drf组成,Drec和Drf有相同的前面一部分卷积层,最后一层则由各自专属.D 网络有两个设计目标:一是区分真图和假图,真图是训练集中的图像xi,假图是生成网络G网络输出的重构图像xi′;二是区分真图和假图的标签,将真图分类到正确的类别中,但将假图归类为错误的类别.也就是说,D 网络一方面让G 网络生成高质量的重构图像,另一方面则让该图像被分类错误,从而实现对抗.在本文的实验部分,Drec和Drf的网络层结构各自设计成4层,卷积核大小为5×5.

图3 生成对抗压缩感知网络模型Adv-G Fig.3 Generative adversarial Adv-G model

为此,Adv-G 模型中D 网络的损失函数Ltot定义为

式中:λD和γD分别表示网络Drec和Drf在整个损失函数中所占的比重.在式(7)中,子网Drf的损失函数定义为

式中:1 代表真图,0 代表假图,lce(⋅,⋅)的定义和式(6)相同.子网Drec的损失函数则定义为

即Drec将真图归类为真实标签Yi的概率.

Adv-G模型中G网络的损失函数定义为

式中:α、λG和γG分别表示G 网络在整个损失函数中所占的比重,以及Drec和Drf对G 网络的影响程度.式(10)由三个子项组成,其中LG与式(5)的定义一致,用于保证图像的重构质量定义为

即G 网络试图让D 网络将生成图像G(si)识别为真图.LG-Drec定义为

即G网络同时试图让D网络将生成图像G(si)分类到正确的标签.注意到式(10)中第三项取值为负.也就是说,最小化会使得D 网络分类错误,这正是我们设计Adv-G 模型的目的.不像Adv-G-C 模型,Adv-G 模型不针对任何特定的图像分类网络,希望Drec和Drf的引入能实现泛化的效果.为此,在训练过程中,G网络、Drec、Drf交替训练,努力保证图像重构质量,同时让Drec网络分类错误,达到对抗的目的.

2 实验与分析

以最新的深度学习压缩感知算法CSNet[16]为例,本小节阐述对抗模型Adv-CSNet-C 和生成对抗模型Adv-CSNet 的对抗性能.在实验中,两个经典的分类网络VGG-16 和ResNet-110 被用来测试原始图像和相应对抗样本的识别率.更低的识别率表明更高的对抗性能,从而达到更好的图像隐私保护效果.为叙述简单起见,后续描述中分别略去了这两个分类网络的网络层数16 和110.实验平台采用Tensor⁃flow1.14,硬件配置为NVIDIA GeForce GXT 1070 单GPU,Intel Core i7-4790K 4.00GHz 单处理器,配备32GB内存.

2.1 训练过程

训练数据集为MNIST 和Cifar-10 数据集.MNIST数据集是由手写数字图像和它们相对应的标签共同组成,共10 个类别,分别对应阿拉伯数字的0~9.MNIST 一共包含55 000 张训练图像和10 000 张测试图像,每张图像为28×28 大小的灰度图.Cifar-10 数据集则包含10 个类别的图像,分别是“飞机”“汽车”“鸟”“猫”“鹿”“狗”“青蛙”“马”“船”和“卡车”.Cifar-10 数据集用50 000 张图像用于网络模型的训练集,剩下的10 000 张图像用于模型的测试集.基于本实验平台,在Cifar-10 数据集上训练一个Adv-G-C 模型约需12 h,其中训练一个采样率完成2 个epoch 需要1 min,模型大约训练500 个epoch,耗时约4 h,共训练了3 个采样率,总计3×4=12 h.训练Adv-G 模型的时间类似.

为了便于图像压缩性能和图像分类性能的比较,所有训练图像均处理成灰度图,并且将其原始标签采用热编码形式表示.我们也对网络的输入进行了统一的处理,将输入进网络的图像进行归一化处理,使灰度值范围从[0,255]区间线性映射到[0,1]区间.为公平比较性能,CSNet 网络分别用MNIST 和Cifar-10重新训练,且训练过程中超参数的设置与文献[16]保持一致.同样地,我们用这两个数据集重新训练了两个分类网络VGG 和ResNet,获取这两个网络对原始图像的初始分类准确率.

对于2.2.1 小节式(4)中的α和β参数,均设置为1,式(7)中的参数λD设为1 而γD设为0,式(10)中的α、λG和γG则分别设置为1、1和0.1.本实验设置α=β=1,原因是本文将图像重构效率和识别效率看成同等重要,因此设置了相同大小.我们设置α=λG=1但γG=0.1,将D网络对G网络的影响降低了一个数量级,主要是考虑D 网络和G 网络在对抗训练时能逐渐增强,以达到训练效果.在对抗模型Adv-CSNet-Ck的训练过程中,我们预先训练好CSNet 模型参数,以避免对抗模型陷入局部最优解.实验使用Adam 优化器,其中两个参数beta1 和beta2 分别设置为beta1=0.9,beta2=0.999.使用Cifar-10 数据集进行训练时,训练周期设置为300,每个周期迭代200 次,批量大小为250.前125 个周期的学习率设置为0.001,126到225 个周期的学习率设置为0.000 1,剩下的训练周期学习率设置为0.000 01.使用MNIST数据集进行训练时,训练周期设置为500,每个周期迭代220 次,批量大小为250.前200 个周期的学习率设置为0.001,201 到350 个周期的学习率设置为0.000 1,剩下的训练周期学习率设置为0.000 01.对于MNIST的训练,我们先将式(4)中的α和β参数均设置为1,待训练过程中训练集的分类准确率降低到0.1之下,再修改α为1,β为0.1,目的是将MSE 重构loss 和交叉熵分类loss 平衡在一个数量级上,这有利于稳定重构图像质量.

2.2 实验结果

表1 给出了重构图像的平均识别精度对比结果,数据集为Cifar-10,识别率数值是VGG 和ResNet的识别率平均值,值越小表示对抗性能越好.从表1可以看出,我们提出的对抗方案有明显更低的识别率,而Adv-CSNet 则有最低的识别精度.这表明我们提出的两种对抗学习方案均获得了预期的对抗性能.其中,生成对抗模型Adv-CSNet 因为不针对指定的识别算法,平均识别率下降了74.7%,获得了更好的对抗性能.

表1 平均识别率对比Tab.1 Comparison of recognition accuracy %

表2 测试对抗模型Adv-CSNet-C 和Adv-CSNet的泛化能力,评价指标是识别精度,测试数据集为Cifar-10.从表2 可以看出,对抗识别算法VGG 的模型Adv-CSNet-VGG 在ResNet 上也有很低的重构图像识别率,表明该模型能迁移到不同的识别算法中,具有泛化性.但是,对抗ResNet 的模型Adv-CSNet-ResNet 在VGG 上的重构识别率却明显高于ResNet,这说明模型Adv-CSNet-C 的泛化能力受到限制.从表2 也容易看出,生成对抗模型Adv-CSNet 对VGG和ResNet 都取得了很低的识别率度,即Adv-CSNet比Adv-CSNet-C有更好的泛化性能.

表2 泛化能力对比Tab.2 Comparison of generalization capacity %

表3 对比CSNet 和相应对抗方案的重构图像质量,数据集为Cifar-10.从表3 中的数据可以看出,相比于原始的CSNet,我们提出的对抗方案Adv-CSNet-C 和Adv-CSNet在重构质量方面均有所降低.相比之下,生成对抗模型降低幅度稍大,为10.6%.这表明,我们提出的方案在取得对抗性能的同时,损失了一定的图像重构质量.

表3 图像重构质量对比(PSNR,dB)Tab.3 Comparison of image reconstruction quality %

图4 和图5 展示对抗模型重构图像的视觉效果.图4 以对抗模型Adv-CSNet-ResNet 为例,数据集为手写数字MNIST,图5则是Adv-CSNet生成的重构图像,数据集为Cifar-10.采样率均为0.1.从图4可以看见,我们提出的对抗方案也能清晰地重构出手写数字,视觉效果完全可以接受.从图4 可以看出,本文提出的Adv-CSNet 重构图像的视觉效果则略差于原始的CSNet模型,这与表3的结果基本一致.

图4 MNIST重构图像视觉效果Fig.4 Visual effect of the recovered MNIST images

图5 Cifar-10重构图像视觉效果Fig.5 Visual effect of the recovered Cifar-10 images

从上述实验结果可以看出,相比于原始的CS⁃Net,本文提出的对抗模型达到了预期的对抗性能.主要原因是我们在设计对抗模型时将对抗损失通过损失函数反向传播给生成网络,使得生成网络在训练的过程中自动学习对抗性能,从而达到对抗的效果.这样,模型生成的图像能够欺骗识别算法,使之识别错误,从而达到图像隐私保护的效果.

3 结论

我们将安全性融入压缩感知重构算法,算法生成的重构图像同时也是一个对抗样本,对抗机器分类模型.本文基于对抗样本的思想,提出了一种新的深度学习图像压缩感知方法.降低分类模型的识别率,从而起到保护图像隐私的效果.也就是说,分类模型会识别错误,从而起到保护图像隐私的效果.实验结果表明,我们提出的对抗模型在Cifar-10 数据集中有10.6%重构图像PSNR 下降,但获得了74.7%的对抗性能提升.同时,我们提出的对抗模型体现出了较好的泛化能力,能对抗不同的分类模型.

猜你喜欢
识别率重构样本
“双减”能否重构教育生态?
长城叙事的重构
用样本估计总体复习点拨
高盐肥胖心肌重构防治有新策略
规划·样本
北京的重构与再造
档案数字化过程中OCR技术的应用分析
随机微分方程的样本Lyapunov二次型估计
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别