基于多尺度前馈融合结构的重采样因子估计算法

2023-12-24 10:34郭静张玉金江智呈孙冉
数据与计算发展前沿 2023年6期
关键词:残差像素卷积

郭静,张玉金,江智呈,孙冉

上海工程技术大学,电子电气工程学院,上海 201620

引 言

大数据时代下,数字图像作为最重要的信息载体之一,已然深入到各个领域,数字图像处理技术高速发展,图像编辑手段日趋多样化,如旋转、裁剪拼接等,这些技术的应用提高了人类的生活生产水平,但也改变了原有图像的特征信息,某些情况下会造成不良的社会影响,甚至严重威胁国家安全,因此,数字图像取证算法已经成为了当今的研究热点[1-3]。重采样是最常见的图像处理技术,包括上采样和下采样过程,重采样因子估计算法是图像信息安全、图像取证以及图像隐写分析等领域的重要分支,具有广泛的应用前景[4-6]。

基于传统模型的重采样因子估计算法中,Popescu等人[7]提出重采样图像的像素与其邻域相关,可以采用EM算法来测量图像像素之间的特定周期相关性,推算出重采样因子的数值,这种方法依赖于某些初始化参数,这些参数可能会对相同的输入产生不同的结果;Song等人[8]利用重采样带来的周期性,提出了一种基于阈值的峰值检测方法,在此基础上使用差分方法分别沿水平、垂直和对角线方向来估计重采样因子。在JPEG 图像的重采样因子估计中,Liu 等人[9]提到图像经JPEG 压缩后会产生块效应网格,其相邻极值直方图呈周期性分布,重采样后极值直方图周期由重采样因子决定,利用直方图峰值周期偏移量可以反推重采样因子。基于传统模型的算法中,一种是利用空间域之间的像素关系,放大区域像素之间的关联性,根据图像的残差信息捕获重采样的痕迹;另一种传统模型是将图像转换到频域,通过对频谱特性的分析结合估计算法实现检测。无论是基于像素域还是频域的传统算法很大程度上依赖于先验知识,这就需要大量的计算资源,并且噪声等干扰会模糊化重采样频谱。

神经网络的广泛应用使得重采样因子的检测不再局限于周期特征的获取,克服了人工提取图像重采样痕迹的弊端。Liang等人[10]提出了一种基于深度卷积网络的重采样检测算法。该网络可以根据残差映射关系自动学习重采样痕迹,并克服噪声对重采样因子估计的影响,具有一定的鲁棒性。Peng 等人[11]将每个重采样参数视为一个不同的类,将其转化为一个多分类问题,设计了一个基于预处理操作的卷积网络结构来捕获特定的重采样特征并进行分类。Luo等人[12]提出一种双流卷积网络来估计灰度图的重采样因子,输入为灰度和频率,分别从空间域和频域中获取重采样特征。现代卷积神经网络(CNN)对重采样缩放参数估计具有较高的准确率,超出了传统基于模型的算法极限,特别是在下采样和JPEG 压缩方面。基于神经网络的重采样因子估计算法多是从空间域或频域去捕获重采样痕迹特征并进行分类,但存在传输通道中的信息冗余,感受野范围小等问题,同时多次卷积过程也会造成特征信息丢失,尤其在下采样因子的估计中,网络学习能力急剧下降。

本文算法流程如图1所示,将重采样因子估计问题转换为分类问题,提出一种基于多尺度前馈融合结构的重采样因子估计算法,在算法的预处理层中,该分类器利用两个线性高通滤波器,对估计图像差分得到残差特征,同时使用低阶滤波核分别从垂直、水平和正负对角线上获取图像像素之间的关联性,作为网络输入端的特征信息补偿。算法的主体结构为CNN,针对卷积和池化过程中的信息丢失问题,根据残差网络的优势[13-14],在网络分支上提出多尺度残差融合模块(MRFM),该模块在CNN 不同的层级处利用多尺度卷积核提取重采样痕迹细节特征并进行拼接,通过注意力机制对不同层级中特征信息的重要性进行权重标定,跨层次拼接融合后输出到网络后端作为分类特征补偿机制,减少残差信息冗余并补偿深度卷积过程中信息丢失,增加长距离下残差特征之间的相关性,更加精准地实现重采样因子估计。

图1 算法流程图Fig.1 Algorithm flowchart

1 相关知识

1.1 重采样因子估计分类化

重采样因子λ∈{λ1,λ2,…,λN,λN+1} ,当λ>1,代表图像进行上采样,λ<1,代表下采样操作。将重采样因子集合划分为子集合{k1,k2,…,kN,kN+1},如公式(1)所示:

其中,t∈{1 ,2,…,N} ,xt代表每一个子集合的边界,x1和xN+1代表了重采样因子集合的最小值和最大值。根据公式(1)可知,每个λi对应一个子集合ki,即:

从公式(3)可知,子集合覆盖了所有的采样因子值域,将每一个子集合ki记为一个类标签li得到对应关系:

由公式(4)可知训练集中每一个图像都有了对应的标签,重采样因子就转换为特征向量表达形式。在网络训练过程中学习不同因子的重采样痕迹特征,并在网络输出端以向量q形式表征,从而将重采样因子估计转换为多分类问题,如公式(5)所示。

1.2 通道注意力机制

Wang等人[15]提出一种局部跨通道信息交互的通道注意力机制(Efficient Channel Attention block, ECA block),结构如图2 所示。该结构实现局部通道交互,自动获取每个通道所含信息的重要性,赋予不同的权重系数,强化重要特征而抑制非重要特征的信息。该结构通过局部信息感知在网络训练中自适应地调整不同通道之间的特征响应,减少传输通道中信息冗余的同时,将计算资源分配给最有用的部分。该机制所需的计算资源小,可以集成到任何CNN 网络中。EAC block 克服了SE block[16]中特征通道上“先降维再升维”带来的对应关系弱化问题,通过一维卷积,用局部信息代替全通道线性组合预测,避免降维带来误差的同时,减少参数量。

图2 ECANet 结构图Fig.2 ECANet structure diagram

H、W和C分别代表当前输入特征X的高度、宽度和通道数,首先,将通道上的空间特征编码为一个全局特征,通过全局平均池化(Global Average Pooling,GAP)将特征图在H×W的空间维度上进行细节收缩,定义为:

其中,Fsq(·)表示全局平均池化,xc(·)表示特征图X的第C个通道,得到了全局描述特征yC后,确定局部跨通道信息交互的范围,卷积核尺寸大小由输入信息通道数C自适应决定,如公式(7)所示:

其中,K表示卷积核大小,| ·|odd表示取绝对值最近的奇数,γ和b为常数,本文分别将其设置为2和1,卷积权重包含K×C个参数,如公式(8):

其中,σ(·)代表Sigmoid 函数,输入特征信息的权重矩阵ρ中第C个通道的权值ρi由其相邻K个通道共同预测产生,如公式(9):

利用卷积核实现权值共享,则公式(10)中的权值相乘可以转换为一维卷积操作,于是输入通道权值矩阵表达式为:

Conv1(·)代表一维卷积操作,最后ECA block的输出特征X′为:

其中,“·”表示权值系数与对应通道各元素相乘。

2 本文算法

2.1 网络总体结构

本文所提算法采用深度卷积神经网络作为分类器,输入特征为6个线性滤波器得到的高通特征信息,将卷积操作+批量归一化+激活函数作为特征提取模块的基本结构。提取浅层残差特征时,采用5×5 卷积核,数量为24,两次卷积后的输出经过池化层缩减特征通道的长度和宽度,保留最大值分类特征并减少参数,随着网络的加深,卷积核尺寸不变数量增大为32,第二次池化后卷积核尺寸减少为3×3,数量为64,使用细化特征所需的感受野,最后四层卷积的核大小仍为3×3,数量增加为128,以此来捕捉更细小的高阶特征,在分支上提出多尺度残差融合模块(MRFM),连接池化层的输出特征信息,经过激活函数Tanh与主通道的输出分类特征相拼接,通过平均池化操作供全连接层学习分类。网络的具体结构如图3。其中,Fi为当前隐藏层的重采样输出残差特征。为了保证重采样痕迹在通道上的并行,所有卷积操作均采取填充形式保持输入输出特征的长度和宽度不变,与Sigmoid 和Tanh 相比,ReLU 具有更快的收敛速度,但在链式相乘的作用下,一些输入可能会落入硬饱和区,导致相应的权重参数无法更新,Tanh具有软饱和性,输出均值为0,缺点在于运算速度缓慢,本文所提网络运用两种激活函数来满足需求。在分类模块中(Classification Module)中,用两个全连接层和Softmax 函数执行分类,输出图像判定为每个重采样因子类别的概率。

图3 网络总体结构图Fig.3 Overall structure of the network

2.2 预处理层

许多用于检测图像重采样的早期方法基于预测残差,网络可以从残差特征学习到重采样痕迹,通过差分运算,可以放大图像重采样的特征,减少图像内容带来的影响,缩小网络的映射范围,使网络预测出残差分类特征。本文通过两个线性高通滤波器[17]将图像映射到残差像素域,滤波器为:

滤波器H1和H2分别考虑5邻域和3邻域内的像素相关性,滤波二值效果如图4(b)(c)所示,考虑到图像下采样过程中,原始图像丢失了大量的像素值,破坏了原有像素间的相关性,增加提取重采样特征的难度,本文引入4个低阶滤波核,在窗口内计算梯度作为像素低阶相关性信息的补充,如公式(14):

图4 图像滤波后的二值图Fig.4 Binary image after image filtering

H3、H4、H5和H6分别在垂直、水平和对角方向上计算梯度,强化单像素之间的关联性,滤波二值效果如图4(d)~(g)所示,6个滤波核得到的重采样痕迹特征作为卷积神经网络的输入特征,预处理层的结构如图5所示。

图5 预处理层的结构Fig.5 Structure of the preprocessing layer

2.3 多尺度残差融合模块

ECA block 能对不同通道上的重采样特征进行权值重标定,但ECA block的缺点在于只能实现局部信息的标定,即对上层网络的特征进行选择。为了丰富网络的感受野,同时适应高阶和低阶残差特征,强化重采样痕迹在信息通道的有效传输,在网络的分支结构上提出多尺度残差融合模块(MRFM)。

3个多尺度残差融合模块的结构大致相同,如图6所示,利用多尺度卷积核分别提取两个不同层级处的分类特征,经过批量归一化(BN)和非线性激活函数ReLU 后在空间上拼接,ECA block根据不同通道信息在网络传递中的重要性自适应地赋予通道权值。

图6 MRFM结构图Fig.6 MRFM structure diagram

MRFM在神经网络分支上的连接方式如图7 所示,Feature1、Feature2、Feature3 和Feature4分别代表网络不同隐藏层的输出且依次靠后,这些Feature中包含了不同感受野和非线性拟合得到的重采样痕迹特征,MRFM 在网络的不同层级处,将提取到的多尺度残差信息进行拼接,通过注意力机制的标定和卷积并池化操作后输出并作为下一个MRFM 的输入,这种串联式结构有助于提高重采样残差特征的有效性并尽可能压缩浅层通道信息的冗余性。

图7 MRFM的连接方式图Fig.7 Connection diagram of MRFM

MRFM的卷积层参数如表1所示,为了加快网络的收敛速度,减少所需的计算资源,MRFM1对初级特征分别采用7×7 和5×5 的卷积核,个数为16,扩大感受野,提取大尺度残差特征,进一步削弱预处理层中像素相关性造成的信息过剩。随着网络加深,MRFM2所使用的卷积核尺寸减小为5×5 和3×3,卷积核个数为32,能更好地适应细化的分类特征,而MRFM3将进一步提取细化残差特征并在通道上进行信息融合,控制输出通道的数量,这样的滤波核设计能更好地捕获不同重采样因子留下的痕迹并减少网络待优化的参数量。在不同层级处的多尺度特征提取,确保网络能自适应获取不同阶次的像素相关性特征,增强网络的泛化能力。

表1 MRFM的参数设定表Table 1 Parameter setting table of MRFM

多尺度残差融合模块解决如下几个问题:(1)在分支上扩大了映射学习范围,该结构将当前输入特征与卷积提取后的特征,分别用大卷积核和小卷积核重提取并拼接,让网络自适应地对痕迹特征进行重要性选择,可以实现重要特征的重利用;(2)扩大网络的传输通道,建立长距离下像素点之间的相关性,优化网络表征能力;(3)3 个MRFM 迭代标定的重要性特征在网络的后端进行拼接,可以补偿卷积过程中分类特征的丢失;(4)MRFM 有着残差模块的优势,保留各阶信息的同时,抑制网络深度带来的梯度消失现象。同时,因其将不同层级的特征直接输出到网络末端,克服了残差网络计算成本过高的缺点,加速网络的收敛。多尺度残差融合模块的计算过程如公式(15)~(17)所示。

其中,Iin表示网络不同层级处的重采样因子残差特征图,Iout表示MRFM 的输出特征,ω和b分别表示卷积层的权重系数和偏置,NB(·) 表示批量归一化处理函数,δ(·) 表示激活函数ReLU,Pool表示平均池化,“⊕”表示特征信息在通道上拼接,ε(·) 表示激活函数Tanh,X′i表示经ECA block后的输出特征。

3 实验与结果分析

3.1 数据集的选择

本次实验的训练集、验证集和测试集来自公开数据集BOSS Database[18]、UCID Database[19]和Dresden Database[20],从3 个数据库中获取4,000 幅未压缩的RGB 图像,分别进行参数为λ(λ∈{0 .5,0.6,1,1.1,…,1.6} ),共48,000 幅彩色图像作为网络训练集,其中,λ=1 表示不进行重采样操作,从BOSS Database 和UCID Database获取另外1,000 幅RGB 图像,从Dresden Database 获取800 张RGB 图像,利用同样的方式分别作为验证集和测试集,上述重采样过程分别使用最邻近插值(Nearest interpolation)函数、双线性插值(Bilinear interpolation)函数和双三次插值(Bicubic interpolation)函数。

3.2 损失函数的选择

本文所提算法是为了实现目标特征的多分类,分类模块的输出函数为Softmax,用来表示当前图像属于不同类别的概率,采用交叉熵损失函数来最小化概率分布之间的差异,得:

其中,n表示样本批次大小(batch size),M代表类别数,yi,j表示第i个样本在第j类上的真实标签,pi,j表示第i个样本在第j类上的预测概率。

3.3 实验环境及参数设置

由于从数据库直接取出的图片分辨率不同,同时为了加快网络运行速度,对训练集随机读取64个256×256 大小的像素区域,通过批量归一化形成批量样本供网络学习映射关系,特征提取模块(Feature Extraction Module)的节点参数如表2 所示。训练过程中采用随机梯度下降(SGD)[21]来最小化交叉熵函数,权重衰减设置为0.0005,动量设置为0.9,初始学习率为0.1,前10 万次迭代中,学习率保持不变,而后每迭代100 次,学习率乘以0.995,共训练50 万次,实验操作系统为Win10,显卡为英伟达GeForce GTX-2080Ti,显存11G,实验平台为Pycharm,深度学习框架为tensorflow1.13.1。

表2 网络参数表Table 2 Network parameter table

3.4 实验结果分析

为了验证网络结构中预处理层和MRFM的作用,本次实验将传统CNN、CNN+预处理层(No MRFM)和本文所提算法做对比实验,在双线性插值函数的重采样下,实验结果如表3 所示。从各算法的准确率可以看出,传统CNN 在估计重采样因子,尤其是估计下采样因子时,准确率过低;不使用MRFM时,网络的分类准确率虽然保持在66%以上,但明显低于本文所提算法,在估计下采样因子时,算法的性能差距明显变大。本次实验说明,在预处理层使用了额外的低阶高通滤波器来做单邻域信息的相关性补充,经过MRFM的多层次融合连接后,网络的输出端损失函数充分利用了信息的有效部分,没有过多的信息冗余。

表3 不同结构下重采样因子估计的准确性(%)Table 3 Accuracy of resampling factor estimation for different structures(%)

Bayar 等人[22]提出一种基于传统CNN 的重采样因子检测算法,Liang 等人[10]提出了一种改进的残差网络来估算重采样因子,Peng等人[11]提出一种基于双滤波残差学习的重采样因子估计算法,将上述3 种现有算法分别称为S1、S2 和S3。为保证实验数据的可靠性,3种对比算法与本文所提算法均在相同的环境配置下进行实验。表4为使用3种插值函数时,不同算法下重采样因子估计准确率的平均值。可以得出,S1、S2、S3 和本文算法的平均准确率大约为80.6%、91.8%、92.3%和95.7%。当λ>1,即对上采样因子估计时,S1 的分类准确率要略低于S2、S3 以及本文算法,其原因是S2 的残差结构可以补偿信息,S3的预处理层可以减少不必要的干扰,而本文所提算法对上采样因子估计的准确性最高,都处在99%以上。当λ<1,即对下采样因子估计时,由于下采样过程中大量图像像素被丢弃,像素间原有的相关性被破坏,前3 种算法的性能急剧下降,尤其当λ=0.5 和λ=0.6,准确率下降幅度更大,而本文算法的准确性都远高于其余算法,能将准确率保持在80%以上,说明预处理层和MRFM能强化下采样分类特征的信息提取。总体而言,本文算法在重采样因子的估计中具有优异的性能,即便是在下采样过程中丢失大量像素的情况下,也具备优异的估计能力。

表4 不同算法的估计准确性(%)Table 4 The detection accuracy of different algorithms(%)

表5~7 展示了本文算法在不同重采样插值方式下的预测混淆矩阵,从3种插值函数的估计结果可以出来,当下采样因子λ越小时,网络对估计因子从类别中区别的能力减弱,算法的准确性随着下采样因子减小而降低;而在上采样因子映射学习中,算法表现优异。出现这种情况的主要原因在于上采样和下采样的过程不同,上采样利用插值函数增加原有图像的像素数量,新增像素强化了相邻像素之间的相关性,这些潜在的分类特征可以被网络捕获学习,但下采样过程是对图像尺寸的缩减,图像像素值丢失,新插入的像素值破坏了原有图像之间的关系,潜在特征减弱,无法被网络学习。总体上,本网络在3 种插值函数下的估计准确性都达到了75%以上,实现了较好的下采样因子估计,而这也是预处理层使用4 个低阶高通滤波器作为补充信息的结果。

表5 最邻近插值重采样因子估计的混淆矩阵Table 5 Confusion matrix for resampling factor estimation with nearest interpolation(%)

表6 双线性插值重采样因子估计的混淆矩阵(%)Table 6 Confusion matrix for resampling factor estimation with bilinear interpolation(%)

表7 双三次插值重采样因子估计的混淆矩阵(%)Table 7 Confusion matrix for resampling factor estimation with bicubic interpolation(%)

3.5 抗噪声测试

为了验证本文所提网络是否满足数字图像取证领域的需要,是否具有一定的鲁棒性,本次抗噪声实验的检测目标为使用Bicubic 插值函数的下采样因子。数据集同3.1,不同的是λ∈{0 .5,0.55,0.6,…,0.9} ,并给图片加30dB 的高斯白噪声来破坏像素之间的联系。基于前面所展现的实验结果,S1 相比S2 和S3,分类能力较弱,因此选取S2 和S3 作为对比实验。实验结果如表8 所示,可以看出,当使用双3 次插值函数的下采样因子区间细化后,高斯噪声破坏了原有的像素特征,几种算法的性能均出现下降,S2和S3在λ=0.5、λ=0.55 和λ=0.6 时,多次出现准确率低于50%的状况,这说明网络提取分类特征后产生了错误的判别。随着λ的增大,网络中可供学习的残差特征增加,各类算法的准确率均有所提升,而本文所提算法在强高斯噪声干扰的情况下,依然保持对下采样因子检测的准确性在67%以上。并且,根据图8所示的混淆矩阵,本文算法在下采样因子估计中具有鲁棒性,将输出概率最大化分布在对角线上,保持估计能力的稳定性。

图8 高斯噪声下不同算法的预测混淆矩阵。Fig.8 Predicted confusion matrices for different algorithmsunder Gaussian noise.

4 总 结

本文所提基于前馈融合结构的重采样估计算法采用多个滤波核并行提取残差特征和像素相关性,尽可能保留重采样痕迹的同时,避免图像内容带来干扰,减小映射的学习范围,加速网络收敛;提出多尺度残差注意力融合模块,丰富网络的感受野,筛选预处理层拼接的特征,并将多个模块串联,建立网络的浅层和高维特征之间的联系,改善信息流通的方式。网络主体结构采用CNN,卷积核尺寸和数量较小,所需计算资源较少,符合实际应用需要。经过验证,本文所提算法不仅在上采样因子中具有优异的表现,在下采样因子中也具有较高的准确率,同时网络还具备一定的抗干扰能力,在下一步的研究中,可以优化本文算法对包含大量噪声图像的下采样因子估计,更快更准确地实现参数估计。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢
残差像素卷积
赵运哲作品
像素前线之“幻影”2000
基于双向GRU与残差拟合的车辆跟驰建模
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于残差学习的自适应无人机目标跟踪算法
“像素”仙人掌
基于递归残差网络的图像超分辨率重建
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
高像素不是全部