基于投影权值归一化的立体图像质量评价方法

2020-01-17 03:34李素梅王明毅秦龙斌
关键词:权值立体卷积

李素梅,王明毅,赵 平,秦龙斌,

(1.天津大学电气自动化与信息工程学院,天津 300072;2.昌都市公安局,昌都854000)

立体成像技术可给人们带来较好的视觉体验,但从立体图像的采集到显示均会产生降质问题[1-2],降质图像会影响人们对立体内容的感知.立体图像质量评价方法主要分为主观评价和客观评价.但主观评价实验耗时耗力,代价较大.而客观评价具有较强的可操作性.因此,建立合理、高效的立体图像质量客观评价机制具有十分重要的现实意义.

截至目前,研究学者已提出多种立体图像质量评价方法,大致可分为传统方法和人工神经网络的方法.绝大多数传统方法分别对左、右视图进行特征提取,然后对左、右视图的质量分数进行加权,得到最终的客观评价值[3-7].但传统方法所提取到的特征不一定能真实反映图像的本质特征.为了更好地模拟人眼提取特征的机制,研究学者将人工神经网络应用于立体图像质量评价,如文献[8-10]等将浅层神经网络应用于立体图像客观质量评价,但网络的层数较少,结构较为简单,不能更准确地模拟人类视觉系统分层级处理信息的过程.相比浅层神经网络,深度学习能更好地模拟人脑处理信息的方式,可通过深层次网络对特征进行逐层提取.卷积神经网络(convolutional neural network,CNN)是深度学习中的经典网络,适用于计算机视觉、自然语言处理等领域.Zhang等[11]将卷积神经网络应用于立体图像质量评价,用2个卷积层、2个池化层进行特征提取,并在网络的最后引入多层感知机(multi-layer perception,MLP),将所学习到的特征进行全连接从而得到质量分数;陈慧等[12]采用具有 12个卷积层的卷积神经网络模型,Ding等[13]采用具有 5个卷积层的卷积神经网络模型,所得到的客观评价分数均与人眼主观评价分数具有较高的一致性.目前立体图像质量评价领域内所采用的深层神经网络的结构存在一定的局限性:一方面,网络内部卷积核之间排列方式较为简单,均按顺序进行连接,提取到的特征较为单一;另一方面,组成网络的层均为最基本的卷积层、池化层和全连接层,功能较少,没有进行规范化,致使网络无法处理梯度弥散问题.

另外,在实际研究中发现,人脑在感知立体图像时,首先对左、右视图进行融合,而后分层级对融合图像进行处理[14].Lin等[15]运用传统方法对融合后的立体图像进行质量评价,但仅仅融合了相位图和幅度图.为了更好地模拟该特征,采用深度学习对立体图像质量进行评价的文献(如文献[16])也开始采用融合图像进行处理,但该文献的融合方法未考虑发生增益增强和增益控制的门限[17].

针对以上问题,本文提出了一种基于深度卷积神经网络的立体图像质量评价模型,将预处理后的融合图像作为网络的输入,使网络的学习过程更加符合人眼视觉特性.

1 融合图像的形成

为了模拟人脑对立体图像先融合后处理的认知机制,本文首先对立体图像左、右视图进行融合,而后对所得融合图像进行切块与归一化计算,作为后续网络的输入.

1.1 融合图像

受人类视觉系统(human visual system,HVS)中双目竞争现象的启发,将经过 Gabor滤波后的左、右视图融合成为一幅图像,其公式为

式中:Il(x,y)与Ir(x,y)分别表示左、右视图中位于位置(x,y)的像素值;C(x,y)表示融合图像的像素值;TCEl、TCEr分别表示左视点和右视点对本视点的增强分量;分别表示左视点和右视点对另一视点的抑制分量,即

式中:t表示左视点或右视点;gc表示增强门限;ge表示控制门限;经Gabor滤波后得到 48幅图像,表示t视点的第n幅图像被对比敏感度函数滤除的频率信息;表示t视点的第n幅图像的权重,i、j分别表示 Gabor滤波的 6个尺度fs∈{1.5,2.5,3.5,5.0,7.0,10.0}(循环数/(°))和 8 个方向θ∈ {kπ/8|k=0,1,,7}….

以 LIVE-Ⅰ数据库中 blur失真类型的图片im_8_1为例,该图的左、右视点图像如图 1(a)、(b)所示,所得融合图像如图1(c)所示.

图1 图片blur_im_8_1的左视图、右视图和融合图Fig.1 Left view,right view,and cyclopean image of blur_im_8_1

1.2 图像切块与归一化

本文将融合图像切割为32 32×的图像块从而减小网络运算量,而后进行归一化计算,其公式为

式中:I(x,y)表示位于(x,y)坐标点的像素值;μ(x,y)为像素值的平均值;σ(x,y)为像素值的标准差;ε为无限趋近于0的任意正数.

2 卷积神经网络算法

2006年,Hinton等[18]提出“深度学习”的概念,从此掀起了深度学习在人工智能领域的热潮.卷积神经网络是深度学习中起步较早,发展较为成熟的算法.Inception、Block等新型结构的提出也促进了卷积神经网络性能的提高与改进[19-20].

基于 Inception结构和 Block结构,本文搭建同时具有 2种卷积核排列方式的深层次卷积神经网络模型,该模型的输入为切割后的小块.模型包含 1个Inception结构、1个卷积层、3个 Block结构、1个池化层与1个全连接层,如图2所示.

Inception结构通过不同大小的卷积核并行运算,可提取图像不同尺度的特征,使提取过程更全面、充分,并且引入1×1大小的卷积核来减少网络参数,降低计算复杂度.

Block结构引入“残差”的思想,通过增加一个通道,将上一层的输入直接连接输出,解决网络退化问题,残差学习模块如图3所示.

图2 本文采用的卷积神经网络结构Fig.2 Architecture of the proposed CNN model

图3 残差学习模块结构Fig.3 Architecture of the residual learning module

3 网络结构的优化

在本文采用的 CNN网络中,每一个卷积层后均引入投影权值归一化层(projection based weight normalization,PBWN)与数据批量归一化层(BN)分别对各层权值参数与输入数据进行归一化.

3.1 投影权值归一化(PBWN)

投影权值归一化由文献[21]提出,目的是解决深度学习非线性网络中由于缩放权值空间对称性导致的网络训练病态问题.缩放权值空间对称性使Hessian矩阵陷入病态,导致网络在训练中容易陷入局部极值,不利于网络寻求全局最优解[22].为了缓解该问题,黄雷等提出将权值进行单位规范化,从而确保各层权值的量级相同.

在网络寻求最优解的规划问题中,添加对第i层权值矩阵wi的约束为

该约束将各层的权值矩阵规定在 Oblique流形空间的一个子空间内,即各层权值矩阵w均满足

采用 Riemannian优化理论求解该约束,可得Oblique流形空间内的Riemannian梯度为

说明该项在式(9)中不是主导项,且通过实验证明 Riemannian梯度与原始梯度的效果几乎相同.故本文采用原始梯度来减小计算量.

因此,本文进行权值更新的公式为

3.2 数据批量归一化

数据批量归一化(BN)[23]可避免数据分布逐渐偏移,有效解决原空间与目标空间分布不一致的问题,在训练过程中,对每一个 batch,计算均值μ和方差,对每个特征进行处理,得到经过数据批量归一化处理后的值为,BN方法表示为

在测试时,用所有训练batch的均值表示为E[x],用所有训练batch方差的无偏估计表示为var[x],即

式中:m为各个batch的大小.

故测试阶段,数据批量归一化的计算式为

式中:B Nγ,β(x)表示对x进行 BN 处理后得到的值;参数γ、β的功能分别是缩放和平移,恢复模型的表达能力,提高网络泛化性能.

4 实验结果及分析

4.1 实验环境及数据库

本文采用深度学习 Torch框架搭建网络模型,CPU 为 3.5GHz的 Intel xeon E5-2637v3,64G RAM,GPU为Titan X,显存12GB.

实验所用的数据库为立体图像测试库 LIVE-Ⅰ和 LIVE-Ⅱ[24].LIVE-Ⅰ有 20对原始图像,365幅对称失真图像,包含 5种失真(Blur,WN,JPEG,JP2K和FF);LIVE-Ⅱ有8对原始图像,360幅对称和非对称失真图像,包含 5种失真类型(Blur,WN,JPEG,JP2K和FF).

4.2 网络参数设置

本文搭建的卷积神经网络模型参数设置如表 1所示,其中,Inception(k)表示卷积核并行结构的第k部分,Conv-4(1×1)表示有 4个大小为 1×1卷积核的卷积层,AvgPool表示平均池化,Block_1表示按顺序进行排列的第1个残差单元,FullConnected-2表示输出维度为2的全连接层.

4.3 实验结果分析

本文选用的评价指标为皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC)、斯皮尔曼秩相关系数(Spearman rank order correlation coefficient,SROCC)和均方根误差(root mean square error,RMSE),PLCC、SROCC 的值越大,RMSE 的值越小,表示模型评价结果与主观结果的一致性越强,效果越好.

表1 网络模型参数设置Tab.1 Parameters of the network model

表 2为本文方法与其他方法在在 LIVE-Ⅰ、LIVE-Ⅱ数据库上的性能比较.陈慧等[12]未给出LIVE-Ⅱ数据库总体评价指标数值,仅给出分失真类型的指标数值,故与陈慧等[12]的对比在表 3、表 4进行.表 2表明,论文算法性能明显优于 Oh等[16]性能,这是由于论文在融合图像过程中充分考虑到线性与非线性两种情况,即双眼接受到的刺激很小时,对左右眼接受到的刺激线性加权,当刺激达到了发生增益增强与增益控制的门限时,采用非线性加权.相比Lin等[15],本文在融合图像时对原图进行融合,Lin等[15]仅对图像底层特征进行融合,故本文所得指标优于Lin等[15]指标.本文所得PLCC与SROCC相较其他未对图像进行融合的深度学习方法[11,13]和传统方法[5-7]有了显著提升.在 LIVE-Ⅱ上,本文所得PLCC位列次优,较 Ding等[13]低 0.0122%.相比其他算法,本文模型在 LIVE-Ⅰ与 LIVE-Ⅱ数据库上计算得到的RMSE较小,综合3个指标考虑,本文方法在对称失真与非对称失真的立体图像质量评价上均具有较好的性能.

表2 各评价方法的总体性能比较Tab.2 Performance comparison of different assessment algorithms

分析本文方法对不同失真类型的评价效果,如表3、表 4所示.网络在进行测试时,表 3、表 4中PLCC、SROCC指标普遍低于现有算法,这是因为本文所做实验为二分类,故即使在测试中仅判错 1张图,也会对 PLCC造成极大影响.实验表明,本文方法对于5种失真类型整体评价效果较好,对于LIVE-Ⅰ数据库中FF失真类型与LIVE-Ⅱ数据库中的FF、BLUR失真类型,由于识别率到了 100%,所以PLCC、SROCC的值也达到了1,且RMSE的值为0.

由于BN是对输入数据的批量归一化操作,缺少该层会导致梯度发生爆炸现象,网络的 loss过高,从而使训练十分艰难.因此在每个卷积层后均固定引入 BN层,保证网络训练的顺利进行.故本文不再引入关于BN的对比试验,主要进行PBWN对比试验,测试在各卷积层后加入 PBWN层与不加 PBWN对模型性能的影响,如表 5所示,结果表明,添加PBWN 后会使实验结果有明显提升.对 LIVE-Ⅰ图像质量评价的识别率提高了2.833%,达到98.113%,对 LIVE-Ⅱ图像质量评价的识别率提高了 5.88%,达到 96.47%.对比有无 PBWN对于测试时间的影响,如表6所示,PBWN使各层权值参数的量级相同,且权值参数均被单位规范化,有效地避免训练过程中出现 Hessian矩阵的病态现象,提高了网络的学习能力与泛化能力,加速了网络收敛,缩短了网络测试所需时间.

表3 各评价方法对LIVE-Ⅰ数据库中不同失真类型立体图像质量评价的性能比较Tab.3 Performance comparison of different distortion types stereoscopic image quality assessment on LIVE-Ⅰ using the different methods

表4 各评价方法对LIVE-Ⅱ数据库中不同失真类型立体图像质量评价的性能比较Tab.4 Performance comparison of different distortion types setereoscopic image quality assessment on LIVE-Ⅱ using the different methods

表5 本文方法的识别率Tab.5 Recognition rates of the proposed algorithm

表6 本文方法测试所需时间Tab.6 Test time of our algorithm

5 结 语

本文提出了一种基于融合卷积神经网络立体图像质量评价模型,模型通过卷积核顺行与并行2个模块,对预处理后的融合立体图像进行特征提取,使网络对图像的学习更为充分.本文引入 BN与 PBWN进行网络优化,解决网络训练过程中的病态问题,有效地提高了网络评价准确性.为立体图像质量评价的深度学习方法提供了研究思路,今后将考虑更多的网络结构优化方法,从而取得更好的评价效果.

猜你喜欢
权值立体卷积
一种融合时间权值和用户行为序列的电影推荐模型
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
一种基于互连测试的综合优化算法∗
从滤波器理解卷积
立体登陆
基于傅里叶域卷积表示的目标跟踪算法
Pop—Up Books立体书来了
财务风险跟踪评价方法初探