基于内容的H.264无参考视频质量评价模型

2019-09-19 12:09
测控技术 2019年1期
关键词:码流纹理程度

(北京工业大学 信号与信息处理研究室,北京 100124)

近年来,随着网络技术和多媒体技术的蓬勃发展,网络视频服务、可视电话、IPTV等应用越来越普及。这些应用系统需要对视频质量进行实时监控,以保证用户的感受和体验。视频质量评价也由此成为各种网络多媒体应用系统中不可或缺的重要组成部分。

视频质量评价可以分为主观质量评价和客观质量评价两种。主观质量评价需要受测者在特定环境下,观察一系列的被测视频,按照事先规定的评分标准进行评分。主要的方法有:DSIS(Double Stimulus Impairment Scale)法,DSCQS (Double Stimulus Continuous Quality Scale)法,SSM(Single Stimulus Methods)法,SSCQE(Single Stimulus Continuous Quality Evaluation)法等。主观质量评价方法最常用的打分标准是平均意见分数(Mean Opinion Score,MOS),如表1所示,其中“5”代表质量最好,“1”代表质量最差。主观质量评价是能最直接反映人对视频质量的感知程度的方法,但费时费力,且容易受到观察者自身认知水平的影响,因此不适于大规模应用。客观质量评价一般通过数学计算的方法来对视频序列进行打分。根据对原始视频的依赖程度不同,客观质量评价又可分为3类:全参考(Full-Reference,FR)、部分参考(Reduced-Reference,RR)和无参考(No-Reference,NR)。全参考模型需要原始视频作为参考,常用的方法有峰值信噪比(Peak Signal Noise Ratio,PSNR)[1]、结构相似性(Structural Similarity Index Measurement,SSIM)[2]、多尺度结构相似性(Multi-Scale Structural Similarity Index Measurement,MS-SSIM)[3]等。部分参考模型需要利用原始视频的部分信息,通常会提取原始视频的某些特征值来评价视频质量。全参考和部分参考评价方法都需要额外的带宽来传输原始视频及相关特征信息,极大地影响了其实际应用。相比之下,无参考方法不需要依赖任何与原始视频相关的信息,直接根据待评价视频的信息计算视频质量,具有更好的灵活性、适应性和更广泛的应用价值,是目前主流的视频质量评价方法[4-6]。

无参考质量评价方法可以进一步分为基于像素域(Pixel-based)、基于码流(Bitstream-based)以及混合方法等3种。基于像素域的方法利用解码后的视频进行质量评价;基于码流的方法则不需解码,直接从码流中提取参数进行质量评价;混合方法则是将二者结合起来进行质量评价。文献[7]利用解码像素的变换系数来估计量化水平,从而评估视频质量。文献[8]从H.264压缩码流中提取QP、运动矢量在X、Y方向上的最大最小值、比特率等参数,从像素域提取灰度共生矩阵的平方和、垂直灰度梯度、图像熵、对比度等参数,将这些参数结合起来形成特征参数,使用线性回归的方法建立特征参数与视频感知质量之间的关系模型。

总的来说,基于像素域和混合的方法都需要对视频进行解码才能提取参数,无法满足对视频质量进行实时评估的需求。因此,许多学者将研究重点放在了基于码流的视频质量评价上。文献[9]从H.264码流中提取QP平均值、中值、标准差、I帧4×4块所占比、跳过宏块所占比等作为特征参数,使用最小二乘回归方法来计算各自权重,最终给出视频质量评价模型。文献[10]从码流中提取了QP、归一化运动矢量、DCT系数、错误隐藏距离等参数作为特征参数,来评估H.264视频的编码失真,使用数学拟合的方法建立视频质量评价模型。

根据人眼视觉系统的掩蔽效应,人类对不同内容的视频具有不同的敏感程度。视频的纹理和运动特性也是影响视频感知质量的重要因素。文献[11]使用了像素域的特征信息,例如空间信息(Spatial Information,SI)和时间感知信息(Temporal Information,TI),并结合其他视频参数,通过数据拟合之后得出客观分数计算公式。文献[12]的研究工作表明,量化参数QP是影响视频失真的最主要因素,而视频内容,例如纹理丰富程度则次之。文献[13]提出一种基于时间特征的比特流层模型,将运动的特征参数以及比特率用于质量评估,但尚未考虑利用视频的空间特性。文献[14]从码流中提取DCT系数来描述视频的纹理丰富程度,同时考虑帧类型、丢包率等作为特征参数,进行视频质量评价,但并未充分考虑利用视频的运动剧烈程度。文献[15]考虑了视频的内容特征,提高了质量评估模型的精度。

本文提出了一种基于内容的无参考视频质量评价模型,用于评估H.264码流对应的质量,其流程图如图1所示。本文模型使用量化参数QP以及表征视频内容的参数:小尺寸预测块所占比例SPM_Ratio、I帧中平均每个4×4块所包含ICT非零个数Ave_Coef、运动矢量信息后缀平均长度Ave_Mvlen及其方差MV_var,作为特征参数,并使用BP神经网络方法建立其与主观分数MOS之间的映射模型,用于对H.264码流的质量进行预测。

图1 视频质量评价流程图

1 视频内容分析

人眼对于不同内容的视频具有不同的主观感受,在进行视频质量评价时要充分考虑到视频内容的具体特性。本文针对H.264的编码结构,从H.264压缩码流中提取相关参数,并对其进行统计分析,分别描述视频的纹理丰富程度和运动剧烈程度。

1.1 纹理丰富程度

H.264标准采用的是运动估计/补偿+分块变换的基本编码框架,如图2所示。

对于帧内预测编码,H.264提供了9种4×4预测模式和4种16×16预测模式。研究结果表明,4×4预测模式往往对应于视频帧中的纹理丰富区域,而16×16则对应于平坦区域。4×4块数据经过预测、ICT(Integer Cosine Transform)变换、量化后的数据表现出如下特性:非零ICT系数主要集中在低频部分,包括了图像的大部分内容;而高频ICT系数大部分是零。因此,ICT系数很大程度上反映了视频的纹理丰富程度。

为此,本文定义了I帧小尺寸预测模式百分比SPM_Ratio和I帧中每个4×4块包含的非零ICT个数平均值Ave_Coef来表征视频的纹理程度。下面分别进行介绍。

(1)SPM_Ratio。

本文提取了H.264码流中的编码模式参数,然后定义了SPM_Ratio表征视频的纹理程度。其定义公式如下:

图2 H.264编解码流程图

(1)

帧内4×4为小尺寸预测模式SPM(Small Prediction Mode)。式(1)中,小尺寸预测块的个数总和记为SPM_total,所有预测块的个数总和记为Prdmode_total。可以看出,SPM_Ratio表示的是小尺寸预测块占所有预测块总数的比例,可以用于表征视频序列包含的细节丰富程度。SPM_Ratio的值越大,则视频的纹理越丰富。

(2)Ave_Coef。

在H.264标准中,4×4块数据经过预测、变换、量化后,非零ICT系数主要集中在低频部分,而高频系数大部分是零。为此,本文定义了I帧中每个4×4块包含的非零ICT个数平均值Ave_Coef来表示纹理的丰富程度,其定义公式如下:

(2)

式中,Coeff_Token为帧中所有4×4块中非零ICT个数的总和;Inum为I帧的数目。从式(2)可以看出,Ave_Coef值越大,视频序列所对应的纹理越丰富。

1.2 运动剧烈程度

运动矢量可以直接表示运动的剧烈程度。H.264标准采用的是预测方式对运动矢量进行编码,因此运动矢量残差则可以在一定程度上表征视频的运动剧烈程度。在H.264标准中,运动矢量残差采用有符号指数哥伦布码进行编码,运动矢量残差v与待编码code_num之间的映射关系如下:

(3)

式中,code_num指数哥伦布码的码字由3部分组成,可以表示为[Mzeros] [1] [INFO],其中Mzeros称为前缀(prefix),对应的INFO是一个M位的信息后缀(info_suffix)。每个码字code_num的M和INFO值可以通过式(4)和式(5)计算得到:

M=floor(log2[code_num+1])

(4)

INFO=code_num+1-2M

(5)

可以看出,运动矢量残差的幅值与码字前缀的M值以及后缀的INFO值有着直接的关系,而运动矢量残差的符号只由后缀INFO的最后一位比特决定。为此,本文定义运动矢量的信息后缀平均长度Ave_Mvlen来表征视频的运动剧烈程度,计算公式如下:

(6)

式中,Infolen_tot表示信息后缀长度的总和;Infonum为运动矢量的总个数。Ave_Mvlen值越大,表明视频的运动剧烈程度越高。

本文将量化参数QP与SPM_Ratio、Ave_Coef、Ave_Mvlen及其方差MV_var结合起来,作为输入参数,使用BP神经网络方法建立其与主观分数MOS之间的映射模型,用于对H.264码流的质量进行预测。

下面介绍如何利用BP神经网络建立视频质量评价模型。

2 基于BP神经网络的视频质量评价模型

2.1 主观实验

本文选取了常用的公开数据集中具有不同内容的9个CIF格式的视频序列用于主观实验,具体视频序列如图3所示。主观实验采用DSIS(Double Stimulus Impairment Scale)的方法,由21个非专业人员严格按照ITU-T.P.910标准进行打分,使用MOS来表示主观感知质量。

2.2 BP神经网络

本文使用BP神经网络来建立H.264码流的特征参数与MOS打分之间的关系模型。BP网络是神经网络中使用最广泛的一类,通常为3层前馈神经网络:输入层、隐含层和输出层。层与层之间多采用全互连方式,同一层单元之间不存在相互连接。它能够在事先不知道输入输出具体数学表达式的情况下,通过学习来建立这种复杂的映射关系模型。其网络中参数的学习通常采用反向传播的策略,借助最速梯度信息来寻找使网络误差最小化的参数组合。其中,各节点的传递函数f必须满足处处可导的条件,最常用的为Sigmoid函数。

图3 视频测试序列

BP的误差反向传播思想可以概括为:利用输出层的误差来估计出其直接前导层的误差,再借助于这个新的误差来计算更前一层的误差,按照这样的方式逐层反传下去便可以得到所有各层的误差估计。

(7)

由于BP算法按照误差函数E的负梯度修改权值,故权值的更新公式可表示为

(8)

式中,t为迭代次数,对于输出层神经元权值的更新公式为

(9)

式中,δk为输出层第k个神经元的学习误差。对隐含层神经元权值的更新公式为

(10)

式中,δj为作隐含层第j个神经元的学习误差。

3 实验结果与分析

为了验证本文所提出的视频质量评价模型的准确性,本文选取了9个标准视频序列进行实验,每个视频序列分别使用11个不同的QP值进行编码。如表2所示,为具体的H.264编码参数设置。主观实验针对编码的99个码流,由21个非专业人员打分,共得到2079组数据,其中1683组用于模型训练,396组用于验证模型的准确性。

表2 H.264编码参数设置

皮尔逊系数(Pearson Linear Correlation Coefficient,PLCC)和斯皮尔曼系数(Spearman Rank-Order Correlation Coefficient,SROCC)常被用来衡量所建模型的性能。皮尔逊系数取值范围是[-1,1],“-1”和“1”分别代表完全负相关和完全正相关。斯皮尔曼系数取值范围是[-1,1],“-1”和“1”分别代表完全单调负相关和完全单调正相关。

本文使用BP神经网络进行建模隐含层节点数为10,迭代次数为1000,BP网络结构如图4所示。为了验证本文模型的性能,将模型预测结果与文献[16]中的模型预测结果进行了对比,结果如表3所示。可以看出本文模型可以获得更好的预测结果,PLCC达到0.9624,SROCC达到了0.9464。

图4 BP网络结构

模型PLCCSROCC本文模型0.96240.9464文献[16]0.96000.9000

从表3可以看出,本文模型具有更高的MOS预测性能。

为了对比分析,本文还分别使用了支持向量回归(Support Vector Regression,SVR)、RNN(Random Neural Network,RNN )、核偏最小二乘(Kernel Partial Least Square Regression,KPLSR)进行建模。表4给出了使用不同建模方法得到的性能对比。图5的(a)、(b)、(c)、(d)分别是各种模型预测的平均客观分数与主观平均分数MOS的散点图。散点图表现了模型预测的客观分数与主观评价分数的线性关系。

从图5和表4可以看出,采用BP神经网络建立的模型可以得到更精确的预测结果,预测值与真实值更加吻合。

表4 采用SVR、KLPLSR、RNN和BP建模的性能对比

图5 MOS-预测分数散点图

4 结束语

本文提出了一种基于内容的无参考视频质量评价模型,该模型从码流中提取参数表征视频内容的纹理和运动复杂度,通过BP网络建立MOS与特征参数之间的映射模型。该模型能够有效地利用H.264码流,直接对不同内容的H.264视频码流进行实时的质量监控。

在面对外界刺激时,人眼更加关注显著区域,而非显著区域的感知质量则会在一定程度上被削弱。因此,下一步的工作中,将考虑显著性区域和非显著性区域的区别,分别建立视频感知质量评价模型。

猜你喜欢
码流纹理程度
数字电视TS码流协议简要分析
精致和严谨程度让人惊叹 Sonus Faber(意大利势霸)PALLADIO(帕拉迪奥)PW-562/PC-562
男女身高受欢迎程度表
基于BM3D的复杂纹理区域图像去噪
高清网络摄像机图像延迟分析及解决方案
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!
一种比较ASN.1码流差异的方法
将内燃机摩擦减小到最低程度