基于图像色貌和梯度特征的图像质量客观评价*

2020-12-05 07:35史晨阳林燕丹2

物理学报 2020年22期

史晨阳林燕丹2)†

1) (复旦大学信息科学与工程学院，光源与照明工程系，上海 200433)

2) (复旦大学工程与应用技术研究院，超越照明研究所，上海 200433)

图像质量评价(IQA)方法需要考虑如何从主观视觉度量结果出发，设计出符合该结果的客观图像质量评价方法，应用到相关实际问题中. 本文从视觉感知特性出发，量化色度和结构特征信息，提出了基于色貌和梯度两个图像特征的图像质量客观评价模型. 两个色貌新指标(vividness 和depth)是色度特征信息提取算子；梯度算子用来提取结构特征信息. 其中， vividness 相似图一方面作为特征提取算子计算失真图像局部质量分数，另一方面作为图像全局权重系数反应每个像素的重要程度. 为了量化所提模型的主要参数，根据通用模型性能评价指标，使用Taguchi 实验设计方法进行优化. 为了验证该模型的性能，使用4 个常用图像质量数据库中的94 幅参考图像和4830 幅失真图像进行对比测试，从预测精度、计算复杂度和泛化性进行分析. 结果表明，所提模型的精度PLCC 值在4 给数据库中最低实现0.8455，最高可以达到0.9640，综合性能优于10 个典型和近期发表的图像质量评估(IQA)模型. 研究结果表明，所提模型是有效的、可行的，是一个性能优异的IQA 模型.

1 引言

随着各种多媒体通信系统中彩色图像内容和成像设备的迅速发展，传统的灰度传输方式被彩色传输所取代. 在这种转变下，感知图像质量评估(image quality assessment， IQA)在众多的视觉数据处理应用中发挥了重要的作用，特别是针对由于压缩和传输而产生的失真评价，如模糊、块效应和白噪声等[1]. 在过去的几十年里，人们设计了多种客观的IQA 模型来评估图像质量[2]. 人眼视觉系统(human visual system， HVS)是一种理想的视觉信息接收系统，也是用主观判断[3]评价图像质量最可靠的方法. 通常，主观评价的结果由平均意见分数(mean opinion scores， MOS)和差异意见分数(differential mean opinion scores， DMOS)表示，且这两种主观评分是图像质量客观评价性能的评估依据.

目前，典型的图像客观质量评价方法主要有：1) 基于数学统计的方法，如MSE (mean squared error)和PSNR (peak signal to noise ratio)等； 2)基于HVS 感知特性的方法，如SSIM (structural similarity)， IFC (information fidelity criterion)，FSIM (feature similarity)等； 3) 基于机器学习的方法[4]，该方法计算精度较高，但需要长时间样本训练，且计算结果过度依赖训练样本，难以应用到实际问题中. 上述基于数学统计的方法拥有较好的运行效率，但准确性较基于HVS 感知特性的方法存在不足. 在基于HVS 感知特性的方法中，具有代表性的SSIM[5]方法假设人类对于一个场景的视觉感知可以用提取结构信息进行表征，其主要提取信息包括亮度、对比度和结构. 该方法因其设计思路的新颖性和特征信息的计算方式，为后续相关研究提供很多启发和思路. 这种基于SSIM 计算方式的图像质量评价模型也被叫做全参考图像质量评价模型. Sheikh 和Bovik[6]提出IFC[7]及其衍生方法VIF (visual information fidelity)，这两个方法通过原始图像和失真图像的交互信息保真度进行比较和计算，虽然其性能较SSIM 有所提升，但计算效率较差，难以广泛应用. 基于SSIM 模型，其他研究者又提出很多扩展模型. 其中具有代表性的模型有：加入HVS 多尺度特性的MS-SSIM(multiscale SSIM)方法[8]；根据图像全局信息分布，通过信息加权的方式得到的IW-SSIM(information content weighted SSIM)方法[9]. Larson 和Chandler[10]基于最明显失真统计提出MAD(most apparent distortion algorithm)方法，该方法的不足是计算复杂性较高. Zhang 等[11，12]针对人类视觉系统对图像的理解主要依赖于图像的底层特征的特点，提出了两种新的基于特征相似度的全参考图像质量评价指标RFSIM (riesz transforms based feature similarity index)和FSIM (feature similarity). 在FSIM 中，作者针对灰度图像将相位一致性(phase congruency)和梯度幅值(gradient magnitude)结合，并使用权重系数获得单位质量分数；此外，为解决彩色图像评价问题，加入色度算子，引申出FSIMc模型. 基于梯度结果， Liu 等[13]提出GSM (gradient similarity metric)方法. 上述提到的RFSIM， FSIMc和GSM 方法的精度较好，但计算泛化性能欠佳.近年，基于对比度和视觉显著性， Jia 等[14]提出CVSS (contrast and visual saliency similarity)方法，该方法评价灰度图像的性能较好，但是针对日常生活在的彩色图像，性能仍有不足. Yao 等[15]基于图像内容对比度感知特性，提出MPCC (IQA model based on the perception of the contrast of image contents)方法.

一般来说，上述较好的模型在空间和频率域描述了结构信息、亮度信息、对比度信息和颜色信息.通过上述分析，可以发现目前的IQA 模型在设计方法、复杂性和泛化性能仍有不足. 所以，本文选择基于HVS 感知特性构建图像质量客观评价模型，以基本物理理论为基础，构建具有较高的精度、泛化性和较低计算复杂度模型. 目前常见的全参考模型在进行特征相似计算时(如前文中提到的IW-SSIM， RFSIM， FSIMc， GSM、CVSS 等模型)，多参照SSIM 的计算方式，本文也是参考SSIM进行相似计算全参考图像质量评价模型.

通常情况下，彩色图像的质量可以通过在单个RGB 通道上使用灰度模型，然后连接通道分数来评估. 由于这种方法的精度有限，因此需要提出更精细的利用颜色感知特性的模型. 此外，彩色图像的质量可以用类似于比色法的方法来评估. 均匀的颜色空间(如CIELAB)可以描述成对颜色之间感知到的颜色差异[16，17]. CIELAB 中的圆柱极坐标与刺激的颜色属性相关. 因此，利用该公式可以更好地在像素级表征彩色图像的感知失真. 虽然这些公式对比较均匀色块很有用，但需要通过优化，与复杂的真实图像数据保持一致. 随着人眼对色彩表象的感知能力的不断提高，一些新的模型被提出，并利用相似计算公式对这些模型进行修正. Lee 和Plataniotis[18，19]提出了基于正常三通道色貌指标的IQA 方法(即亮度、色调和色度)，从而获得较好的彩色图像评价性能. 因为色貌指标可以代表彩色图像在HVS 感知方式下的颜色偏差，所以为了获得与主观评价更高的一致性，可以考虑选择色貌指标评价图像的色彩信息.

前文已提到多种图像特征信息，为了获得图像的质量分数，需要选择合适的特征. 本文提出了一种新的基于相似性的IQA 模型，该模型主要提取图像的色彩信息和结构信息两个部分. 结合HVS对于色彩感知和图像轮廓特征的机理，选择色貌和梯度两个指标提取上述两个特征信息，并量化得到对应的图像质量分数. 目前，彩色图像已应用于很多领域，所以色彩信息需要在图像质量评价时重点考虑. 色貌新指标(vividness 和depth)[20]考虑色度和亮度的同步变化，更符合人眼视觉感知的机理，可以体现图像质量的色彩特征变化. 除此之外，选择vividness 指标作为所提模型的权重系数，进一步突出所提模型对于色彩信息的重视. 梯度是目前常用的图像结构特征的提取算子，作为补充特征，可以完善所提模型对于图像质量的评价. 通过仿真测试，与其他典型的模型相比，所提模型具有更低的复杂度和更好的预测效果.

2 彩色图像质量评价模型

本节提出基于色貌和梯度相似(color appearance and gradient similarity， CAGS)方法来量化彩色图像的感知视觉质量. 该模型是具有通用性，对于常见的彩色和灰度图像始终表现良好的评价效果. 该模型的输入图像是两个具有相同空间分辨率的RGB 图像(X和Y)，分别称为原始图像和失真图像. 同时，它们在尺寸上匹配并且正确对齐.输出质量评分记为CAGS(X，Y)，其范围在0 到1 之间(当两幅图像完全相同时， 1 表示最佳质量评分).

该模型包含两个相似图，一个是利用CIELAB颜色空间中的色貌相似图来测量颜色失真，色貌分布图可以在像素级上表示两幅图像之间的颜色差异，与HVS 感知更加兼容[20]. 对于结构失真，由于梯度具有的优越性[12，13]，所以可以利用梯度推导出另一个相似图. 最后，基于文献[12，21]提到的权重系数方法，将上述两个相似图进行合并和池化.

2.1 色貌相似图

图1 颜色1 和2 的vividness和depth维度表征，线段长度定义对应属性[20]Fig. 1. Dime nsions of vividness， and depth， for colors 1 and 2. Line lengths define each attribute[20].

为了更好地表征HVS 感知到的图像色貌，可以将原始的RGB 图像转化为更符合人类视觉的颜色空间，使用CIELAB 色空间. 由于CIELAB色空间和孟塞尔系统之间紧密联系，同时分离成亮度(L*)和色度限制了CIELAB在实际应中描述颜色在明度和色度共变时的有效性，例如在艺术、设计、比较着色剂效果和彩色图像评估等领域. 因此，两个新的CIELAB 色貌指标被提出，即vividness 和depth，来扩展CIELAB作为色貌变量的有效性，如图1 所示[20]. 从图1 中可以发现，为了区分两个颜色，需要对两个颜色的对应参数进行比较，上述两个色貌指标除了可以表征亮度和色度特性以外，还可以作为色貌坐标，计算颜色差别. 经过色空间从RGB 到CIELAB 变换后，X的每个像素包含三个颜色分量：亮度通道L*、红绿通道a*和蓝黄通道b*，并通过(1)式和(2)式计算得到vividness图和depth图.

为了量化颜色分量中的视觉失真，使用了两个色度描述符： vividness 相似图SV和depth 相似图SD. 根据(1)式和(2)式，原始图像X和失真图像Y的局部色貌分布图由V1和D1，V2和D2表示.图2 是一个选自LIVE 数据库的例子，图2(a)为参考图像，图2(b)为高斯模糊失真后的图像. 图2(c)、图2(d)、图2(e)和图2(f)分别是对应参考图像和失真图像的V1，V2，D1和D2图像. 然后，根据SSIM相似计算的方式将被比较的两幅图像的色貌相似图定义为

其中KV和KD都是常量，增加模型的稳定性，保证分母不为0[5]. 将vividness 相似图SV和depth相似图SD通过简单幂函数相乘的方式结合，可以得到原始图像X和失真图像Y的色貌相似图SCA，如下式所示：

其中α表征两个色貌指标在色貌相似计算中的相对权重，区间是[0， 1]. 较大的α值，表示vividness在色貌相似计算中的相对权重越高. 为了说明色貌指标的有效性，图2(g)是连接vividness 相似图和depth 相似图的色貌相似图. 图2(g)中颜色较深的点，表征该区域的图像色彩差别越大. 从图2(g)中可以清楚地看到，色貌相似图可以有效表征失真图像与参考图像之间的差别.

图2 从LIVE 数据库中提取的典型图像 (a)为参考图像； (b)为高斯模糊畸变类型的失真图像； (c)和(e)分别是参考图像的Vividness 和Depth 图； (d)和(f)分别是失真图像的Vividness 和Depth 图； (g)是色貌相似图； (h)为梯度相似图Fig. 2. Typical images extracted from LIVE： (a) The reference image；(b) the distorted vision of it by Gaussian blur distortion type；(c) and (e) are the vividness and depth map of the reference image， respectively； (d) and (f) are the vividness and depth map of the distorted image； (g) the color appearance similarity map by connecting the vividness and depth similarity map； (h) the gradient similarity map.

2.2 梯度相似图

目前，有几种不同的算子可以计算图像梯度，如Prewitt 算子[22]、Sobel 算子[22]、Roberts 算子[23]和Scharr 算子[23]. 离散域梯度幅值的计算通常是基于上述算子，并利用差值表示图像函数. 图像X的垂直梯度Gy和水平梯度Gx计算方式是利用卷积得到：Gx=hx ∗X和Gy=hy ∗X(参见(6)式和(7)式)，其中hx和hy分别为水平和垂直梯度算子， *表示卷积. 则梯度的定义是G(x)=在提出的IQA 模型中，这些计算方式的执行效果是相同的. 梯度表征结构信息的原理是通过梯度算子的卷积处理图像，保留包含显著边缘区域的信息，去除平滑区域的信息.

在本文中，经过前期梯度算子的比较，发现Scharr 在本文模型中可以更大程度地提取结构信息，获得较好的结果. 因此， Scharr 算子被选择用来计算参考图像和失真图像CIELAB 色空间亮度(L*)通道的梯度(G1和G2). 通过这两个梯度，可以得到两个图像的梯度相似图SG，其计算公式如下所示：

其中参数KG为控制数值稳定性的常数. 梯度相似图(SG)在文献[24-26]中被广泛应用，并研究了它在图像失真测量中的作用. 如图2(h)所示，图中颜色较深的点，表征该区域的图像结构差别越大.因此，梯度相似图是对HVS 结构信息的一种有效表征.

2.3 CAGS 方法

根据前文提取的色貌相似和梯度相似图，在IQA 任务中定义一个新的模型—色貌和梯度相似指标(color appearance and gradient Similarity index， CAGS)，其程序代码请参见https：//github.com/AlAlien/CAGS，计算公式如下所示：

其中Ω表示空间域；Vm(Vm= max (V1，V2))用于表征两个图像的局部重要性权重.

人们普遍认为，不同的位置对HVS 图像质量的视觉感知有不同的贡献，因此，在得到最终质量分数时可以考虑视觉系统的注视点. 由于人类视觉皮层对亮度和色度很敏感，所以某个位置的vividness 值可以反映出它是一个可感知的重要点的权重大小. 由于上述原因，在提出的模型中选择色貌分布图(Vm)来描述局部区域的视觉重要性. CAGS的计算过程如图3 所示. 本文所提模型，以色貌特征为基础，结合梯度特征，表征图像质量. 色貌特征处理图像颜色信息差别，梯度特征计算图像结构信息的不同，通过颜色信息和结构信息的综合计算，得到图像的客观评分.

在本文中，KV，KD，KG均为常数，可以方便地应用于所有数据库. 此外，α为了应用于所有数据库也需要确定. 在以往的研究中，试错法是处理这类问题的一种常用方法，但在时间和消耗上都不现实. 近年来， Taguchi 等[27]实验设计方法被广泛应用于解决多参数寻优问题. 后续，将使用Taguchi方法优化模型中的相关参数.

3 实验结果

3.1 性能评价标准和参考数据库

图3 本文提出的IQA 模型CAGS 的计算过程Fig. 3. Illustration for the computational process of the proposed IQA model CAGS.

表1 IQA 数据库基本信息Table 1. Benchmark test databases for IQA.

在我们的研究中，选择4 个公共数据库进行模型验证和比较，即TID2013[28]， CSIQ[29]， LIVE[30]和IVC[31]，表1 列出了上述每个数据库的基本信息. 这4 个数据库是IQA 研究中最常用的集合，涵盖了现实应用中常见的各种失真. 它们用主观的评价来表征图像质量(MOS 或DMOS)，可以作为设计的模型进行合理的基准测试. 上述数据库中的失真图像是从一组原始图像处理得到的，这些原始图像反映了足够的颜色复杂性和边缘/纹理细节的多样性，包括人类、自然场景和人造物体的图片.

为了评估一个模型是否能够预测人类观察者的感知，将使用客观评价模型计算出的图像质量分数与观察者所评定的值进行拟合. IQA 模型常用的四个评价标准是： Spearman 秩序相关系数(Spearman rank-order correlation coefficient， SROCC)、Pearson 线性相关系数(Pearson linear correlation coefficient， PLCC)、Kendall 秩序相关系数(Kendall rank-order correlation coefficient， KROCC)和均方根误差(root mean squared error， RMSE)[2，32].

为了计算PLCC 和RMSE 指标，采用logistic回归得到与主观判断相同的量表值：

其中β1， ···，β5都是拟合参数，s代表原始IQA 分数，p(s)是回归后的IQA 分数[30].

3.2 参数优化

Taguchi 方法是Taguchi 和Konishi 共同开发的一种有效的实验设计工具[33]. 根据前文的分析，为了适用于所有数据库，KV，KD，KG和α是CAGS模型优化的主要变量参数. 根据相关研究，将各影响因素的水准数及各水准的值选取在适当的范围内，如表2 所列. 对于每个参数，都选择了3 个值.两个色貌相似度对应参数应该确定相同的水准值，这些值的选择基于文献[34]. 为了得到梯度相似图的最佳相关系数，可以在[0， 100]中设置KG[26]，因此定义水准值为10， 50 和100. 相对权重参数α，应该限制在[0， 1]，所以选择0.1， 0.5， 1 作为水准值.

选取参数和水准后，在直交表中进行组合实验，如表3 所列. 采用试错法进行实验需要34次，而利用Taguchi 方法设计实验只需进行9 次即可，大大减少了实验时间. 直交表配置为L9(34)型. 选择IVC 数据库作为优化参数的参考集，表征量化质量特征的SROCC， RMSE 值及其S/N(signal to noise)值均包含在表3 中. 较大的S/N值表征其对应的水准具有较好评价效果. 对于SROCC 来说，性能具有望大性，即数值越大表征效果越好.因此， SROCC 的S/N值(ε1)可以根据(11)式计算. 相反， RMSE 应该越少越好. 因此， RMSE 的S/N值(ε2)可以根据(12)式计算.

表2 变量参数及其控制水准Table 2. Influence factors and level setting for CAGS.

表3 采用L9(34)直交表的实验设计及IVC 数据库测试结果Table 3. Design with a L9(34) orthogonal array for IVC database.

其中qi表示与第i次试验对应的SROCC 和RMSE的值；t为每次试验的总数.

特定的参数组合对SROCC 和RMSE 两个评价标准的影响可以通过计算该特定参数的水准三次实验相应的平均S/N值来评估. 不同水准值对应的S/N值可以在图4 中清晰地识别出来，其值越高表明该水准对应的评价效果越好.

从图4 可以得到下述直观合理的结果. 例如，较小的参数C值，可以获得较大的S/N值；同时因其对应的S/N值变化幅度最大，表明其影响程度也是最大的. 对于其他3 个参数，最佳组合为A2-B2-D1. 对于参数C，由于其影响程度最大，需要将其进一步调整为更合适的值，以达到更好的拟合程度.

图4 SROCC 和RMSE 对应的不同水准的S/N 值Fig. 4. S/N ratio of different levels for SROCC and RMSE.

图5 不同KG 值对模型性能的影响Fig. 5. Performance of different KG values.

使用本文提出的CAGS 方法，通过计算四种数据库在不同KG下SROCC， PLCC 和KROCC的加权平均值(根据每个数据库中失真图像的数量分配不同的权重)和直接平均值，确定KG值，如图5 所示. 从图5 中可获得最佳的KG值，所以最终CAGS 模型的最佳参数是KV=KD= 0.02，KG= 50，α= 0.1.

4 讨论

4.1 IQA 模型的性能对比

一个理想的IQA 模型应该具有良好的性能，并且在不同类型的失真情况下具有良好的一致性. 本节将所提出的模型与其他典型的模型进行了比较，包括SSIM[5]， IW-SSIM[9]、IFC[6]， VIF[7]， MAD[10]，RFSIM[11]， FSIMc[12]和GSM[13]，以及近年提出的方法CVSS(2018)[14]和MPCC(2020)[15]. 表4 中，4 个数据库中每个评价指标对应最好的3 个结果使用粗体突出显示. 此外，根据Wang 和Li[9]， 4 个数据库的SROCC， PLCC 和KROCC 结果的加权和直接平均值也如表4 所列，以评估整体性能. 每个数据库的权值是根据数据库中包含的失真图像的数量确定的.

从表4 可以看出，我们提出的模型对所有数据库的性能都较好. 特别是， CAGS 模型在LIVE 和IVC 数据库的排名前三名. 对于TID2013， CAGS模型具有竞争性，与前三的差距很小. 对于CSIQ，CAGS 模型仅比前三模型表现稍差. 虽然MAD，CVSS 和MPCC 可以从CSIQ 中得到最好的结果，但是它们的性能对其他三个数据库不如我们提出的模型的性能. 此外， CAGS 模型还是三个指标加权和直接平均值的前三名. 综上，获得前三数量最多的模型是FSIM (16 次)， CAGS (15 次)和CVSS(14 次). 而且，对于所有数据库的SROCC 和PLCC值均大于0.8316，所以可以认为CAGS 模型既具有较高的性能，又具有较好的泛化性. 特别的，由于MPCC 模型代码未开源，相关数据有所缺失，所以表4 仅提供可查阅的MPCC 相关数据. 但与MPCC 模型性能的比较中可以发现， CAGS模型与MPCC 模型的性能差距较小，与当前最新的研究结果相比具有竞争性.

表4 对比不同IQA 模型的4 个数据库性能Table 4. Performance comparison of IQA models on four databases.

为了更好地说明所提出的IQA 模型在不同类型的失真情况下具有更好的性能，使用TID2013数据库的散点图进行比较，如图6 所示. 从图6 中可以看出，与其他模型相比， CAGS 模型的客观评分与主观评分之间存在着高度的相关性.

出现上述结果的原因主要有： 1) CAGS 模型结合HVS 特性，同时提取色度信息和结构信息，并利用权重系数表征局部重要性，所以其较其他模型具有较好的性能和泛化性； 2) 在颜色信息提取方面，考虑亮度和色度的协同变化，提高了颜色信息提取的准确性，更好的表征图像失真程度.

4.2 IQA 模型对不同失真类型的性能对比

一个稳定IQA 模型需要产生良好的性能，才能对每种失真类型进行一致的预测. 在本节中，对每种失真类型的模型性能进行了对比，结果如表5所列. 选择SROCC 作为评价指标，因为其他指标(PLCC， RMSE 和KROCC)具有类似的效果. 由于IVC 数据库中每种失真类型的失真图像的数量太少，无法用统计的方式表达结果. 因此，选取了三个主要数据库中的35 组失真图像. 对于每个数据库和每种失真类型，排名前三SROCC 值的IQA模型的结果用粗体突出显示. 进一步，对于最新MPCC 模型，与CAGS 对比TID2013 数据库PLCC的结果，如图7 所示.

对比分析表5 和图7 中不同模型对于不同失真类型的失真图像评价结果，可得： 1) CAGS 模型与其他典型IQA 模型相比具有明显的统计优势，总体效果最好. 特别是， CAGS 模型在TID2013和LIVE 数据库的排名前三的数量较多. 而对于CSIQ， CAGS 模型具有竞争性，与前三的差距很小. 获得前三数量最多的模型是CAGS (21 次)，CVSS (19 次)和FSIM (14 次). 2) 对于35 种失真类型，每个模型的评价结果各有优势，其中SROCC值大于0.95 的数量最多模型是CAGS(14 次)和CVSS(14 次). 对于上述两个模型，其最小SROCC值分别是0.3711 和0.2614，且SROCC 值小于0.5都是2 个类型(CTC 和CCS). 所以， CAGS 模型的波动程度更小，性能更加稳定，具有较好的泛化性. (3)对比CAGS 和MPCC 模型， SROCC 值排名前三次数分别是21 次和6 次； SROCC 值大于0.95 次数分别是14 次和9 次；在TID2013 数据库不同失真类型的PLCC 值，在24 种失真类型中，CAGS 在15 种失真类型中具有较高的精度； CAGS和MPCC 的最小SROCC 值分别是0.3711 和0.5396；对比结果表明CAGS 比最新的MPCC 模型具有明显的精度优势，而MPCC 具有更好的泛化性. 综上可以得出结论，与其他IQA 模型相比，CAGS 模型预测的客观评分与主观评价高度相关.

图6 基于TID2013 数据库的主观MOS 与IQA 模型计算结果拟合对比 (a) IW-SSIM； (b) IFC； (c) VIF； (d) MAD； (e) RFSIM；(f) FSIMc； (g) GSM； (h) CVSS； (i) CAGSFig. 6. Scatter plots of subjective MOS against scores calculated by IQA models’ prediction for TID2013 databases： (a) IW-SSIM；(b) IFC； (c) VIF； (d) MAD； (e) RFSIM； (f) FSIMc； (g) GSM； (h) CVSS； (i) CAGS.

图7 CAGS 与MPCC 在TID2013 数据库种不同失真类型PLCC 值对比Fig. 7. PLCC comparison of different distortion types between CAGS and MPCC on TID2013.

通过以上对于不同失真类型的图像质量评价精度的对比分析，表明CAGS 模型在不同数据库中和在不同失真类型中都具有较好的精度和泛化性.

表5 IQA 模型的不同失真类型SROCC 值对比Table 5. SROCC values of IQA models for different types of distortions.

4.3 不同模型间计算复杂性对比

IQA 模型的运行效率也是一个重要的考虑因素. 使用2.5 GHz Intel Core i5 CPU 和8 G RAM的型号电脑比较不同模型的运行时间，软件平台为MATLAB R2013b. 表6 列出了每个模型用于比较一对彩色图像的时间，分辨率为512 × 512(选自IVC 数据库). 由此表6 结果可知， CGGS 模型具有适中的计算复杂度. 具体来说，它比一些具有良好预测性能的现代IQA 模型运行得更快，如IW-SSIM， IFC， VIF 和MAD. 由于CAGS 模型仅包含色度信息和结构信息两个方面的内容，即可有效评价图像质量，同时无需循环计算，所以CAGS模型计算复杂度较低.

表6 计算复杂度对比Table 6. Time cost comparisons.

5 结论

我们提出了一种新颖且性能良好的IQA 模型，即CAGS 模型. 该模型由色貌相似图和梯度相似图组成，分别表征了颜色失真和结构失真. 其中，色貌相似图由vividness 和depth 两部分组成，这两部分是表征颜色特征的两个新指标. 同时，选取vividness 图作为权重系数，定义局部图像的重要性. 最后，根据权重关系将上述两个相似图合并得到所提模型. 模型中的主要参数通过Taguchi 方法确定，使用该方法可大大减少实验时间. 为了证明所提出的模型的优异性能，使用4 个常用的IQA 数据库共94 幅参考图像和4830 幅失真图像进行测试，与另外10 个最典型的或被近期发表的IQA 模型的结果进行了比较. 结果表明， CAGS 模型的精度PLCC 在4 给数据库中最低实现0.8455，最高可以达到0.9640，综合性能优于其他IQA 模型. 与其他计算复杂度适中的模型相比， CAGS 模型具有更好的预测精度和泛化性. 未来，我们将进一步优化模型，提升预测精度和泛化性能.