人脸特征点定位的自适应窗回归方法

2019-08-01 01:48魏嘉旺王肖袁玉波

计算机应用 2019年5期

魏嘉旺王肖袁玉波

摘要：随着计算机视觉技术在海洋水产领域中的应用不断加深，鱼类图像检索在渔业资源调查、鱼类行为学分析等方面发挥了巨大的作用。通过研究发现，鱼类图像的背景信息会对鱼类图像检索造成极大干扰，而且鱼类图像中颜色、纹理、形状等特征由于空间位置信息的缺乏而使检索的准确率不高。为解决以上问题，提出了一种新的基于颜色四通道及空间金字塔的鱼类图像检索算法。首先，提取视觉显著性图将鱼类图像的前景和背景分开，从而减少图像背景对检索的干扰;其次，为了使图像特征包含一定的空间位置信息，利用空间金字塔的理论对图像进行分割，在此基础上，将图像转为HSVG四通道图并提取SURF特征;;最后，得到检索结果。为验证所提算法的有效性，在QUT_fish_data数据集和DLOU_fish_data数据集上对算法的查全率、查准率与经典的HSVG算法和显著性分块算法进行对比：在兩个数据集上查准率分别比传统的HSVG算法最多分别提高12%和5%，查全率最多分别提高7%和22%;比传统的显著性分块算法查准率最多分别提高15%和5%，查全率最多分别提高36%和22%;从而证明所提算法是有效的，能有效提升鱼类图像的检索效果。

关键词：鱼类图像检索;颜色通道;空间金字塔;图像特征

中图分类号：TP751

文献标志码：A

Abstract： With the development of the application of computer vision in the field of marine fisheries， fish image retrieval has played a huge role in fishery resource survey and fish behavior analysis. It is found that the background information of fish images can greatly interfere with fish image retrieval， and the fish image retrieval results only using color， texture， shape and other characteristics of fish images are not accurate due to the lack of spatial position information. To solve the above problems， a novel fish image retrieval algorithm based on HSVG （Hue， Saturation， Value， Gray） fourchannel and spatial pyramid was proposed. Firstly， a visual saliency map was extracted to separate the foreground and the background， thereby reducing the interference of the image background on the retrieval. Then， in order to contain certain spatial position information， the fish image was converted into an HSVG fourchannel map， and on this basis， the theory of spatial pyramid was used to segment the image and extract the SURF （Speed Up Robust Feature）. Finally， the search results were obtained. In order to verify the effectiveness of the proposed algorithm， the recall and precision of the algorithm were compared with classic HSVG algorithm and saliency block algorithm on QUT_fish_data dataset and DLOU_fish_data dataset. Compared with traditional HSVG algorithm， the precision on two datasets is increased at most by 12% and 5%， and the recall is increased at most by 7% and 22%， respectively. Compared with saliency block algorithm， the precision on two datasets is increased at most by 15% and 5%， and the recall is increased at most by 36% and 22%， respectively. So， the proposed algorithm is effective and can improve the retrieval results significantly.

英文关键词Key words： fish image retrieval; color channel; spatial pyramid; image feature

0 引言

鱼类图像检索技术为鱼类知识科普、鱼类资源调查及种群分析、鱼病诊断等提供了新思路和新方法，具有重要的研究意义。鱼类图像有前景背景复杂难以区分而且难以识别等问题，同时鱼类图像具有丰富的颜色、纹理、形状、位置等特征，这些特征可以为鱼类图像检索提供有价值的信息。因此，鱼类图像检索既要考虑有效利用颜色、纹理、形状、位置等特征又要考虑避免背景对检索效果产生过大的影响。

为解决这个难题，许多专家学者对此进行深入的研究。Bosch等[1]提出一种基于HSV（Hue， Saturation， Value）三通道的尺度不变特性变换（ScaleInvariant Feature Transform， SIFT）特征提取算法，该算法对图像中的像素对应的三个通道都提取SIFT特征并组成128×3的特征描述子（标准的SIFT特征为128维特征向量），然后利用提取到的SIFT特征[2]实现对不同场景图像的分类，但SIFT算法本身的计算复杂度较高，其特征提取的计算成本很大，同时可能会在SIFT描述子中混入不必要的噪声。Chuang等[3]提出SHPC（Systematic Hierarchical Partial Classification）算法以实现对鱼类的识别，通过一种逐层带偏袒策略的分類实现对不同种类鱼在空间位置中的识别，虽然实现了空间位置的识别但是效率和精度上有一定的局限性，对自然场景中的鱼种不能很好地识别其空间位置。黄仁等[4]提出的基于颜色空间特征的图像检索能够很好地解决这一问题，该算法采用HSV颜色模型，在HSV空间中采用非等间隔量化的方式对图像中的像素逐个量化，计算并归一化图像的颜色直方图和每类颜色的中心位置从而得到图像的颜色空间特征。但是该算法是在传统的颜色直方图的基础上加入相应的空间位置信息，可以避免不同图像具有相同的颜色直方图的情况，该方法是针对全局特征进行检索的，其检索精度不理想。胡二雷等[5]提出一种基于深度学习的图像检索系统，该算法采用Alexnet神经网络，前5个卷积层提取的是图像的低级可视化特征，后3层提取的是图像的高级特征。其检索库为20万张图片，检索出来前10张的平均相似度在80%以上，精度不够高，而且需要的训练时间较长。

经过进一步研究发现，采用鱼类图像的其中一种特征进行匹配识别往往不够全面[6]，因而要综合考虑鱼类图像的各种特征，采用多特征合并的方式进行鱼类图像的检索来提高检索效果[7-8]。传统的多特征鱼类图像检索采用多特征向量合并方式将颜色特征和纹理特征合并后进行鱼类图像检索，这种多特征合并方式对表达多种特征的能力较弱，合并后的多特征向量无法有效地将鱼类的颜色特征和纹理特征进行融合，从而影响鱼类图像检索算法的性能。其次目前的图像检索算法大多只能对背景简单的图像进行检索，对自然场景下的图像检索还没有较多的研究，针对鱼类图像以及自然场景下的鱼类图像检索则相对更少，局限于单一场景，很难将鱼类图像检索技术应用到真实的自然场景即海洋渔业领域中，其检索的结果误差较大。

基于以上分析，本文提出一种基于HSVG（Hue， Saturation， Value， Gray）四通道及空间金字塔的鱼类图像显著区域检索算法以提高鱼类图像检索的准确性和鲁棒性。首先，根据鱼类图像的特点提取鱼类图像的视觉显著性图，并根据显著性图自适应的将鱼类图像的前景和背景有效地分开，从而避免图像背景对检索的干扰; 然后，根据空间金字塔的理论对图像进行分块，在此基础上，将图像转为HSVG四通道图和SURF（Speed Up Robust Feature）的提取; 最后，进行最终的匹配并得到检索结果。

1.2 图像的预处理

在进行图像检索过程中，首先需要进行实验数据的收集及整理，由于收集图像的工具和渠道不同可能导致收集到的图像差异很大，因此需要对图像进行预处理。图像预处理的目的是最大限度地简化数据并且统一数据格式。预处理过程一般有归一化、去噪、显著性提取以及图像增强等。

本文所使用的数据来源由三部分组成：实际拍摄、互联网下载及由澳大利亚昆士兰大学提供。由于不同渠道得到的数据其大小不尽相同，这对于特征的提取匹配会有很大的影响。为方便后续工作，将所有的数据归一化到相同的分辨率大小。此外，收集到的鱼类图像中有可能有单通道图像，即灰度图，此时需要将这些图像去除掉，以避免影响后续的实验。同时由于图像的不同获取方式，使得图像中可能夹杂不同种类的噪声，比如高斯噪声、椒盐噪声、均匀噪声等，本文主要针对椒盐噪声和高斯噪声进行了处理，针对椒盐噪声和高斯噪声，采取了中值滤波的方法进行处理。此外，鱼类图像的背景信息会对鱼类图像检索会产生极大的干扰，许多非鱼类的特征信息被统计到鱼类特征中，由此会影响最终的检索效果。为了解决这个问题，比较理想的方法就是将图像中的鱼类与其背景分离开来。由此提出使用视觉显著性图来解决这个问题。图像的显著性区域是最能引起人类视觉注意力的区域，因此显著性区域在绝大多数情况下为图像中的前景区域，或者说是图像中的感兴趣区，也是图像检索的目标区域。而非显著性区域一般情况下为背景，也是在特征匹配过程中需要去除的区域。一般情况下，鱼类图像本身前后背景颜色差异大，轮廓和纹理比较清晰，由此利用鱼类图像中的颜色差异性和模式差异性来提取图像的显著性图[7]：

S（px）=P（px）·C（px）·G（px）（1）

其中：px是图像块，S（px）是图像块的显著性值，P（px）是图像块的模式差异性，C（px）是图像块的颜色差异性，G（px）是高斯权重公式。根据鱼类图像场景的均匀分布，但又存在一定波动性的特性，给出了判断鱼类目标或背景信息的阈值计算方法，如式（2）所示：

pm=（∑mi=1∑nj=1Sm×n）/n （2）

其中S为m*n大小的显著图。利用式（2）所计算得到的阈值，将显著图二值化后对二值图像进行面积滤波从而避免图像背景中的非鱼类显著性区域对前景造成的干扰。

1.3 空间位置特征

一般情况下，按指定块数或指定长宽比对图像进行分块，分块是基于空间金字塔匹配原理进行的。空间金字塔通常是指将图像经过下采样处理后得到不同分辨率的图像组合，空间金字塔模型（Spatial Pyramid Model， SPM）[9]是一种利用空间金字塔进行图像匹配、识别、分类的算法[10]。

空间金字塔分块是在不同分辨率的小块上统计图像特征点分布，从而获取图像的空间信息。金字塔多分辨率生成较快，且占用存储空间少。由于鱼类图像检索中鱼类目标基本位于图像的中央主体部分，因而采用空间金字塔模型将鱼类图像分为4块、6块、8块及10块进行实验（如图2），通过大量的实验发现将鱼类图像分为3块所得到的结果更为高效并且实验结果较好。

1.4 HSVG四通道颜色特征

鱼类图像本身包含着丰富的颜色信息，这些颜色往往在色调、纯度和饱和度上各有差异，鱼类图像的花纹在单一的H、S或V通道中更为明显，这种颜色通道能够从三个方面来描述颜色的特性，在对颜色表述上能够相互补充，更有效地提取出鱼类图像所蕴藏在颜色差异中的结构信息，进而在一定程度上反映颜色信息; 同时图像中除了具有丰富的颜色信息之外，还会因为光照的影响在鱼类表面产生强弱程度不等的反射或产生明暗相间的花纹和轮廓，因此在HSV三通道外引入灰度图作为第四通道提取SURF特征。本文综合考虑色差和光照这两种因素的影响，提出基于HSV颜色模型和灰度Gray的四通道模型即HSVG四通道的颜色空间模型。

1.5 纹理特征

SURF是图像检索中基于内容（ContentBased Image Retrieval， CBIR）的一种图像特征提取方法[14]，常用的CBIR特征有颜色、纹理等，相较于这些特征，SURF能够更加细致地表示图像的局部信息。在鱼类图像检索中，鱼的局部差异往往比较明显而全局差异不是特别大，此外由于拍摄角度等问题，图像中的鱼类即使是同一条鱼，它的整体形态也会发生变化，在这种情况下全局特征的不变性会较差。相比之下，SURF属于局部特征因而能够更好地反映出图像中的局部差异，并且具有更强的特征不变性，因此该算法使用SURF特征能够更好地对鱼类图像进行检索。

2 鱼类图像的特征提取和匹配

2.1 特征提取

为提高利用SURF特征提取和匹配的准确度，采用预处理技术得到鱼类图像显著图来提取SURF特征，这些特征集中于鱼类的关键区域。相对于直接从原始图像中提取的SURF特征，利用显著图提取到的SURF特征更加稀疏而精确，同时能够从鱼类图像中获取更为丰富的有效信息。在此基础上，将鱼类图像利用空间金字塔技术分为鱼头、鱼身、鱼尾三部分，然后分别提取每一部分的HSVG四个通道下的SURF特征，进而分别得到鱼头、鱼身、鱼尾三个部分的HSVG四个颜色通道的不同的SURF特征，使得所提特征包含位置信息，避免在特征描述子中混入不必要的噪声信息[15]，能更好地表现鱼类的形态和局部特征;同时分四个通道提取的特征包含鱼类图像由色差和光照影响的轮廓特征和纹理特征，从而进一步提高不同种类鱼之间的区分度。这种方式能够通过通道互补使得图像具有更完整的表述能力，这为精确检索提供有效的帮助。在此基础上采用多核CPU并行处理的方式对四通道下鱼头、鱼身和鱼尾的SURF特征进行计算，从而降低检索的时间消耗。

2.2 特征匹配

圖像特征匹配是指将图像特征进行相似度计算对图像的相似程度作出评价。特征匹配是图像检索模型的一个重要的环节，在提取出图像的特定特征之后进行相似度的匹配。图像相似度匹配方法有很多种，不同的匹配方法会影响检索图与图库图像之间的相似度，即图像特征点之间匹配的相似程度。

多通道下的图像检索能够带来比单通道检索更为丰富的特征，但是多通道的SURF特征会面临多种特征匹配方式的选择问题，不同特征匹配方式会影响提取到的特征向量的保存方式，同时其特征利用效率以及匹配精度都有差异。经过归纳整理，发现多通道下的SURF特征匹配方法主要分为两类，一类匹配方法为将不同通道中的SURF特征进行加权后变为列向量然后进行特征匹配，另外一类为将特征按通道分别进行特征匹配，然后将匹配后的特征得分进行加权得到最终匹配得分。第一类特征匹配方式能够降低特征本身的复杂度从而加快特征匹配的过程，特征匹配的效率较高。第二类特征匹配方式能够更为有效地利用多通道SURF互补性，因而从检索精度上分析，该方法的匹配结果精度要高于第一类特征匹配方法。但是该方法的特征匹配效率要低于第一类特征匹配方法。本文综合考虑图像检索的精度和效率问题，对不同的特征提取和特征匹配的耗时进行研究分析后发现，在鱼类图像检索的整个过程中，耗时主要集中在图像的特征提取环节，相比较之下图像的特征匹配的总体耗时比重不大，鱼类图像检索的整体效率依然可以保持基本不变。此外由于是采用独立匹配的方式，可以对各部分进行并行处理，从而保证算法的时间复杂度不变，因此本文选取第二类图像特征匹配方式对从多通道中提取的鱼类图像SURF特征进行特征的提取和匹配。

常用的图像特征匹配方式有距离度量和相关系数度量两类度量方式，其中距离度量方式能够体现特征向量之间的数值差异，相关系数度量方式能够体现出特征向量之间相关关系密切程度[16]。在HSVG四通道及空间金字塔下的SURF特征具有一定的差异性和互补性，其特征差异往往不体现在特征的数值差异上而是主要体现在特征向量的相位差异上。所以，采用相关系数的度量方式更加符合HSVG四通道和空间金字塔下SURF特征的特征匹配特性。本文首先将提取到的鱼类图像特征向量进行归一化处理，经过归一化的特征向量之间其差异性相对被压缩，因此采用相关系数度量方式对其进行相关系数的计算。

本文首先提取四通道下每个通道中的鱼头、鱼身、鱼尾三个部分的SURF特征，按照特征所属通道的不同空间位置单独保存。在特征匹配过程中，为了能够继续保持各个颜色通道和各个空间位置的特征独立性，本课题组只针对检索图和图库图像的相同通道下的相同空间位置的SURF特征进行特征匹配。其匹配公式如下：

3 实验结果与分析

本文在Windows7系统下使用Matlab2012b[17]进行图像检索仿真实验。实验环境的硬件配置为：Intell Xeon CPU E5250 v2 2.60GHz 32核处理器，32GB内存。

本文采用的数据集为澳大利亚昆士兰大学提供的QUT_fish_data鱼类图像数据集，该图像库包含4405张海洋鱼类静态图像，每张图像标有对应的种类标签。该图像库是目前已知的最大规模鱼类图像数据标定集。在此数据集上可以客观有效地评价图像检索算法的鲁棒性和准确率。此外本文还采用大连海洋大学图像组采集的鱼类场景图像数据集DLOU_fish_data，该图像库包含200张鱼类图像数据，每类鱼类图像包含不同的鱼类图像场景，采用此图像库能够在一定程度上评价鱼类图像检索算法对复杂场景下的鱼类图像的检索能力。

评价方法本文采用准确率和召回率对所提算法的有效性进行评价[18]。其中准确率反映的是图像检索的精度，召回率是图像检索算法对同类信息检索查找全面程度的评价指标。此外，综合考虑检索算法的查准和查全能力，采用准确率召回率（PrecisionRecall， PR）曲线评价图像检索算法：

P=TPTP+FP（7）

R=TPTP+FN（8）

其中：TP（True Positive）是检索到的图像中包含有与检索图像相似的同类图的数量，FP（False Positive）为检索到的图像中非同类图像的数量，FN（False Negative）是图库中全部同类图中未检索到的同类图数量。

为了验证本文所提的基于HSVG四通道及空间金字塔的鱼类图像检索算法的有效性和鲁棒性，采用基于HSVG四通道的鱼类图像检索算法（以下简称HSVG算法）[7]和基于显著性及空间金字塔的鱼类图像检索算法（以下简称显著性分块算法）[8]作基准，在QUT_fish_data数据集和DLOU_fish_data数据集上进行仿真实验，并采用PR曲线对图像检索算法性能进行评价。

由于以上两种鱼类图像检索对比算法都有一定的局限性，不能很好地将其应用到自然场景中，因此提出基于HSVG四通道及空间金字塔的鱼类图像检索算法。该算法将HSVG算法和显著性分块算法结合起来，既采用基于HSVG四通道鱼类图像检索算法中颜色特征和纹理特征的差异性和互补性;同时采用基于显著性及空间金字塔的鱼类图像检索算法中的显著性提取和空间金字塔技术，避免背景区域误检到的噪声导致的特征被误提取，采用空间金字塔技术将空间位置信息融入到提取的特征中，避免特征的误匹配。

为了验证该算法的有效性，首先在QUT_fish_data数据集上进行测试，测试集同样为数据集中100次随机挑选的200幅不同种类的鱼类图像进行100次实验，检索结果如表1所示。

4 结语

本文提出基于HSVG四通道及空间金字塔的鱼类图像检索算法。该算法先利用图像显著性提取算法去除背景对鱼的干扰;再利用空间金字塔模型将鱼类图像分为鱼头、鱼身、鱼尾三部分;然后对鱼类图像按HSVG四个通道分别提取SURF特征，使得提取到的特征融合形状特征、空间位置特征、颜色特征和纹理特征，利用所提取到的SURF特征按通道進行匹配求取检索图与图库图像之间的相关度;最后经过加权求得图像之间的相似度，按相似度由高到低顺序输出检索结果，提高检索准确度，增强检索算法的鲁棒性。为验证所提算法的有效性，在QUT_fish_data数据集和DLOU_fish_data数据集上对算法的查全率、查准率与一些经典的鱼类图像检索算法进行了对比，在两个数据集上查准率分别比传统的HSVG算法最多分别提高12%和5%，查全率最多分别提高7%和22%，从而证明本文算法是有效的，可有效提升鱼类图像的检索效果。

随着深度学习的火热发展，未来的工作应逐步扩充数据集，设计网络结构来提取到更为有效的鱼类图像特征，以增强鱼类图像检索效果。

致谢感谢国家科技资源共享服务平台——国家海洋科学数据中心大连分中心（http：//odc.dlou.edu.cn/）提供数据支撑。

参考文献（References）

[1] BOSCH A， ZISSERMAN A， MUNOZ X. Scene classification using a hybrid generative/discriminative approach[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2007， 30（4）：712-727.

[2] LIAO K， LIU G， HUI Y. An improvement to the SIFT descriptor for image representation and matching[J]. Pattern Recognition Letters， 2013， 34（11）：1211-1220.

[3] CHUANG M C， HWANG J N， KUO F F， et al. Recognizing live fish species by hierarchical partial classification based on the exponential benefit[C]// Proceedings of the 2014 IEEE International Conference on Image Processing. Piscataway， NJ： IEEE， 2014：5232-5236.

[4] 黄仁，胡敏.综合颜色空间特征和纹理特征的图像检索[J].计算机科学，2014，41（s1）：118-121.（HUANG R， HU M. Contentbased image retrieval using color position and texture fused features[J]. Computer Science， 2014， 41（s1）：118-121.）

[5] 胡二雷，冯瑞.基于深度学习的图像检索系统[J].计算机系统应用， 2017， 26（3）：8-19.（HU E L， FENG R. Image retrieval system based on deep learning[J]. Computer Systems & Applications， 2017， 26（3）：8-19.）

[6] GUO T， MOUSAVI H S， MONGA V. Deep learning based image superresolution with coupled backpropagation[C]// Proceedings of the 2016 IEEE Global Conference on Signal and Information Processing. Piscataway， NJ： IEEE， 2017：237-241.

[7] 张美玲，吴俊峰，于红，等. 一种基于HSVGSURF特征的鱼类图像检索算法[J]. 小型微型计算机系统， 2018， 39（9）： 2085-2089.（ZHANG M L，WU J F，YU H， et al. Fish image retrieval algorithm based on HSVG four channel SURF feature[J]. Journal of Chinese Computer Systems， 2018， 39（9）： 2085-2089.）

[8] ZHANG M L， WU J F， Y H， et al. A novel fish image retrieval method based on saliency spatial pyramid[C]// Proceedings of the 2017 14th International Symposium on Pervasive Systems， Algorithms and Networks & 2017 International Conference on Frontier of Computer Science and Technology & 2017 3rd International Symposium of Creative Computing. Washington， DC： IEEE Computer Society， 2017： 312-317.

[9] 程少光，何毕，布树辉，等.基于超像素空间金字塔模型的场景识别研究[J].计算机工程与应用，2014， 50（7）：139-143.（CHENG S G， HE B， BU S H， et al. Sence recognition research based on SSPM[J]. Computer Engineering and Applications， 2014，50（7）：139-143.）

[10] 高常鑫，桑农.整合局部特征和滤波器特征的空间金字塔匹配模型[J]. 电子学报，2011，39（9）：2034-2038.（GAO C X， SANG N. Unifying local features and filterbank features in the spatial pyramid matching model[J]. Acta Electronica Sinica，2011，39（9）：2034-2038.）

[11] YANG J， YU K， GONG Y， et al. Linear spatial pyramid matching using sparse coding for image classification[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2009： 1794-1801.

[12] 陳鑫元，李筠，杨海马，等.自适应阈值图像二值化及形态学处理的FPGA实现[J].电子测量技术，2016， 39（7）：67-71.（CHEN X Y，LI Y，YANG H M， et al. Adaptive threshold binarization and morphological image processing based on FPGA[J]. Electronic Measurement Technology， 2016， 39（7）：67-71.）

[13] WU L S， CHEN J X， WEI L I. Niblackbased binaryzation algorithm for palm vein image[J]. Communications Technology， 2010， 43（1）：112-114.

[14] BAY H， TUYTELAARS T， GOOL L V. SURF： Speeded Up Robust Features[C]// Proceedings of the 9th European Conference on Computer Vision. Berlin： Springer， 2006： 404-417.

[15] PYATYKH S， HESSER J， ZHENG L. Image noise level estimation by principal component analysis[J]. IEEE Transactions on Image Processing， 2013， 22（2）：687-699.

[16] SALIMIKHORSHIDI G， SMITH S M， KELTNER J R， et al. Metaanalysis of neuroimaging data： a comparison of imagebased and coordinatebased pooling of studies[J]. Neuroimage， 2009， 45（3）：10-23.

[17] MURTHY A V， KARAM L J. A MATLABbased framework for image and video quality evaluation[C]// Proceedings of the 2010 2nd International Workshop on Quality of Multimedia Experience. Piscataway， NJ： IEEE， 2010：242-247.

[18] SINGHA M， HEMACHANDRAN K. Content based image retrieval using color and texture[J]. Signal & Image Processing， 2012， 3（1）：271-273.

计算机应用2019年5期

计算机应用的其它文章: 基于容差关系的多粒度粗糙集中近似集动态更新方法; 基于多特定决策类的不完备决策系统正域约简; 融合社交网络和图像内容的兴趣点推荐; 基于多维信任和联合矩阵分解的社会化推荐方法; 稀疏限制的增量式鲁棒非负矩阵分解及其应用; 基于局部区域方法的微表情识别