图像检索研究综述

2019-02-16 22:24邵福波

山东化工 2019年15期

邵福波，黄静

(1.中国中车股份有限公司博士后科研工作站，北京 100161；2.青岛科技大学，山东青岛 266100)

随着数码设备的普及以及网络技术的飞速发展，图像在人们日常生活中的重要性日益增加，大量的图像、视频数据在医学影像、数字图书馆、工业产权、遥感系统等许多领域得到应用，从而产生了对可以有效检索多媒体数据系统的需求。而图像检索实现了对图像库的有效查询和管理，它是指从大规模图像数据库中检索出与文本查询或视觉查询相关的图像。因此，从大量的数字图像中快速准确地检索到用户所需图像的研究成为一个有意义且急需解决的课题。

1 图像检索的发展历程

自20世纪70年代，人们就开始了对图像检索的研究，当时主要是基于文本的图像检索(text-based image retrieval，TBIR)，利用文本来描述图像的特征，然后借助文本匹配进行图像的检索。目前基于文本的检索技术已经发展成熟，如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等[1]。TBIR的特点是快速精准，但存在以下缺点：首先，文本标注图像不能全面地反映图像本身的重要信息，图像的丰富内容使得文字描述显得较为匮乏；其次，海量的图像造成人工标注工作量大，需要耗费大量的人力和时间；最后，文字的标识带有很大的主观性，再加上人们对图像资源的管理要求也越来越高，虽然TBIR 已经被成功地商业化应用，例如百度搜索、谷歌搜索等，但不能满足网络上日新月异的各类图像的检索需求。

90年代以后，出现了基于内容的图像检索(content-based image retrieval，CBIR)技术，它是对图像的内容，如图像的颜色、纹理、形状等低层特征进行分析和查询的图像检索技术。通过对图像的视觉内容进行数学描述来提取图像特征，这些低层特征的数学描述能够反映图像本身的视觉内容。图像特征的相似度度量是在对图像特征提取的基础上，按照某种相似度计算方法进行相似度计算(比如欧式距离)，通过对相似度结果进行排序，检索到用户所需的图像。CBIR检索系统利用了计算机快速计算的能力，自动对图像内容进行特征提取和相似度度量，既得到了图像的视觉特征，又克服了文本标注的缺陷，大大提高了检索效果，其特点是全局特征的运算速度较快、实现简单。除此之外，检索系统还可以通过相关反馈机制动态调整低层特征的提取方式和相似度度量算法来优化检索过程，得到更加接近人类视觉感知的检索结果[2]，这种利用图像的全局特征进行图像检索的思想直到2003年都一直处于主导地位[3]。

在2004年，Lowe[4]提出了完善的尺度不变特征变换(scale-invariant feature transform，SIFT)，于是，以SIFT为代表的局部特征描述符逐渐兴起，局部特征描述符解决了全局描述符对亮度、变换、遮挡等不变性差的问题，随后出现了依赖于BoW模型的词典学习算法、FV算法、VLAD算法等[3]，利用编码的思想，在有效的局部特征的基础上采用聚类等算法来获得图像的整体表达。为了克服基于简单视觉特征的图像检索方法的不足，人们提出了基于语义的图像检索(semantic-based image retrieval，SBIR)技术，与CBIR不同的是，SBIR是基于文字的查询，包含了自然语言处理和传统的图像检索技术[5-6]。SBIR是解决“语义鸿沟”的重要方法及思路，它不仅考虑了低层视觉特征，而且考虑了图像的高层特征，如空间关系、场景和情感等方面的图像信息。近年来，随着深度学习理论的发展以及计算机性能的快速提升，出现了利用神经网络进行特征提取的图像检索算法。在2012年，Krizhevsky等[7]在 ImageNet LSVRC大赛上利用AlexNet取得了最高的准确率，随后兴起了一些基于深度学习的图像检索算法，广泛应用于图像检索、图像分类、目标识别以及图像语义分割等领域。在深度学习算法中尤其是卷积神经网络的检索效果最为突出，它利用多个卷积层和池化层的组合得到图像的视觉特征，并与反馈及分类技术相结合实现了较好的检索结果。卷积神经网络缺点是提取出来的特征向量没有记录图像的空间位置信息，以人脸识别为例，当人的五官的位置错误排列时，卷积神经网络依然会认为图像是一张正常的人脸。在 2017 年，深度学习之父Geoffrey Hinton[8]在神经网络的基础上研究出了胶囊网络，它克服了卷积神经网络的缺点，不仅记录了图像的整体信息，还记录了图像局部特征之间的位置信息，并且在手写数字识别数据集上取得了前所未有的好结果。实验结果表明，胶囊网络在图像的重构和预测，以及图像去噪等方面均取得了较好的结果。因此，从胶囊网络的特点出发，对模型的参数以及网络深度进行调整，胶囊网络将同样可以应用于图像更为复杂的图像检索领域[9]。

2 图像检索的未来研究方向

图像检索经历了从文本到视觉内容进行检索的发展历程，并且依托计算机技术，进入了深度学习的时代[8]。目前图像检索技术已经广泛地应用于日常生活以及商业化领域，但是依然存在一些不足之处，接下来将从四个方面进行介绍，并对图像检索的未来研究方向进行简要分析。

(1)更有效地利用图像深度特征。影响图像检索性能的关键是图像特征的质量，具有判别能力的信息多隐藏在深度特征中，而图像的深度特征是高维且稀疏的。为了更好地得到图像的表达，更有效地利用这些图像深度特征将成为未来研究的一个突破点。

(2)特定应用场景下的图像检索。目前存在的图像检索算法均属于通用图像检索算法，目的是对任意类型的图像均实现有效的检索。而随着多媒体技术的发展，行业内的图像资源的价值会越来越重要，因此针对特定应用场景的图像检索算法的研究会变得越来越有意义，例如基于草图的图像检索、场景检索、商品检索、图标检索、情感检索、主题检索等[10]。

(3)质量以及通用性更佳的标准数据集。目前图像检索研究中可供选择的标准数据集有多个，但都存在一些不足之处，例如图像分辨率各不相同，图像类型较单一(集中在建筑物、风景、室内物品方面)等。而图像检索是一个与实际生活密切相关的研究领域，因此，数据集中的图像应该更倾向于生活中更多的情景，构建更大、更通用、质量更高的标准数据集。

(4)客观的图像检索评价指标。目前多采用查全率和查准率用于评价检索效果，这一指标的目标是让检索系统从图像库中找到更多的相似图像，是体现在数量上的评价指标，而在设计检索系统时可能根据实际需求，以牺牲少量的相似图像为代价来实现更好地检索速度，此时查全率和查准率将不再适用于这样的检索系统。因此，应该从人的主观意图方面探索出新的评价指标[11]。

3 总结

实际生活中对图像资源信息的需求为图像检索技术的发展提供了动力，从最初的文本检索到基于内容的图像检索，同时随着人们对图像的理解逐渐深入，出现了行为检索、情感检索等。从最初的单一方向发展逐渐转变为多方向的交叉发展，例如编码技术、图像理解、图像识别，均与检索技术的发展相辅相成。并且随着计算机性能的提升，图像理论知识和深度学习算法的发展，使得图像检索在日常生活中的应用更为广泛。