基于区域的CBIR 图像检索方法研究进展

2019-03-04 10:56钟奇林左劼孙频捷
现代计算机 2019年36期
关键词:特征向量检索卷积

钟奇林,左劼,孙频捷

(1.四川大学计算机学院,成都610065;2.上海政法学院,上海200000)

0 引言

近十余年来,多媒体上图像数据快速增长,基于内容的图像检索这一研究领域吸引了广大学者们的关注。基于内容的图像检索的任务是用户用待查询图像作为检索任务输入,检索现有图像库中与待查询图像视觉语义相近的前n 张图像。该领域的关键问题在于如何抽取低维度的具有表示能力的图像特征,使得图像类内相似度高,类间相似度低。2014 年,Ali Sharif Razavian 等学者第一次提出了将预训练的卷积神经网络模型和Spatial Search 区域提取方法应用到基于内容的图像检索问题的Off the Shelf 方法[1],并在图像检索公开数据集上取得了不错的效果,该方法引起了学者们将卷积神经网络和图像区域提取方法应用于图像检索领域的关注。从2015 年至2019 年出现了更多基于区域、使用卷积神经网络进行图像检索的研究方法,并在各公开数据集上取得了优异的成果,进一步证明了提取图像区域对于图像检索问题上的有效性和研究意义。

1 相关工作

上世纪70 年代初,学者们就开始了对图像检索的研究,起初是研究基于文本的图像检索,即通过对图像库图像进行文本标注的方式以满足用户方便地检索图像库中相应主题的图像需求。直至90 年代,随着互联网上人们产生的图像数据日益增多,基于文本的图像检索所需的人工标注量太大,于是产生了基于内容的图像检索,即用户可以检索现有图像库中与用户查询图像相同场景、纹理、颜色分布的图像。基于内容的图像检索一般步骤分为四步,如图1 所示。第一步:使SIFT、CNN 方法对图像进行特征抽取;第二步:对于抽取的图像特征进行聚类,聚类中心抽象为相应的视觉词汇,形成相应的视觉词汇表;第三步:对图像抽取的特征进行索引,产生表示图像的多维特征向量;第四步:进行图像间相似度或距离的计算,返回用户排序好最为相似的检索图像列表。这四个步骤中第二、三步属于可选,主要被基于SIFT 方法的框架所使用。基于内容的图像检索根据检索速度大致分为两类:基于实值特征的检索方法和基于二值特征的检索方法,其中经典的二值特征方法有LSH[3]、DQN[4]、DHN[5]、ITQ[6]等方法。根据抽取特征采用方法大致也分为两类:基于SIFT 方法抽取图像特征的检索方法和基于卷积神经网络抽取图像特征的检索方法,基于SIFT 方法抽取图像特征的检索方法自2003 年开始研究,研究成果颇丰,其中经典的方法包括BOVW[7]、VLAD[8]、FV[9]、RootSIFT[10],基于卷积神经网络抽取图像特征的检索方法自2014 年开始研究,研究进度较快,其中经典的方法包括Off the Shelf、MSS[11]、R-MAC[12]、SiaMAC[13]、Deep Retrieval[14]。

图1 CBIR图像检索总体框架[2]

2 研究进展

2.1 基于区域的图像特征抽取与相似度计算

自2013 年后,深度学习为大多数领域的进一步研究提供了新的方向,CBIR 图像检索领域也出现了很多基于区域使用深度学习的检索方法,这些方法抽取卷积神经网络输出层作为特征的方式可分为两类:

(1)抽取全连接层输出。即抽取CNN 全连接层神经元输出作为输入图像的特征向量。

(2)抽取卷积层输出。即抽取CNN 卷积部分的卷积层神经元输出值,该输出为三阶张量,需要转换为向量,常用的转换方法公式如下:

式中Ifeat为最终的图像特征向量,Iconv( )W,H,K 为卷积层输出张量,由K 个通道,每个通道上的特征图大小为W×H。

这些方法计算图像间相似度方式也可分为两类:

(1)由图像多区域间相似度计算得到图像之间的相似度(Region Similarity to Image Similarity)。即由图像区域特征之间的相似度计算得到图像之间的相似度,然后根据图像之间的相似度对检索图像进行排序。该类方法为早期研究方法所采用,如Off the Shelf、MSS 等方法。方法公式如下:

(2)由图像区域特征得到图像特征再计算图像间相似度(Region Feature to Image Feature)。即由图像多区域的特征通过池化的方式处理得到图像的特征,然后根据图像特征向量计算得到图像之间的相似度并对图像进行排序。典型的方法有R-MAC、MR-MRAC+方法。池化方法公式如下:

式中Ifeat为图像特征向量,为图像第j 个区域特征向量,维度均为n 维,m 维图像提取的区域个数。为图像特征向量第i 维度数值。func 函数可以为max、sum 等函数,R-MAC、MR R-MAC+[15]方法采用sum 函数。

2.2 基于传统多分辨率方法提取区域

目前基于多尺度多分辨率方法提取区域的方法假定图像重要区域可能出现在不同尺度的不同位置上,这些研究以简单快捷的多分辨率、多尺度方法获取图像区域,提取区域后基于图像区域的特征得到图像之间的相似度。该类方法主要基于Spatial Search 及其改进方法提取图像区域,Spatial Search 方法对于输入图像,提取L 级不同大小的图像区域,对于第i 级,提取i× i 个有重叠、相同大小、共同覆盖输入图像的区域。Off the Shelf 方法首次采用Spatial Search 方法提取图像区域,并使用全连接层输出作为区域特征、Region Similarity to Image Similarity 方式计算图像间相似度。MSS方法对Off the Shelf 方法进行改进,将原图像左右旋转90 度后的图像加入提取的图像区域集合中。并使用卷积层输出转化为特征向量作为区域特征、在Region Similarity to Image Similarity 方式中使用与区域面积成正相关的权重。R-MAC 方法对Off the Shelf、MSS 方法进行改进,先提取图像的CNN 卷积特征Fconv,在卷积特征Fconv(W,H,K)上应用Spatial Search 方法抽取相应区域卷积层输出转化为特征向量作为区域特征,并提出Region Feature to Image Feature 方法,降低图像之间相似度计算的复杂度。MR R-MAC+方法对R-MAC 方法进行改进,将多分辨率概念引入区域提取方法中,同时对Spatial Search 改进以提取不同长宽比图像的区域。

2.3 基于Selective Search提取区域

目前基于Selective Search 提取区域的方法研究不多,Selective Search 方法于2013 年J. R. R. Uijlings 等人提出以检测图像中目标区域,该方法假设图像中各物体存在层级关系,例如勺子在杯子里而被子在桌子上,由图像分割方法产生小区域并不断融合区域产生新区域最终得到候选目标区域集合。OLDFP 方法[16]首次采用Selective Search 方法提取图像中的物体区域集合,并使用全连接层输出作为区域特征、Region Feature to Image Feature 方式获取图像特征向量,其在Region Feature to Image Feature 方式中使用max 函数进行池化。方法提取的特征具有抗图像中物体的空间位置变换、几何变换等性质。

2.4 基于RPN网络提取区域

目前基于RPN 网络提取区域的方法借助网络模型融合预测图像目标区域位置与目标区域类别两个模块于一个模型中。基于一个模型改进可以完成区域提取、区域特征提取、区域特征聚合生成图像特征多个功能。Amaia Salvador 首次提出将Faster R-CNN 网络模型应用于CBIR 图像检索的方法[17],方法针对Faster RCNN 网络模型提出了两种特征池化的策略:图像级激活层池化和区域级激活层池化。图像级激活层池化应用于初始检索阶段,区域级激活层池化应用于空间重排序阶段。方法使用Faster R-CNN 模型在图像检索数据集上进行迁移学习,便于网络抽取更具有表征能力的图像特征,并尝试只更新分类分支的全连接层权重和整个网络中除前两层卷积层后的所有网络层权重两种方式,实验对比说明后者效果明显优于前者。由于R-MAC 方法中提取的区域未能完整包含物体,Albert Gordo 等人对R-MAC 方法改进提出了Deep Retrieval 方法,方法包含学习R-MAC 方法池化机制的过程,并用RPN 网络解决了R-MAC 方法中提取区域未能完整包含物体的问题。在方法中使用三元排序损失的孪生神经网络对修改的网络模型进行参数调优,提升模型抽取的图像特征表示能力。其提出的方法中训练、特征抽取阶段如图2 所示。

图2 Deep Retrieval方法中训练、特征抽取流程[14]

2017 年Albert Gordo 等人对Deep Retrieval 方法改进[18],引入了多分辨率,建立了一个端到端图像特征抽取模型,模型在更大的Landmarks 数据集上迁移学习,效果达到了此前的state-of-art 水平。

3 各方法性能对比

基于多尺度多分辨率方法提取区域的方法基于规则提取图像区域,提取的每个区域不一定能刚好覆盖图像中物体,但该类型的方法具有易于实现、效果较好、可迁移、后续改进方法检索速度快等特点。基于Selective Search 方法提取区域的方法为使用RPN 网络作为提取区域方法前的过渡阶段,Selective Search 方法在输入图像过大时运行时间过长,但Selective Search 方法基于纹理、颜色等因素融合现有区域产生目标区域的方式更适用于自然界中拍摄的图像,其包含的物体各种各样,很难用RPN 网络迁移学习解决。基于RPN 网络提取区域的方法目前在图像检索公开数据集的检索精度达到state-of-art 水平,对于特定图像库进行迁移学习后效果显著,但是需要对图像库中图像的物体区域信息进行标注,较为耗时耗力。归纳的检索方法在各公开图像检索数据集上的检索性能对例如表1 所示。

4 结语

表1 归纳方法在公开检索数据集上精度:其中Ukbench数据集为p@4 指标、其余数据集为MAP 指标

基于区域的CBIR 图像检索方法自卷积神经网络快速发展后引领着图像检索领域的研究热潮,其研究成果颇丰。近年来,不少研究方法在传统图像检索公开数据集精度已非常高,使用查询扩展、空间重排序等策略后,效果进一步提升。图像检索开始涉足细粒度、多标签、医学等领域,如2018 年Zheng Zhang 等人对多标签图像检索提出的IDSH 二值特征学习方法[19]、2019年Narayan Hegde 等人对于医学HE 细胞染色图像提出的SMILY 方法[20]。结合新领域的图像检索将会遇到新领域未知的检索挑战,解决新领域新的挑战将成为图像检索新的研究热潮。

猜你喜欢
特征向量检索卷积
基于全卷积神经网络的猪背膘厚快速准确测定
克罗内克积的特征向量
高中数学特征值和特征向量解题策略
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
CNKI检索模式结合关键词选取在检索中的应用探讨
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
三个高阶微分方程的解法研究