基于柯西分布的深度哈希跨媒体检索①

2021-09-10 07:31李婷玉刘志刚

计算机系统应用 2021年8期

田枫,李闯,刘芳,李婷玉,张蕾,刘志刚

1(东北石油大学计算机与信息技术学院,大庆 163318)

2(中国石油天然气股份有限公司冀东油田分公司,唐山 063004)

随着互联网技术的快速发展,图像,文本,视频,音频,三维模型等多媒体数据量越来越多,多媒体信息检索[1]发展迅速,其中跨媒体检索是研究热点.跨媒体检索[2]是指任意使用一种媒体数据对其他媒体数据在语义层面进行相关性检索,实现多媒体数据在语义上的互通.其难点在于,不同媒体类型的数据表示形式不一致,导致它们之间存在异构性.而且,不同媒体类型的数据特征维度高,导致检索效率低是具有挑战性的问题.针对此问题,哈希学习将不同媒体数据从高维表示空间映射到低维汉明空间,同时将原始数据的相关性尽可能保留到汉明空间,使在同一语义下的不同媒体数据具有相似的哈希码.因此,哈希学习成为研究跨媒体检索的一类代表性方法.

目前主流的跨媒体哈希检索方法主要分为两类:一类是无监督跨媒体哈希方法和有监督跨媒体哈希方法.其无监督跨媒体哈希是指不使用语义标签信息进行学习,而是通过捕捉底层数据的结构,分布以及拓扑信息来学习哈希函数.例如媒体间哈希(Inter-Media Hashing,IMH)[3],协同矩阵分解哈希(Collective MatrixFactorization Hashing,CMFH)[4],跨媒体相似检索的潜在语义稀疏哈希(Latent Semantic Sparse Hashing for cross modal similarity search,LSSH)[5]等方法.有监督跨媒体哈希方法主要利用语义标签信息的指导学习哈希函数.如跨视角哈希(Cross View Hashing,CVH)[6],最大语义关联跨媒体检索(Semantic Correlation Maximization,SCM)[7],语义保留哈希跨媒体检索(Semantics Preserving Hashing,SePH)[8]等方法,而以上这些方法尽管利用语义标签信息减轻了不同媒体类型数据之间的异构差距,但是在哈希函数学习的过程中没有使用深层次的特征表示.深度学习利用神经网络强化媒体之间相关性学习,可以大幅度提升检索效果.深度视觉语义哈希(Deep Visual-Semantics Hashing,DVSH)[9],通过利用CNN和LSTM分别提取图像表示和文本表示,为图像和文本数据分别学习哈希函数,同时保留了模态内和模态间的相关性.深度跨模态哈希(Deep Hashing Cross Modal Retrieval,DCMH)[10]是这类方法的一个代表,它是一个端到端的框架,将图像和文本的特征学习与哈希学习统一起来,将不同模态间的相关性保留到哈希码,实现比较好的效果.再如,基于三元组的跨模态深度哈希方法[11],利用Triplet 损失函数学习图像和文本之间的相似性,增强对模态间相关性的学习.

综上所述,为了使得语义相似的媒体对象哈希码的距离较小,语义不相似的媒体对象哈希码的距离较大,使得汉明空间和语义空间具备结构性保持,进而提高模型的检索效果,本文提出基于柯西分布的深度哈希跨媒体检索方法,该方法使用基于柯西函数的损失函数,减小同类别下哈希码之间距离的同时,增加不同类别间哈希码的距离,从而提高模型的检索效果.

1 本文方法

本文方法的整体框架示意如图1所示,通过神经网络为不同媒体类型的数据学习哈希函数,再利用哈希函数将不同媒体类型的数据映射到一个公共的汉明空间,得到统一的哈希码.在公共的汉明空间内,不同于现有的基于交叉熵的关联损失函数,本文引入基于柯西分布的跨媒体损失函数,它不但能够缩小语义相似媒体对象的哈希码之间的距离,而且可以增大语义不相似的媒体对象的哈希码距离,从而提高跨媒体检索效果.

图1 整个算法的流程示意图

1.1 形式化描述

本文以图像和文本为例进行介绍,令X=表示图像集合,xi表示第i张图像,Y=表示文本集合,yj表示第j张图像所对应的文本,S表示图像文本对的相似矩阵,如果Sij=1,表示图像和文本相似,他们至少有一个共同的类,否则,Sij=0,表示图像和文本不相似,他们分别属于不同的类.

本文的主要任务是为不同媒体类型的数据学习哈希函数.设gx(x)∈{-1,1}k×n表示图像的哈希函数,gy(y)∈{-1,1}k×n表示文本的哈希函数,k表示哈希码的长度.而哈希码是通过哈希函数将数据映射成二进制码,则图像的哈希码bix=gx(x),文本的哈希码byi=gy(x).同时,本文使用汉明距离表示汉明空间内哈希码之间的相似性,距离越小哈希码相似程度越高.若Sij=1,表示哈希码与之间的距离较小,若Sij=0,表示哈希码与之间的距离较大.

1.2 网络结构

本文的网络框架主要分为两部分,一部分用于提取图像特征,另一部分用于提取文本特征.

对于图像数据,我们对ResNet-34[12]做了一些改变,网络配置如表1所示,总共有10 层,其中前8 层为卷积层,第9为全连接层,第10 层是将图像特征映射到汉明空间,而在第10 层的特征维度应该与哈希码的长度一致,每个卷积层内参数的含义如表1所示.

表1 图像神经网络配置

“kernel num*size*size”描述了关于卷积核的信息,“num”表示输出通道数,size*size 表示卷积核的大小.

“stride size*size”描述了关于卷积操作的步长,“stride”表示步长大小

“BN[13]”表示对网络层进行归一化

“max_pool:size*size”描述了下采样的大小,

“avg_pool:size*size”描述了下采样的大小.

每一个全连接层的数字.例如“4096”表示这个全连接层的输出维度,k表示哈希码长度.

对于一个图像样本xi,本文方法获得哈希码hix是通过阈值函数获得,即hix=sgn(fx(xi,θx)),θx为图像网络参数,由于sgn 函数它是一个离散的函数,不能进行反向传播,由于tanh 函数的取值范围为[-1,1],同时也能够减少图像网络输出层的值与hix的误差,因此本文在图像神经网络的输出值使用tanh 函数.

对于文本数据,我们使用词袋模型对文本数据进行预处理,再输入两层玻尔兹曼机获得句子的深度特征表示,文本神经网络配置如表2所示,前两层的激活函数使用ReLU,最后一层使用tanh 函数,同时特征长度与哈希码的长度保持一致.

表2 文本神经网路配置

对于每一个文本yj,本文方法获得的哈希码hyj是通过阈值函数获得,即hyj=sgn(fy(yj,θy)),θy为文本网络参数,与图像神经网络输出层的设置一样,由于阈值函数不能反向传播,对文本神经网络输出层的值使用tanh 函数.

1.3 基于柯西函数的相似度学习

令{xi,yj} 表示一组图像和文本数据对,sij表示xi与yj的相似关系,hix和hyj分别表示xi与yj的哈希码,由条件概率可知:

目前方法大多数使用Sigmoid 函数作为式(2)的实现,Sigmoid 函数的定义如下:

将哈希码之间的汉明距离 φij映射为0和1 之间的相似度.图2中显示了Sigmoid 函数的输出随着 φij的变化情况.如图2所示,当 φij小于k/2(k为哈希码长度)时,Sigmoid 映射后的相似度值区分能力较弱,只有当 φij接近于k/2 时,区分能力才较强.该分析结果说明,Sigmoid 函数对跨媒体检索性能影响较大.

图2 Sigmoid 函数与Cauchy 分布的输出随汉明距离φij的变化情况

如图2所示,采用Sigmoid 函数,当两个媒体对象的汉明距离较小时,其相似度区分能力很弱.但是如果采用柯西(Caughy)分布作为式(2)中σ (φij)的实现,当汉明距离小于k/2 时,两个函数的输出存在明显的差异,Caughy 分布的输出使得映射后得相似度值区分能力较强,进而可提高语义相近得媒体对象得检索性能.

综上所述,将式(4)带入式(2)并化简后,可得改进后得损失函数:

1.4 哈希码学习

根据1.2 节可知,由于图像和文本神经网络输出层使用tanh 函数,图像和文本特征向量的取值范围是[-1,1],所以哈希码存在量化误差,使用跨媒体哈希码,需要学习哈希函数,则哈希码量化损失表示为式(6):

其中,α为平衡损失函数的参数.

结合式(4),式(6),得到本文方法的目标函数为:

1.5 目标函数求解

由于目标函数是一个非凸问题,若在求解一个变量的同时固定其他变量,此时目标函数就变成凸优化问题,可以使用梯度求导解决此问题,因此本文采用一种交替迭代求解的策略获得目标函数的近似最优解,具体的求解过程如下所示.

(1)更新 θx,固定θy,B 时,利用反向传播算法学习提取图像特征的CNN 网络参数θx,对于每一个图像样本xi,梯度计算的公式为:

同时,利用反向传播算法计算∂L/∂θx.

(2)更新 θy,固定θx,B 时,还是利用反向传播算法学习提取文本特征的神经网络参数θy,对于每一个文本样本yj,梯度的计算公式为:

同时,利用反向传播算法计算∂L/∂θy.

(3)更新B,固定θx,θy时;目标函数式(7)可以重写为式(10)为:

对式(10)进行进一步整理可得如下公式:

显然,在上述公式中tr((hy)Thy)和tr(BTB)都为常数值,因此B的解为:

迭代该算法,直到满足收敛准则.

1.6 外样本扩展

对于那些不在训练集的样本点,首先将它们转化为哈希码.特别地,给一个图像的样本查询点xq,与之对应的图像哈希码bqx通式(13)得到:

同理,对于一个文本的样本查询点yq,与之对应的文本哈希码byq可由式(14)得到.

如1.1 节所述,本文方法只是以图文互相检索为例,事实上,本文可以扩展为任意两个媒体进行检索,主要区别在于获取特征的方法.

2 实验结果与分析

本文的基于柯西分布的深度哈希跨媒体检索方法在Flickr-25k[14],IAPR TC-12[15],MS_COCO[16]三个标准数据集上进行试验,并与最大语义关联哈希(SCM)[7],深度跨模态哈希方法(DCMH)[10],在图像检索文本,文本检索图像两个任务进行了性能分析.

2.1 数据集

Flickr-25k 数据集共包含25 015 张图像组成,每张图像都有几个文本标记相关联,每张图片大概有标记8 个或者9 个,数据集总共24 个类别标签,都是由人工标注的.本文选组标记单词出现次数高于20的样本作为实验数据,最终实验数据为20 015 个图像文本对.

IAPR TC-12 数据集共包含20 000 张图像以及相对应的文本句子,总共275 个类别标签,通过对数据集预处理之后,去除没有类别标签的数据,实验数据总共挑选19 998 个图像文本对.

MS COCO 数据集共包含82 785 张训练集图像和40 504 张验证集图像,同时每张图像都有5 条描述的句子,80 个类别标签,在本次实验中,去掉没有类别标签和没有文本的描述的图像,同时选取最能描述图像的句子作为文本数据,最终实验数据有122 218 个图像文本对.

2.2 实验环境的设置及评价指标

本文的实验在深度学习框架PyTorch 上进行,对于图像,使用ImageNet[17]的预训练模型初始化图像特征提取网络ResNet-34,并对输出层网络参数进行随机初始化,对于文本,使用词袋模型对文本数据进行预处理,然后输入到多层玻尔兹曼机中,获得其深度特征表示.

本文使用Rmscrop对训练网络模型,学习参数配置如下:图像网络的初始化学习率为0.0 001,文本网络的初始化学习率0.0003,学习率每训练15 次迭代后学习率变为当前值的1/2,式(7)中参数α=1,γ=10.

使用平均精度均值(Mean Average Precision,MAP)评价模型,具体地,存在一个查询样本q 及其返回结果的列表,平均准确率(Average Precision,AP)的定义为:

其中,Nq表示查询样本q在数据库中真正与之相关的样本数目,nq是查询样本q检索数据库返回的结果总数,P(m)表示前m个检索结果的平均精度,I(m)=1表示第m个检索样本与查询样本相似,否则,I(m)=0表示第m个检索样本与查询样本不相似.所有查询样本AP的平均值即为MAP.

2.3 实验结果及分析

本文方法与其他基准模型在Flickr-25k,IAPR TC-12,MSCOCO 数据集上MAP的结果如表3所示.本次实验主要有两个任务:(1) Text-Image:表示为图像检索文本,(2) Image-Text:表示为文本检索图像与当前最好的模型DCMH[10]相比,在Flickr-25k 数据集上的图像检索文本的任务,本文方法在哈希码为16 位时提高了2.02%,32 位时提高了2.11%,64 位时提高了1.57%;同时在文本检索图像时,本文方法在哈希码16 位时提高了3.01%,32 位时提高了2.98%,64 位时提高了3.41%;在IAPR TC-12 数据集上的文本检索图像时,本文方法在哈希码为16 位时提高了3.45%,在32 位时3.88%,在64 位时提高了5.32%,同时在图像检索文本的任务,本文方法在哈希码为16 位时提高了12.61%,32 位时提高了10.29%,64 位时提高了13.45%;在MSCOCO数据集上的文本检索图像时,本文方法在哈希吗16 位时提高了8.68%,32 位时提高了7.71%,64 位时提高了8.53%,同时在图像检索文本任务,本文方法在哈希码为16 位时提高了6.80%,32 位时提高了4.31%,64 位时提高了5.47%.以上的数据表明了本文方法可以学习到更有判别能力的哈希码.

表3 在Flickr-25k,IAPR TC-12,MSCOCO 数据集上的MAP 值

本文方法与DCMH[10]都是以监督式的深度学习为基础的.DCMH 方法是基于交叉熵的关联损失函数,使用Sigmoid 函数表示不同媒体对象哈希码的语义相似度,只有汉明距离在k/2 周围时,不同媒体对象哈希码的语义相似度才具有判别力,而本文方法通过引入柯西分布提出基于柯西分布的关联损失函数,使不同媒体对象哈希码的距离更小,获取更具有判别力的语义相似度,进而提升跨媒体哈希检索效果.

2.4 Caughy 参数对性能的影响

为了够验证Caughy 参数γ与汉明空间内聚集区域大小的关系,设置r=2,5,10,20,30,50,设置哈希码长度为64 位,设置哈希码聚集的区域半径为r=2,4,10,20,30,50.在Flickr-25k 数据集实验结果如图3所示,当γ={2,5,10}时,模型检索准确率呈上升趋势,当 γ={10,20,50}时,r={2,5} 时,模型的检索准确率在下降,模型在r=10时模型比较稳定.

图3 不同的汉明距离在不同γ 下的准确率

另外,本文在表4和表5分别展示了本文方法的文本检索图像和图像检索文本两个任务在Flickr-25k数据集上的一些例子.在表4和表5中,最左边的一列代表查询样本的标签,中间列代表查询样本,最右边的一列代表检索结果,哈希码的长度为64 bit.表4展示文本检索图像的例子,中间列为图像,最右边列为图像检索文本的结果,该结果通过计算查询图像的哈希码与被检索文本哈希码之间的汉明距离,再按照汉明距离从小到大按顺序排列,获得与查询图像最相似的文本.同理.表5展示图像检索像的例子,中间列为文本,最右边列为文本检索图像的结果.

表4 文本检索图像的例子

表5 图像检索文本的例子

3 结论

本文提出了一种基于柯西分布的深度哈希跨媒体检索模型,它能够产生质量较高哈希码.通过在Flickr-25k,IAPR TC-12和MSCOCO 三个数据集上与现有方法的对比,证明本文方法在跨媒体图文检索任务上的有效性.但本文方法只是图文之间的检索,下一步工作将他们应用到其他媒体类型数据,例如图像与视频相互检索,文本与视频相互检索.