融合注意力和动态语义指导的图像描述模型*

2017-12-13 05:44周治平
计算机与生活 2017年12期
关键词:时刻语义注意力

张 威,周治平

江南大学 物联网技术应用教育部工程研究中心,江苏 无锡 214122

融合注意力和动态语义指导的图像描述模型*

张 威+,周治平

江南大学 物联网技术应用教育部工程研究中心,江苏 无锡 214122

针对当前图像语义描述生成模型对图像内目标细节部分描述不充分问题,提出了一种结合图像动态语义指导和自适应注意力机制的图像语义描述模型。该模型根据上一时刻信息预测下一时刻单词,采用自适应注意力机制选择下一时刻模型需要处理的图像区域。此外,该模型构建了图像的密集属性信息作为额外的监督信息,使得模型可以联合图像语义信息和注意力信息进行图像内容描述。在Flickr8K和Flickr30K图像集中进行了训练和测试,并且使用了不同的评估方法对所提模型进行了验证,实验结果表明所提模型性能有较大的提高,尤其与Guiding-Long Short-Term Memory模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度达到6.3%、4.0%、7.9%、3.9%、17.3%;与Soft-Attention相比,得分分别提高了1.9、2.4、3.3、1.5、2.74,提升幅度达到2.8%、5.5%、11.1%、7.5%、14.8%。

图像标注生成;图像内容描述;深度神经网络;视觉注意力;语义信息

1 引言

随着深度神经网络的兴起,图像描述生成开始引起研究人员的兴趣。图像描述生成是指使机器自动描述图像的内容。机器自动描述图像内容有着广泛的应用,尤其是在图像检索[1]和视力缺陷人群的辅助方面有着很好的应用前景。图像描述生成还处于研究的初级阶段,有许多问题亟待解决[2-6]。

Mao等人[5]提出的多模循环神经网络(multimodal recurrent neural networks,m-RNN)模型使用深度卷积神经网络读取整体图像信息,然后分别在每一步中输入到多模循环神经网络中以预测下一步产生的描述单词。Chen等人[7]在图像与基于句子的图像描述之间构建一种双向映射结构,这种结构可以根据图像描述的内容重构出图像的主要视觉特征表达。Liang等人[8]则从改变语言模型上着手设计了基于Graph-LSTM(graph long short-term memory)的基于神经网络的图像内容描述模型。Kulkarni等人[9]使用属性检测器,结合基于条件随机场的模型对图像进行了更好的描述。Kiros等人[10]使用一个强大的深度卷积神经网络和一个长短时间记忆网络,联合构建了多模注释方法。Vinyals等人[6]提出了基于卷积神经网络结合长短时间记忆网络的图像内容描述模型,该模型只需要在长短时间记忆网络的第一层输入图像的整体信息,因此大大减小了模型的复杂度。Wu等人[11]将图像特征用高等级的语义概念表达后再输入循环神经网络(recurrent neural networks,RNN),证明了图像的高等级概念在图像描述生成中有着很高的价值。

Xu等人[12]基于神经网络进行图像内容描述,首次引入图像注意力机制。但是Xu所提的基于视觉注意力机制的图像语义生成模型将图像均匀地分成14×14个图像块,并且提取每个图像块的特征作为LSTM网络的输入。但是由于是以固定值均匀分割图像,分割出来的图像块中必定会存在以下问题:

(1)图像内目标过大,分割出的图像块无法包含全部目标信息;

(2)图像内目标过小,导致分割图像块内存在多个目标信息。

Jia等人[13]提出了利用图像的语义信息进行指导的g-LSTM(guiding-long short-term memory)模型。Jia提出的g-LSTM模型存在两个严重问题。g-LSTM使用典范相关分析(canonical correlation analysis,CCA)将图像的文本特征和图像特征映射到同一个语义空间,然后利用图像检索方式检索出图像相近的描述语句作为其指导信息,导致图像的指导信息与图像内容存在差距。此外,g-LSTM模型中,语义指导信息为时不变的,在LSTM网络的每一次输入中,其指导信息均为相同内容。但事实是,在不同时刻,其指导信息是根据图像内容的变化而变化的。为解决上述问题,本文提出一种结合动态注意力和语义信息指导的图像语义生成模型。

本文组织结构如下:第2章简要介绍了基于长短时间记忆网络的图像内容描述结构;第3章详细描述了基于密集图像属性的自适应注意力机制和信息指导的图像内容描述模型;第4章对实验结果进行了展示;第5章为结论部分。

2 基于LSTM的图像内容描述

长短时间记忆网络[14](long short-term memory,LSTM)是循环神经网络的一种,其能够有效捕捉长序列中的上下文消息,并且能够有效解决循环神经网络中的梯度消失和爆炸问题。LSTM节点包含4种不同的门结构,分别为输入门、输出门、遗忘门和记忆单元。4种门的定义和更新方法如下:

其中,W表示参数矩阵;σ(·)表示sigmoid函数;h(·)表示双曲正切函数;it、ft、ot分别为LSTM网络的输入门、遗忘门、输出门;ct表示记忆单元的状态;mt表示网络的隐藏状态;xt为在时刻t输入序列的元素。

使用LSTM网络进行图像内容描述的过程是一种encoder-decoder的过程。encoder是将图像映射为向量表示的过程,而decoder为根据图像的特征,将特征转换为描述性语句的过程。模型训练过程中,训练的目的是使图像特征与描述语义句子之间的映射关系最大化,即:

其中,xi定义为第i个图像;N表示图像个数;表示一个长度为L的句子;θ为模型参数,该参数是网络自学习的。

因为每个图像的语义描述语句是由一系列单词组成,所以可以使用链式法则将式(6)分解为式(7)。然后使用长短时间记忆网络求得t+1时刻生成单词的概率分布,即:

其中,z(·)为softmax函数。

为了能将图像和其对应的语句信息输入到LSTM网络中,首先使用深度卷积神经网络(convolutional neural network,CNN)提取图像的特征,然后使用线性变换将特征映射到一个固定长度的embedding空间中。对于图像的描述语句,首先将每个单词表示为one-hot形式的向量,然后使用embedding矩阵将其映射到同一个embedding空间,最后图像特征和语句信息串联成新的序列输入到LSTM网络中。

3 本文模型

本文提出一种融合视觉注意力和动态语义指导的图像描述生成模型。该模型同时设计了基于密集图像属性的自适应注意力机制和动态语义指导方法,可以根据当前时刻读取的图像对应的高等级语义信息,生成其对应的指导信息,并且该指导信息根据图像特征的位置不同而不同。

3.1 基于密集图像属性的自适应注意力机制

Xu提出的基于视觉注意力的模型将图像均匀地分成14×14个图像块,并且提取每个图像块的CNN特征作为LSTM网络的每一步的输入。由于该方法是以固定大小均匀分割图像,分割出来的图像块会存在以下情况:(1)图像内目标过大,分割出的图像块无法包含全部目标信息;(2)图像内目标过小,导致分割图像块内存在多个目标信息。

在基于注意力机制的图像语义生成模型中,输入到LSTM网络的图像内容表示向量,其中αti为视觉内容向量ai的权重因子,其定义如下:

其中,fattn(ai,ht-1)是根据上一时刻的隐藏状态ht-1确定视觉内容向量ai的“注意力分量”的函数。

从图像内容表示向量定义中可以看出:如果某一区域被投入更多的注意力,那么该区域对生成的下一个单词有着更重要的作用。因此,被注意力机制注意到的区域的语义完整性有着很重要的作用。为解决Xu模型中存在的语义完整问题,本文所提改进模型在使用Johnson等人[15]提出的图像密集标注方法生成的密集标注块基础上构建视觉注意力机制。

定义从目标图像中生成的密集属性区域为R={r1,r2,…,rR}。在任意时刻t,本文模型的LSTM网络部分预测哪个图像区域将被注意到,并且获取其特征作为LSTM网络的输入部分。根据密集属性区域可得当前时刻融合的图像概念信息zt为:

其中,pit定义为t时刻网络注意到第i个图像密集块的概率。为了使注意力机制能够根据自适应“注意”更切合当前时刻的图像信息,本文构建的注意力机制同时包含了网络上一时刻产生的单词信息,即有:

其中,Pwwt-1为上一时刻预测产生单词;Pw为模型自学习的参数,用来将one-hot形式的wt-1转换为词袋库中的单词;zt-1为上一时刻的图像注意力“注意”区域特征;W·为模型自学习的参数矩阵。

3.2 图像动态语义指导

Jia等人[13]提出的emb-gLSTM(semantic embedding guidance LSTM)模型中,使用图像检索方法首先检索到与目标图像相似的图像语义描述,然后将该语句作为目标图像的指导信息,即有:

其中,γt=wt表示当前时刻检索到的语句生成语义指导信息。

文献[13]使用典范相关分析将图像的文本特征和图像特征映射到同一个语义空间,然后利用图像检索方式检索出图像相近的描述语句作为其指导信息γt。这样求得的γt其实质是时不变的,即在语句单词生成过程中是不变的,可能导致生成的图像描述语句与图像的真实描述存在较大差距。

为解决此问题,本节提出了一种动态时变的,并且与目标图像语义相关的语义指导模型。为解决文献[13]指导信息时不变问题,本文模型在时刻t,将上一时刻生成的单词wt-1作为当前时刻的语义指导信息。此外,为了更充分捕捉图像潜在语义信息。本文模型将当前时刻生成的注意力融合信息zt与Pwwt-1进行融合,融合后信息fu为:

由上式可以看出,融合信息既包含了上一时刻单词信息,也包含了由自适应注意力机制生成的图像内容表示向量。然后对融合信息进行softmax变换,融合后生成的新的指导信息能够根据图像内容和生成的单词进行自学习式生成动态时变的指导信息,即:

其中,Γ(·)为softmax函数。从上式中可以看出,所构建的指导信息gt不仅考虑了指导单词的动态变化,还考虑了当前时刻的图像信息的影响。

从式(12)和(15)可以看出,所提的动态语义指导相比于固定语义指导Gγ而言,其计算增加部分表现在多进行了一次矩阵内积操作和一次softmax运算。因为并未增加新的更高阶矩阵运算,所以其计算LSTM状态的时间复杂度与固定语义指导一致,均为O(λnjqkT)。其中n为训练样本个数,λ为迭代次数,j为隐藏层单元个数,参数矩阵W∈ℝq×k,输入x∈ℝT×1。

3.3 模型结构

结合基于密集图像概念的视觉注意力机制和动态语义指导信息模型,可以得到本文最终的图像语义生成模型,其LSTM结构示意图1所示。

其中,W·、G·、Z.表示参数矩阵,通过模型自学习得到;b·为随机偏置项;σ(·)表示sigmoid函数;h(·)表示双曲正切函数;it、ft、ot分别为LSTM网络的输入门、遗忘门、输出门;ct表示记忆单元的状态;mt表示网络的隐藏状态;xt为在t时刻输入序列的元素。

Fig.1 LSTM structure of this paper model图1 本文模型LSTM结构图

在LSTM结构的前向反馈计算中,假设有n个训练样本,迭代次数为λ,隐藏层单元个数为j,参数矩阵W∈ℝq×k,输入x∈ℝT×1,则该步骤时间复杂度为O(λnjqkT)。由此可见,深度神经网络的时间复杂度较高,其后果是深度神经网络需要大量的时间训练模型。

本文融合视觉注意力和动态语义指导的图像描述生成模型整体流程如图2所示。

Fig.2 Image captioning framework in this paper图2 本文图像描述生成模型框架

4 实验及结果分析

4.1 实验设置

在数据预处理部分,首先将训练图像集中图像的标注语句中所有单词全部转换为小写字母,并且根据阈值建立单词库,在本文实验中单词阈值设为5。在提取图像概念信息时,首先提取图像的密集标注区域,然后使用VGGNET-19[16]卷积神经网络模型提取图像密集概念区域的特征作为图像的表达形式。此外,同样使用VGGNET-19模型提取图像的完整特征。

模型分别在Flickr8K[17]和Flickr30K[18]两个图像集上进行实验。Flickr8K图像集中含有6 000张训练图像,1 000张测试图像,1 000张验证图像;Flickr30K图像集中含有28 000张训练图像,1 000张测试图像,1 000张验证图像。两个图像集中每张图像对应有5个人工生成的描述信息。此外,实验中使用了BLeu(bilingual evaluation understudy)评估方法,包括BLeu-1、BLeu-2、BLeu-3和BLeu-4,此外还使用了METEOR(metric for evaluation of translation with explicit ordering)评估方式对训练出的模型进行评估。以上评估方法为评估机器生成语言质量的评价方式,其数值越高代表生成的语言质量越好。

4.2 实验结果定量分析

图3为提取图像的密集标注区域示意图,从图中可以看出,提取出的矩形框内均包含着完整的图像概念信息。经过密集标注处理后的图像,很好地找出了图像中完整的概念属性,而这些信息对于准确地描述图像内容有着很好的提升。

Fig.3 Example of density labeling area图3 密集标注区域示例

本文分别与 m-RNN[5]、Google NIC[6]、Deep-Vis[4]、g-LSTM[13]、Hard-Attention[12]和 Soft-Attention[12]在Flickr8K数据集进行了对比实验。结果如图4所示。

Fig.4 Performance compared to other state-of-the-art methods on Flickr8K图4 不同模型在Flickr8K图像集上性能评价

从图4中可以看出,在Flickr8K图像集中,本文结合动态注意力和语义信息指导的图像描述生成模型相比对比模型有着最好性能。本文模型在BLeu和METEOR评估中分别取得了69.2、47.8、34.5、24.7和23.1的分数,与Google NIC相比,本文模型在BLeu评估中性能有了较大的提升。而与Deep-Vis模型相比,模型的性能提升更为明显,在B@1评分中高出11.2。

与使用检索到的类似图像信息作为图像指导信息的g-LSTM模型相比,因为所提模型使用被标注图像本身的信息作为指导,所以其效果同样有了较好的提升。与基于注意力机制的Hard-Attention和Soft-Attention相比,本文模型不仅改进了原方法中注意力区域属性不完备问题,而且也加入了指导信息,因此与其相比,本文模型性能也更加优越。

从图5中可以看出,在Flickr30K图像集中,本文结合动态注意力和语义信息指导的图像描述生成模型相比对比模型同样有着最好性能,得分为68.7、46.3、32.9、21.4、21.2。

Fig.5 Performance compared to other state-of-the-art methods on Flickr30K图5 不同模型在Flickr30K图像集上性能评价

与Google NIC相比,本文模型加入了“注意力”分量和指导信息,因此与其对比性能也均有较好提升,性能分别提高了3.4、4.0、5.2、3.1;与g-LSTM模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度达到6.3%、4.0%、7.9%、3.9%、17.3%,这是因为本文模型使用了图像本身的信息作为指导,并且增加上一时刻生成单词作为指导信息的一部分,所以其效果提升较大。与Attention模型中效果较好的Soft-Attention相比,由于改善了“注意力”区域属性信息存在的缺陷,得分分别提高了1.9、2.4、3.3、1.5、2.74,提升幅度达到2.8%、5.5%、11.1%、7.5%、14.8%。这些数据表明本文模型能够较好地解决对比文献中上文分析存在的问题。

4.3 实验结果定性分析

图6为本文模型与不同模型对同一图像生成的内容描述语句。图6中4幅图依次变得复杂。其中图6(1)和6(2)较为简单,图6(1)中目标和图6(2)中人和吉他都容易识别,从生成的描述中也可以看出,4种描述方法虽有差异,但都准确地描述了图像的内容。

图6(3)中和人有交互行为的是动物,且动物形态不易识别。从生成的描述中也可以看出,Deep-Vis描述结果最差,不仅未描述出目标之间交互行为,且目标性别也未正确描述。g-LSTM能够正确描述出人的性别和之间的交互行为,但是由于模型存在的缺点,无法正确描述出“狗”的准确信息。Soft-Attention模型准确描述了“人”与“狗”及其之间的行为,但对其所处场景描述不准确,这是因为该模型缺少额外的监督信息。本文模型不仅准确描述出目标细节信息,而且对其之间的交互行为和所处场景均有较为准确的描述。

Fig.6 Illustrations of generated caption图6 图像内容描述示例图

图6(4)信息最为复杂,不仅“鱼”的形态难以识别,而且图片内容中场景也难以进行识别和描述,因此4种描述方法描述结果都不准确。即便如此,本文模型还是准确描述了“small”和“dirt”信息。4种描述方法虽有差异,但从生成结果可以看出,本文模型对图像内容的描述更加详细。

5 结束语

为了解决当前图像描述生成模型对图像内目标细节部分描述不充分问题,本文提出了一种结合图像动态语义指导和自适应注意力机制的图像描述模型。本文模型不仅可以自适应选择注意力注意区域,而且改善了注意力区域的构成,此外模型还加上了额外的指导信息,使得模型可以联合图像语义信息和注意力信息进行图像内容描述。本文模型不仅改进了Xu等人[12]所提模型将图像均匀分割导致的图像块无法包含全部目标信息和分割图像块内存在多个目标信息的问题,还改进了Jia等人[13]所提g-LSTM模型语义指导信息时不变问题。最后在不同图像集上进行了实验,其结果验证了本文模型具有良好的性能。

[1]Zhang Hongbin,Ji Donghong,Ren Yafeng,et al.Product image sentence annotation based on multiple kernel learning[J].Journal of Frontiers of Computer Science and Technology,2015,9(11):1351-1361.

[2]Donahue J,Hendricks L A,Rohrbach M,et al.Long-term recurrent convolutional networks for visual recognition and description[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):677-691.

[3]Fang Hao,Gupta S,Iandola F,et al.From captions to visual concepts and back[C]//Proceedings of the 28th Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:1473-1482.

[4]Karpathy A,Li Feifei.Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:3128-3137.

[5]Mao Junhua,Xu Wei,Yang Yi,et al.Deep captioning with multimodal recurrent neural networks(m-RNN)[J].arXiv:1412.6632v5,2014.

[6]Vinyals O,Toshev A,Bengio S,et al.Show and tell:a neural image caption generator[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:3156-3164.

[7]Chen Xinlei,Zitnick C L.Mind's eye:a recurrent visual representation for image caption generation[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:2422-2431.

[8]Liang Xiaodan,Shen Xiaohui,Feng Jiashi,et al.Semantic object parsing with graph LSTM[C]//LNCS 9905:Proceedings of the 14th European Conference on Computer Vision,Amsterdam,Oct 11-14,2016.Berlin,Heidelberg:Springer,2016:125-143.

[9]Kulkarni G,Premraj V,Ordonez V,et al.BabyTalk:understanding and generating simple image descriptions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.

[10]Kiros R,Salakhutdinov R,Zemel R S.Unifying visualsemantic embeddings with multimodal neural language models[J].arXiv:1411.2539v1,2014.

[11]Wu Qi,Shen Chunhua,Liu Lingqiao,et al.What value do explicit high level concepts have in vision to language problems?[C]//Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,USA,Jun 26-Jul 1,2016.Washington:IEEE Computer Society,2016:203-212.

[12]Xu K,Ba J,Kiros R,et al.Show,attend and tell:neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning,Lille,France,Jul 6-11,2015.Red Hook,USA:Curran Associates,2015:2048-2057.

[13]Jia Xu,Gavves E,Fernando B,et al.Guiding the long-short term memory model for image caption generation[C]//Proceedings of the 28th International Conference on Computer Vision,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:2407-2415.

[14]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[15]Johnson J,Karpathy A,Li Feifei.DenseCap:fully convolutional localization networks for dense captioning[C]//Proceedings of the 29th Conference on Computer Vision and Pattern Recognition,Las Vegas,USA,Jun 27-30,2016.Washington:IEEE Computer Society,2016:4565-4574.

[16]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv:1409.1556v6,2014.

[17]Rashtchian C,Young P,Hodosh M,et al.Collecting image annotations using Amazon's mechanical turk[C]//Proceedings of the NAACL HLT Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk,Los Angeles,USA,Jun 6,2010.Stroudsburg,USA:ACL,2010:139-147.

[18]Plummer B A,Wang Liwei,Cervantes C M,et al.Flickr30k entities:collecting region-to-phrase correspondences for richer image-to-sentence models[C]//Proceedings of the 2015 International Conference on Computer Vision,Santiago,Chile,Dec 7-13,2015.Washington:IEEE Computer Society,2015:2641-2649.

附中文参考文献:

[1]张红斌,姬东鸿,任亚峰,等.基于多核学习的商品图像句子标注[J].计算机科学与探索,2015,9(11):1351-1361.

Image Caption Generation Model with Visual Attention and Dynamic Semantic Information Guiding*

ZHANG Wei+,ZHOU Zhiping

Engineering Research Center of Internet of Things Technology Applications of Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China

2017-04,Accepted 2017-07.

Aiming at the problem that the current image semantic generation model does not adequately describe the details of the object in the images,this paper proposes an image content description structure which combines the dynamic semantic guidance of image and the adaptive attention mechanism.In the model,according to the last-time prediction word,the attention mechanism adaptively chooses the image part which will be processed in the nexttime.In addition,the model builds dense image information as the additional monitoring information,so that makes the model description image associating the image semantic information with the attention information.The training and testing are done in Flickr8K and Flickr30K databases,the experimental results using different evaluations show that the proposed model has good performance.Especially,compared with Guiding-Long Short-Term Memory model,the score increases 4.1,1.8,2.4,0.8,3.1,up to 6.3%,4.0%,7.9%,3.9%,17.3%;Compared with Soft-Attention,the score improves 1.9,2.4,3.3,1.5,2.74,up to 2.8%,5.5%,11.1%,7.5%,14.8%.

image caption generation;image description;deep neural networks;visual attention mechanism;semantic information

+Corresponding author:E-mail:weiZhang9210@163.com

10.3778/j.issn.1673-9418.1704047

*The Fundamental Research Funds for the Central Universities of China under Grant No.JUSRP51510(中央高校基本科研业务费专项资金).

CNKI网络优先出版:2017-07-21,http://kns.cnki.net/kcms/detail/11.5602.TP.20170721.0900.002.html

ZHANG Wei,ZHOU Zhiping.Image caption generation model with visual attention and dynamic semantic information guiding.Journal of Frontiers of Computer Science and Technology,2017,11(12):2033-2040.

A

TP319

ZHANG Wei was born in 1992.He is an M.S.candidate at Jiangnan University.His research interests include image processing and machine learning.

张威(1992—),男,河南郸城人,江南大学硕士研究生,主要研究领域为图像处理,机器学习。

ZHOU Zhiping was born in 1962.He received the Ph.D.degree from East China University of Science and Technology.Now he is a professor and M.S.supervisor at Jiangnan University.His research interests include detection technology,image processing,information security,computer network and control system.

周治平(1962—),男,江苏无锡人,博士,江南大学教授、研究生导师,主要研究领域为检测技术,图像处理,信息安全,网络控制。

猜你喜欢
时刻语义注意力
让注意力“飞”回来
冬“傲”时刻
捕猎时刻
语言与语义
“扬眼”APP:让注意力“变现”
批评话语分析中态度意向的邻近化语义构建
A Beautiful Way Of Looking At Things
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
一天的时刻