基于层级注意力的故事性图像描述生成的研究

2021-03-10 09:20苏静

电子技术与软件工程 2021年20期

苏静

（广东工业大学广东省广州市 510006）

随着深度学习技术的发展，图像描述的研究引起了许多研究者们的关注。图像描述任务主要由图像特征提取的视觉模型和文本生成的语言模型组成。两个模型之间的有效关联对生成的文本质量起着决定性作用，所以，研究者们的工作目标就是找到图像特征和文本语义之间的有效关联方法。在日常生活中，序列图像描述比单图像描述更具有挑战性，本文的研究就是基于序列图像的故事性文本描述，即输入多张图像信息，生成具有相关联的几句话来描述这几张图像。近几年序列图像描述的研究方法有很多，2016年，Huang[1]等人使用端到端的机制解决故事描述任务，2017年Yu[2]等人通过首先选择一组图像中最具代表性的图像，然后通过这张图片生成故事描述。这些方法都是直接对多个图像进行单图像描述，然后再把描述结果合并在一起，仅考虑了词与词之间的关系，但没有很好的考虑多个句子之间的关系和关注图像细节特征。为了解决以上问题，我们提出了层级注意力模型，第一层使用attention-LSTM解决句子之间的关系，第二层使用attention-LSTM 解决图像和词之间的关联。实验结果表明，我们的方法在BLEU[3]和CIREr[4]评价指标上优于大多数方法，生成的描述句子间关联性强，连贯性好。

1 模型架构

1.1 模型概述

我们的层级注意力模型使用分层处理的思想，逐层解决句间依赖关系和单词间关系，模型架构图如图1所示，从CNN 出来的实线代表一组图像的特征，虚线代表单张图像的特征。我们采用端到端架构，使用CNN 模型作为编码器提取图像特征，多层attention-LSTM 作为解码器生成句子描述。为了增强句子和单词的语义信息，让生成的句子更具有表达力，我们使用Bert 模型提取句向量和词向量，他们将分别初始化模型中的句向量和词向量矩阵。在解码器中，第一层attention-LSTM 通过句级关注机制使得每个句子语义和图像全局特征能对应上，隐藏层的初始化是一组图像的特征，使得生成的每个句子特征不仅能关注全局图像信息，还能有针对性的对单个图像进行学习。第二层attention-LSTM 根据第一层输出的句子特征来生成每个单词，该层加入了词级注意力机制，使得图像的关键区域能够获得更高的权重，从而保证生成的单词能够描述图像中主要的细节特征信息。

图1：模型架构图

1.2 图像特征提取

我们采用VGG16 作为图像特征提取网络，该网络图像特征提取性能较好，对不同数据集适应能力强，提取出来的图像特征被应用于编码器三个地方，分别是句子级LSTM、单词级LSTM 和词级注意力机制。句子级LSTM 的隐藏层输入采用全局图像特征（序列图像），词级LSTM 采用局部图像特征（单图像特征），词级注意力机制采用每个图像的关注细节特征。

1.3 文本特征提取

我们采用Bert 词嵌入模型来提取文本特征。对比于其他方法，Bert 得到的词嵌入特征融入了更多语法、词法以及语义信息，能够让单词在不同语境下具有不同的词嵌入特征。我们的模型通过Bert获取到的词向量和句向量作为文本嵌入模块的初始化权重，模型中的词向量和句向量会随着网络的学习不断进行改变。

1.4 层级注意力模块

1.5 损失函数

2 实验

2.1 数据集和实验环境

我们的实验使用VIST 中的SIS 数据集，该数据集是由微软团队Huang 等人发布的，SIS 中每5 个图像作为一个故事，一个故事包括与这五张图像对应的五个句子。实验中，我们选择15 作为句子的固定长度，句子长度超过15 的故事数据被舍弃，最终得到22367 个故事作为训练集，2300 个故事作为验证集，2300 个故事作为测试集，18000 个单词作为字典数据。VIST 数据集如图2所示。

图2：VIST 数据集

2.2 对比实验

我们采用BLEU and CIDEr 作为我们模型的评价指标。我们对比实验的结果展示在表1 中，实验数据表明，我们的方法在BLEU和CIRDr 评价指标上均比其他方法要好。我们选择了三个基线方法来进行对比，其中，第一个比较的方法是Vinyals[5]等人在2015年提出的“enc- dec“模型，作者采用CNN-RNN 端到端架构，该模型能够很好地理解图像的语义信息，但是该模型没有应用关注机制，没有针对图像中的重点区域去描述。第二个方法是Xu[6]等人提出的“enc-attn -dec”，该方法使用CNN 作为编码器，LSTM 作为解码器，此外，该方法还应用了注意力机制，使得生成的单词能够关注到图像中的重点区域，让模型生成的描述更精细。这里的两个方法是由单图像描述方法对应的改进版。第三个方法2019年 Wang[7]等人提出的”HP”方法，该方法不仅对图像进行编码，还对图像的主题场景进行编码，使得句子有统一的主题信息。这些方法各有利弊，但没有较好的考虑生成句子之间的连贯性和图像中的重点区域是否能都被有效描述。为了解决以上不足，我们设计了层级关注机模型，第一层句子级关注能够让模型学习到序列图像的统一主题信息，以及句子之间的关联，第二层单词级关注能够让模型对聚焦于图像的重点区域，生成的单词与图像中的对象较为关联，最终使得模型能对一组图像进行有效描述，更贴近人类的理解。实验数据表明，我们的模型在BLEU 和CIDEr 评价指标中的分数超过了其他三个模型，说明我们的方法对于序列图像描述是行之有效的。

表1：不同评价指标的实验结果

3 总结

本文介绍了序列图像描述的现状和存在的问题，深入研究了序列图像故事性描述的生成方案，提出了基于层次注意力的故事性图像描述生成模型，详细介绍了我们模型的细节，并通过对比实验表明了我们方法的有效性，在VIST 数据集上取得了较好的结果，为序列图像描述领域的研究提供了一种新的方法。