基于深度学习的视频描述方法研究综述

2020-12-23 12:59赵德新

天津理工大学学报 2020年6期

关键词：解码语义编码

常志，赵德新

（天津理工大学计算机科学与工程学院天津市智能计算与软件新技术重点实验室，天津300384）

1 模型结构的发展

近几年，随着深度学习的发展，基于编码-解码的方法在计算机视觉领域和自然语言处理方面有着广泛的应用.本节对基于编码-解码框架的视频描述模型发展进行介绍.

1.1 编码-解码框架介绍

编码-解码框架最初在机器翻译的问题中得到应用，编码器和解码器使用循环神经网络（Recurrent Neural Network，RNN）分别对两种不同的语言进行建模.受到机器翻译的启发，有人认为视频描述任务也可以看作翻译问题，只不过编码阶段的输入变成了视频，而解码阶段的输出是句子描述.

基于编码-解码方法的视频描述过程分为以下两步.（1）编码阶段：用卷积神经网络（Convolutional Neural Networks，CNN）对视频的视觉特征进行提取.（2）解码阶段：将提取到的视觉特征作为解码阶段的输入，利用循环神经网络/长短期记忆网络（Long Short-Term Memory，LSTM）生成视频的文本描述.使用编码器-解码器框架来解决视频描述问题已被证明是一种有效结构.Subhashini Venugopalan[1]等人率先将编码-解码框架引入视频描述的研究当中，提出了LSTM-YT模型，图1给出了LSTM-YT模型结构的实例.

图1基于编码-解码的模型结构实例Fig.1 An example of model structure based on encodedecode

1.2 模型结构的发展过程

Subhashini Venugopalan[1]等人提出的LSTM-YM模型，是在图像描述的基础上，使用类似于图像描述的思路将CNN+LSTM的框架应用到视频描述的任务上，将视频分解为不同帧，针对每一帧使用CNN网络提取相应特征，利用池化层（mean pool）对视频不同帧的图像特征进行整合，输出整个视频特征.他们是第一个采用编码-解码结构来做视频描述的团队，开创了编码-解码结构用于视频描述的先河.

为了解决传统的CNN+LSTM框架无法处理视频时序特征的问题，Subhashini Venugopalan[2]等人又提出的S2VT模型，S2VT模型是对LSTM-YT模型的改进，之前直接将所有的视频帧进行池化融合特征，忽略了特征的顺序和时序关系，S2VT模型对每帧的特征都送到LSTM编码器，然后再送到解码器中生成文字.

Li Yao[3]等人提出的SA模型，该模型借鉴了图像描述中的注意力机制（attention），和图像描述中对不同区域做attention不同，SA模型是对视频沿时间顺序不同特征做attention，先对视频提取特征为V，在每次预测单词时使用attention机制，计算每个特征的权重，加权和代表视频作为输入来预测当前单词.

对于长时间的序列输入，随着训练时间加深，后部分LSTM结构无法记忆太多的特征信息.Yingwei[4]等人提出了多层LSTM卷积模型（HRNE模型），该模型对多层LSTM进行卷积操作，多个LSTM模块能够分散学习，在一定程度上保留特征信息.编码器利用了不同时间粒度上的信息，即在每一段的LSTM编码器上再加一个编码器来归纳和学习更长时间粒度上的特征信息.

Lorenzo Baraldi[5]等人提出针对多镜头的分层感知模型（BA-Encode模型），用来防止网络混淆两个镜头的记忆.如果网络能够意识到镜头切换边界的存在，就可以重置其内部状态，创建独立于前一个镜头的新输出.该模型对外观或动作不连续的感知会自动修改LSTM层的连接时间，将视频分解为可变长度和自适应编码的粒度.

在深度卷积神经网络上学习视频的表示仍然存在着问题.Linchao Zhu[6]等人提出多速率LSTM模型（mGRU模型），采用多编码速率的网络结构，结合门控递归单元中的读取门和更新门，实现不同编码速率之间的通信.

为了抓取到视频中的关键对象，并且生成更准确的描述，Junchao Zhang[7]等人提出了OA-BTG模型.模型创新点在于能够提取出视频的关键对象，并且给对象构建双向时序图，根据双向时序图来提取对象的特征，最后对整个视频提取的全局特征进行融合来生成描述，实验证明对结果有显著的提高.

本节介绍了基于编码-解码框架的模型结构，并且对不同的模型结构做出了分析与比较，表1给出了这7种模型结构的分析.

2 现有方法的归纳与总结

除了模型的结构在发生变化以外，还有许多应用在编码-解码框架下的方法.本节对现有的方法进行分析总结和归纳，把这些方法分为两类，分别是基于attention机制的方法和基于增强视觉语义与文本语义相似性的方法.图2展示了这些应用方法的总结和分类情况.

2.1 基于attention机制的方法

多区域候选的attention机制：大多数基于视频生成文本描述的模型直接从原始视频特征映射到文字描述，而没有关注视频的类别等高维分类特征，从而丢弃了许多潜在有价值的信息.Zanfir，Mihai[8]等人提出了多区域候选的attention机制，该机制结合了时空注意力以及基于长短时记忆的深度神经网络结构的图像分类方法.模型通过分割生成器（proposal generation）生成视频的不同片段，一个proposal对应一种物体，作为视频描述生成时的参考对象.利用获取到的语义信息，结合产生的proposal计算每一时刻描述的单词.

表1模型结构分析Tab.1 Overview of encode-decode models for video captioning

图2现有方法的总结与分类Fig.2 Summary and classification of existing methods

视频属性的语义注意力机制：Youngjae Yu[9]等人在2016年提出了语义注意力机制，其模型构建了一组针对视频帧的属性词，然后有选择地将它们与输入词进行融合，以获得更语义化的表示，并与输出词进行融合，来获得更准确的预测.他们的方法参与了2016年LSMDC的比赛，赢得了填空，选择题测试和电影检索的奖项.

基于概念单词生成权重的attention机制：Youngjae Yu[10]等人在2017年又提出了基于概念单词生成权重的attention结构，该结构以一个视频作为输入，同时生成一个概念词列表，作为语言生成模型的有用语义先验.

2.2 基于增强视频视觉语义与文本语义相似性的方法

将视觉语义及文本语义投射到共同空间：大多数现有的视频描述方法没有考虑到突出对相关特征的注意力.Zhao Guo[11]等人提出了将视觉语义及文本语义投射到共同空间的思路，作者提出以局部二维CNN特征向量和短时动态的三维CNN特征向量的动态之和作为LSTM解码器输入的注意力机制，消除视频与相应描述之间的差异，同时运用跨模态模型来加强生成的句子特征与视觉特征的一致性.

输出模块重构：Bairui Wang[12]等人提出了一种新的重构结构：编码器-解码器-重构器结构.经过这样的重构过程，可以使解码器吸收更多来自输入视频序列的更多信息，进一步增强视频序列和描述之间的关系.实验结果表明，重构器最小化了原始视频特征和重构视频特征之间的差异，进一步缩小了自然语言描述和视频内容之间的差别，增强了encodedecode模型性能，并显著提高视频描述的准确性.

引入记忆模块：为了解决从视觉序列空间到语言空间的有效映射的难题，Junbo Wang[13]等人提出了一种用于描述视频的多模式记忆模型（M3），该模型构建了一个视觉和文本的共享内存，对长期的视觉特征与文本关系进行建模，并进一步指导对所描述目标的attention机制.此外，作者还增加了一个外部内存，通过与具有多个读写操作的视频和语句交互来存储和检索视觉和文本信息.

图3多模态融合的模型结构Fig.3 The model structure of multimodal fusion

融合多模态特征：多模态融合的方法也是增强视觉语义与文本语义相似性的有效方法.Qin Jin[14]等人在2016年首次提出了多模态融合的方法，该方法基本用上了所有能用到的模态特征，例如：图像特征、视频特征、背景音特征、语音特征和类别特征.为了结合各类特征，该模型使用单层的无激活函数的全连接层作为编码器，单层单向长短期记忆网络作为解码器.图3给出了多模态融合方法的模型结构.实验结果表明，五种特征融合的模型具有最好的综合性能.

本节对现有的应用在编码-解码框架下的方法进行了总结与分类，由于方法的复杂性，没能对方法做出详尽的论述，方法的细节实现可以参考引用的论文.通过归纳与分类，可以对现有的方法产生更清晰的认识.

3 数据集与评测标准

数据集和评测标准对视频描述的方法研究起着至关重要的推动作用.本节对比较有影响力的数据集和评测标准进行介绍.

3.1 数据集

当前比较常用的视频描述数据集包括Montreal Video Annotation Dataset（M-VAD）[15]、MPII Movie Description Corpus（MPII-MD）[16]、Microsoft Research Video Description Corpus（MSVD）[17]、MSR Video to Text（MSR-VTT）[18]，模型LSTM-YT[1]、S2VT[2]、SA[3]等都选用了其中的数据集进行实验.除了以上经典的数据集外，本节还介绍了一个新型的中英文数据集VATEX[19].图4展示了VATEX数据集的一个实例.

M-VAD数据集是一个大规模的基于视频服务器（Descriptive Video Service，DVS）的视频描述数据集.该数据集由49000个视频片段组成，从92部电影中截取所得.每个视频片段都有一句对应的描述.其训练集、验证集和测试集分别含有39 000、5 000、5 000个视频片段.

MPII-MD数据集是由德国马普研究所采集的电影描述集，该数据集包含105部好莱坞电影，例如：哈利波特系列电影和美国甜心等.从每个电影中共截取了68 375个视频片段，对应描述从电影脚本中提取，每个电影片段仅对应一个描述句.

MSVD数据集是由Mechanical Turk收集的Youtube视频集合，数据集包含1 970个视频片段，每个视频片段大约在10～25 s之间，其中标注了多种不同语言的描述语句.整个数据集大约有80 000个视频描述语句对，涉及超过218种不同的动作和241种不同的物体，主题包括体育运动，动物，音乐与日常活动等.

MSR-VTT数据集是一个规模较大的数据集，它包含10 000个网络视频片段，总时长41.2小时，包括20种不同类别的视频，例如：体育、音乐、游戏和电视节目等，每个视频片段有20个描述.在这个数据集中，6 513个视频片段用于训练任务，497个视频片段用于验证任务，2 990个视频片段用于测试任务.

图4 VATEX数据集实例Fig.4 An example of VATEX dataset

以上是一些比较经典且常用的数据集，接下来介绍一个新型大规模多语视频描述数据集VATEX，该数据集包含超过41250个视频和82.5万中英文视频描述，每个视频具备10个英文描述和10个中文描述（其中后五句是中英文互译版本），分别来自20个人类标注者.VATEX包含大量中英文描述，支持多语言视频描述的研究.表2给出了视频描述数据集的统计信息.

表2视频描述数据集的统计信息Tab.2 Summarization of video captioning datasets

3.2 评测标准

目前常用的视频描述质量评测方法有BLEU（Bilingual Evaluation Understudy）[20]、METEOR（Metric for Evaluation of Translation with Explicit Ordering）[21]、ROUGE（Recall-Oriented Understudy of Gisting Evaluation）[22]、CIDEr（Consensus-based Image Description Evaluation）[23].在实验过程中，一般会综合考虑多种评价方法的指标值来对模型性能作一个全面的评估.

BLEU是最简单和最常用的视频描述评测指标，最初应用在评价机器翻译的质量上，通过对候选翻译语句与参考文本中的相匹配的n元组（n-gram）的相关性进行计算.但是这个指标不考虑语言语法上的准确性以及同义词或相似表达，精度会受到影响，因此，是一个快速而且不差的评测标准.

METEOR是基于单精度的加权调和平均数和单字召回率的方法，和BLEU评分的主要区别是考虑了整个语料库上的准确率和召回率，解决了一些BLEU标准固有的缺陷，是一个精确度比较高的评测标准.

ROUGE是一种自动摘要的评价方法，通过将系统生成的自动摘要与人工标注的标准摘要相对比，来评价摘要的质量.ROUGE评分与BLEU评分相似，但其区别在于ROUGE度量是基于人类注释语句总数中的n元组出现次数来度量的，而BLEU评分是通过考虑生成语句总数中的出现次数来计算的.

CIDEr是基于共识的评测标准，是通过度量待评测语句与人工描述语句之间的一致性来评价.其方法是对每个n-gram进行（TF-IDF）权重计算，计算待评测语句与人工描述语句的余弦相似度来衡量.由于数据集的多样性，导致各个模型使用的数据集都大不相同，表3展示了模型在MSVD数据集和MVAD上的得分情况，可以看出模型的得分在一步一步提升，即为模型的发展过程.

表3模型在MSVD和M-VAD数据集上的表现Tab.3 Models performance on MSVD and M-VAD datasets

4 关键问题与研究难点

综上所述，视频描述的方法研究已经取得了不错的成绩，但是在视频的特征提取，视频的时序特征和视频的多语言文本描述方面，还有很大的改进空间.本节对视频描述的关键问题和研究难点进行介绍.

4.1 视频的特征提取

视频描述是计算机视觉领域与自然语言处理结合的新任务，目前特征提取主要采用2D+3D+Attention的方法，虽然这种方法对视频中动作信息的提取较为敏感，但对其他内容的提取却容易被忽略.视频特征的提取是视频描述的重要基础，直接决定视频描述的性能.下面对特征提取的难点以及多特征融合的问题介绍如下.

1）对象的不确定性和多样性.视频往往包含一些比静态图像更丰富的语义信息，每帧图像上的任何视觉元素或物体属性以及人物关系、场景特性都具有不确定性以及多样性.

2）多模态特征的提取与融合.不同类型的特征适用于不同类型的视频，尽管Qin Jin[14]等人提出了多模态融合的方案，但是简单地综合各类特征的方法缺乏扩展性和鲁棒性，而且在理论上也面临着两个基本问题：（1）哪些模态特征对视频融合最为有益.（2）如何选择性地融合最优的模态特征.

4.2 视频的时序特征

时序信息是图像描述所不具有的特征，也是视频描述的一大挑战.光流特征可以反映出视频的运动特性，获取时序信息，但由于计算量庞大，在工业界实用性并不强.只有构建出鲁棒的时序性模型，描述质量才会出现一次质的飞跃，现将时序信息的难点总结如下.

1）行为边界问题.时序行为信息的边界很多时候并不是很明确，一个行为活动什么时候算开始，什么时候算结束通常无法给出一个准确的边界.

2）时间跨度问题.时序行为活动的时间跨度变化可能非常大.比如在MSVD数据集中，最短的行为活动只有1 s左右，最长的行为活动则超过了200 s.巨大的时间跨度，使检测时序动作面临巨大的挑战.

4.3 视频的多语言文本描述

现有的视频描述方法通常采用深度学习技术的方法，当训练样本非常少时，这种方法的效果就会大打折扣.在现实当中，视频描述需要给出多种语言的文字来满足不同语言用户的需求.目前视频描述英文训练样本较多，其他语言的训练样本较少，对视频样本进行多个语言的文本标注将会花费大量的人力和时间.统一的多语言模型不仅能够更高效地生成视频描述，其性能还优于单语言模型.如何实现视频的多语言文本描述是视频描述中未来的重要方向.

5 结论

本论文介绍了基于深度学习的视频描述的模型结构和应用方法，阐述了用于视频描述的不同数据集以及用于检测视频描述模型性能的各种评估标准，同时，本篇论文还提出了视频描述领域的关键问题和研究难点.

另外，视频的文本生成，不仅需要对视频特征进行理解，还要对语言进行建模.当前的研究方法主要是端到端的深度学习的研究方法，并未真正深入到语言与视觉的本质.如何将视觉与语言的深度融合是提升视频描述性能的关键，也是未来的发展方向.