多模态深度学习综述

2020-11-10 07:10孙影影贾振堂朱昊宇
计算机工程与应用 2020年21期
关键词:模态图像融合

孙影影,贾振堂,朱昊宇

上海电力大学 电子与信息工程学院,上海 200090

1 引言

每一种信息的来源都可以称为一种模态,模态是指人接受信息的方式,人有听觉、视觉、嗅觉、触觉等多种感知方式来认识事物,当某一种模态信息缺失时,能否准确地认知事物是人们关注的重点。由于多媒体数据通常是多种信息的传递媒介,例如一段视频中会同时含有文字信息、视觉信息和听觉信息,多模态学习已成为多媒体内容分析与理解的主要手段。随着深度学习的发展,诸如图像、文本、声音、视频等多媒体数据的急剧增长,催生出对图像文本对、图像声音对等多模态问题的研究。多模态学习由来自不同模态的信息组成,一般都是包含两个或两个以上的模态,旨在联合表示不同模态的数据,捕捉不同模态之间的内在关联,实现各个模态的信息相互转化,即使在某些模态缺失的情况下能够填充在传递过程中缺少的信息。多模态深度学习给机器学习带来了巨大的机遇与挑战,文献[1]将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各问题进行子分类和论述,同时列举了为解决各问题产生的神经网络模型。

通过多模态学习能够处理和关联来自多种模式信息的模型,对于许多实际问题,深度多模态学习常常为涉及多模式数据的问题提供了很多改进的性能。例如,手势识别旨在理解人体的动态手势,是人机交互领域极其重要的交互方式之一,由于视频样本中手势的短期、中期以及长期时空特征性,文献[2]提出了一种基于浅三维稠密网的多模态手势识别方法,所提出的方法在手势识别公开数据集大规模离散手势数据集上进行了评估,并取得了目前最好效果。多模态学习区别于传统机器学习方法的特点可体现在表1中分析[3]。

表1 多模态学习与传统机器学习方法比较

多模态研究支持计算机视觉领域的许多关键应用,如图像字幕、跨模态检索。由于许多多模态数据具有显著的弱配对特性,即模态之间没有样本到样本的对应关系,而是一种模态中的样本类别对应另一种模态中的样本类别。这为跨模式的检索学习提供了巨大的挑战[4]。本文的目的是针对深度多模态学习的几个应用方面进行的介绍,进而指出多模态学习的本质问题。由于近些年来在主要会议和期刊上发表此类文章的数量的不断增加,更加坚信了多模态深度学习的广大应用前景。如图1为深度多模态学习论文的发表数量,涉及到计算机科学、工程方面的文章。

图1 多模态学习论文的发表情况

从图1的增长趋势可以看出,近年来有关多模态学习的论文数量增长较快,并有持续增长的趋势。重要的原因是多模态涉及到的领域的普遍化,例如,在图像配准问题的处理上,由于图像灰度特性的非线性变化,如何对多模态图像有效测量,就需要依靠多模态深度学习来分析图像特征[5];医疗上综合反映研究对象的生物学信息仍然是一种迫切的需求和重大的挑战,多模态核磁共振图像联合分析为揭开脑结构变化和脑功能变化的关系提供了可能,另外这种联合分析提供的全面医学影像信息对探索脑工作原理具有重要作用[6];在航天领域研究太阳射电频谱时,由于频率的多样性,需要将不同频率信道捕获的太阳射电频谱看作不同的模态,学习这些不同频率信道的太阳射电频谱也是多模态学习的范畴[7]。多模态深度学习作为机器学习的最新发展,其研究成果在军事、农业、医学、安防等诸多场景都具有重要的应用前景。作为一种能让机器拥有更多人类智能特性的学习方法,多模态深度学习定能在之后的一个时期获得长足的发展。

2 应用发展过程

1956 年,心理学家Frank Rosenblatt 首次提出了可以模拟人类感知能力的机器,并称之为感知机(Perceptron),感知机是有单层计算单元的神经网络。由于单层感知机的局限性,后来有了多层感知机,但由于多层感知机对隐藏层权值的训练存在问题,有很长一段时期神经网络的发展进入了瓶颈[8]。最经典的发展就是反向传播神经网络(Back Propagation algorithm,BP),这是一种监督学习算法,为以后的多模态深度学习打下了坚实的基础。2006年,Hinton提出多层人工神经网络模型有很强的学习能力,深度学习模型可以学习到原始数据更本质的表示,且对于深度神经网络很难训练到最优问题,提出了逐层训练的方法[9]。

多模态学习作为深度学习的一种,最早始于1970年,经历了几个发展阶段,在2010年后全面步入深度学习阶段。最早的多模态研究应用之一是视听语音识别,这一点在McGurk 效应中首次得到证明,大多数受试者都将带有语音ba 和视觉ga 视为da,这是由于在语音感知过程中听觉和视觉之间的相互作用而产生的结果[10],这些结果促使许多研究人员将他们的研究领域扩展到视觉信息上。于是在进行声音识别过程中,研究人员开始联合视频和声音两个模态,结果比在原来的只有单个声音模态输入的系统上实现了较大的飞跃,多模态机器学习开始表现出其优秀的学习能力。

另一种重要的多模态应用是对多媒体数据内容的检索,从1990 年开始,随着信息领域的发展,多媒体数据所占的比例越来越大,网络信息不再只是单纯的文字信息,图形图像、视频、声音等多媒体信息在因特网中所占比重越来越大[11]。但多媒体数据的检索技术还远远跟不上多媒体数据的迅速产生,这在一定程度上影响了多媒体信息检索技术的应用和推广。于是研究人员开始关注对多媒体内容的检索,基于内容的检索已经成为多媒体领域研究的热点。

第三类应用是在21世纪初围绕着新兴的多模式交互领域建立起来的,目的是了解人类的多模态行为。在计算机视觉领域,单项生物特征识别技术已经不能满足客户的要求了,多模态的解决办法被业内专家提出,并成为众多计算机视觉公司逐步去落实的事情[12]。例如虹膜识别、识别距离与人脸识别技术同时工作,两种技术实现了真正意义上的融合。由于在自动人脸检测、面部标志检测和面部表情方面取得了很大的进步,情感识别和情感计算领域在2010年初开始蓬勃发展。

最具代表性的应用程序之一是图像描述,它类似于给定一幅图片来获取它的文字表述。图像描述自动生成是一个融合计算机视觉、自然语言处理和机器学习的综合性问题,图像描述自动生成的主要挑战是如何评估预测描述的质量,该任务不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系[13]。例如,通过摄像头获取到的图像或视频,结合图像描述以及语音生成技术,可以获得对眼前事物的准确描述。

3 多模态学习的应用研究

多模态学习依据模态判别的标准不同可以有多种多样的应用。例如在太阳射电爆发分类的多模式深度学习一文中,把从不同频率信道捕获的太阳射电频谱看作不同的模态,学习这些不同频率信道的太阳射电频谱也是多模态学习的范畴[7]。多模式机器学习旨在建立能够从多种模式中处理和关联信息的模型。由于数据的异质性,不同模态之间存在鸿沟,阻碍了信息间的直接交互,多模态机器学习的研究给研究者带来了一些独特的挑战。本文主要介绍多模态学习的几个主要应用研究领域,仅关注三种模式:自然语言、视觉信号以及语音信号。多模态学习的应用涉及许多方面,目前比较热门的研究方向包括计算机视觉领域,医疗领域以及自动驾驶汽车等。

3.1 视听语音识别

多模态研究中应用较成熟的是视听语音识别,一种融合了语音和视觉模式的深度多模学习方法。在视听语音识别中,说话人的录音和视频都可以在培训时使用。针对视听双通道的语音识别,文献[14]建立了基于隐马尔科夫(HMM)的视听融合模型,并对模型进行训练和识别,实现了视听双通道的语音识别系统。文献[15]最先联合声音和视频对两个独立的网络分别进行音频和视觉特征的训练,利用随机梯度下降算法对网络进行优化。并引入了双线性DNN 模型,如图2 所示。融合发生在最后一个隐藏层,可以通过双线性DNN 模型捕捉模态中的非线性特征之间的相关性。然后保持固定的特征空间,而在这个融合空间中训练一个深的或浅的Softmax网络,直到达到目标。

图2 双线性DNN

结果显示使用双线性DNN模型对两种模态进行训练比单一模态达到的效果好,语音识别准确度提高,但针对噪声影响较大的语音效果不好。又由于噪声因素不可避免,文献[16]以噪声环境下的自动语音识别为研究背景,建立视听信息决策层的多模态融合模型,在隐马尔科夫(HMM)统计模型的基础上,通过多模态融合处理来降低或消除音频噪声,通过HMM的训练步骤估计模型的参数,由关联处理最终进行融合判决,仿真结果表明应用多模态视听信息融合能有效克服噪声干扰,提高识别准确度。

3.2 图文情感分析

多模态的研究可用于学习多模态数据的情感分析,可以帮助更好地理解对某些事件的态度或观点,情感分析中的多模态数据处理一直是一项具有挑战性的任务。首先,与传统的单一情态情感分析相比,多模态情感分析中包含着不同的表现形式,因此,情感分析方法应该有效地弥合不同模式之间的差距。

传统的情感分析方法往往不能同时考虑图片影响、特殊符号信息以及上下文信息,而导致情感分析方法准确率不高的问题,文献[17]提出了一种基于转移变量的图文融合微博情感分析方法,通过处理句子的情感从属和主题从属,引入图片因素为情感浓度来影响文本的情感分布,最后计算微博的整体情感倾向。实验结果表明,与传统情感分析模型相比,本模型测试数据集的准确率更高。由于微博文本具有长度受限、写作不规范、风格随意、主题发散等特点,针对这个问题,文献[18]提出了一种基于依存关系的情感词识别方法,通过对情感词相关依存关系的统计和分析,构建情感词识别模版以识别微博语料中的网络情感词,再利用基于点互信息量方法计算情感词的倾向性,从而构建网络情感词典。

为了挖掘不同模式下的互补信息和非冗余信息,文献[19]提出了基于视觉关注模型、语义关注模型和多模态关注模型三种模型的后期融合方案,即融合到一个多模态情感分析的整体框架中,运用了一种结合视觉注意机制的长短期记忆网络(Long Short-Term Memory,LSTM),用于捕捉图像与文本之间的关联,以达到正确获取社会图像情感的目的,模型结构如图3。实验在Getty image、Twitter和Flickr三个大型数据集上对该模型的性能进行了一系列实验,结果表明,提出的方法在三个数据集上的性能优于目前最新的方法。所提出的融合模型有效地将不同的数据模式结合在一起,从而实现较理想的情感分类性能。

图3 图文情感识别模型

3.3 协同标注

多模态的研究可用于多媒体数据标注,多媒体数据由文本、图像、视频、音频、时间序列等多种形式组成。有时模态数据可能会存在缺乏标注数据、样本含大量噪声以及数据收集质量不可靠等问题,可通过不同模态间的知识迁移提高质量较差模态的性能。文献[19]提出一种基于注意力机制的LSTM 网络,利用语义一致性,捕捉视频的显著结构,探索多模态表示之间的关系来完成视频标注,但针对复杂视频信息效果不好;文献[20]在利用注意力机制的基础上,基于语言知识选择性地关注视觉属性的标注方法,该方法将神经网络中的隐藏状态映射到潜在嵌入空间,从而获得语言与视觉属性的对应关系;后来文献[21]提出一种包含属性的LSTM和RNN网络来发现图像视觉属性与语义表达之间的复杂关系,还关注了句子和视频的对应关系。文献[22]提出了一种跨模态知识迁移网络,利用源域和目标域的模式作为桥梁,将知识同时迁移到两种模态,而层共享相关子网络保留固有的跨模态语义相关性以进一步适应跨模式检索任务。事实上,不同模态的多媒体内容从各自的形式描述给定的标签,并相互补充,探索异类数据分析和多媒体注释的先进技术变得至关重要。基于这一思想,文献[23]提出了一种新的异构多媒体协同标注多模态相关学习方法,即统一空间学习,将异构媒体数据投影到一个统一的空间中,所提出的投影空间如图4所示。

图4 统一空间映射模型

将多媒体标注任务转化为半监督学习框架,学习不同媒体类型的不同投影矩阵。对于一个新的媒体样本,可以很容易地将其嵌入到统一的空间中,然后将其相邻的相关标签分配给该样本[24]。通过对图像、音频片段、视频和三维模型数据集的实验结果表明,不同的媒体内容相互协调,共同为给定的语义标签提供了一个更为互补的轮廓,可以学习到异构媒体数据的更有效表示[25]。

3.4 匹配和分类

多模态的研究可学习图像和文本之间的共享表示特征,用于多模态的匹配和分类,匹配即特征嵌入问题,分类即预测类标签。与目前仅关注多模式匹配或分类的方法不同,文献[23]提出了一个统一的网络来共同学习图像和文本之间的多模态匹配和分类。所提出的多模态匹配和分类网络模型涉及视觉和语言之间,它可以无缝集成匹配和分类组件。其中实现两个组件的融合是关键,这就涉及到多模态融合问题。多模态信息的融合能获得更全面的特征,提高模型鲁棒性,并且保证模型在某些模态缺失时仍能有效工作[26]。

针对多模态融合问题,包括网络结构上的改进以及算法的优化两大方面:在网络结构方面,常用的是带注意力机制的递归神经网络,再利用注意力机制将文本与图像特征融合[27]。但是这种网络结构往往不能高度集中地表示数据,于是有了一种新型端到端的深度融合卷积神经网络,将二维与三维数据输入网络进行特征提取和融合,进而获得高度集中的特征表示,可应用于人脸表情识别[28]。在算法优化方面:新型高效的融合方法是哈希算法,它将弱监督方式提取出的多模态特征统一整合为二进制编码,从而使用核函数配合SVM 进行分类[29]。文献[23]不仅提出了一个统一的网络结构,还提出了一种结合匹配和分类损失的多级训练算法,它可以使匹配和分类组件在一个统一的模型中更加兼容。通过四个众所周知的基实验表明,所提出的网络模型具有较好的鲁棒性,优于匹配或分类单独作用时的效果,对与匹配或分类相关的多模态任务有很好的推广应用前景。

3.5 对齐表示学习

多模态研究还可用于不同模态之间的对齐表示,可在不同模式之间传递所学的知识。对齐旨在挖掘不同模态之间的对应关系,从而促使学习到的多模态表示更加精确,并且也为多媒体检索提供更细致的检索线索[30]。在多模态的对齐学习中,常用最大边距学习方式结合局部对齐和全局对齐方法学习共同嵌入表示空间[29]。在跨模态检索方法中,模态与模态之间存在一定的数据相关性,基于判别性字典学习的跨模态检索方法可以增强来自不同类别的模态内数据的辨别能力,运用判别性字典来解释每种模态,通过标签对齐方法进一步增强跨模态数据的区分性和相关性[31]。

对齐的跨模态表示将对计算机视觉产生很大的影响,因为它们是机器感知理解模式之间关系的基本组成部分。在实际学习词、句子、图像以及图像区域的特征对齐表示时,提出了层次化多模态LSTM 的密集视觉-语义嵌入方法,可以有效地学习词、句子、图像以及图像区域的对齐表示[32]。文献[33]设计了一个跨模态网络模型,它可以接受图像、声音或句子作为输入,并产生一个跨模式共享的通用表示。通过实验表明,深度跨模态表示法比以往的聚类CCA 和线性回归都有很大的优势。因为所提出的网络能够学习高层次的特性,更容易跨模式对齐。但是当模态之间不匹配或者匹配程度低时,不容易学习它们的对齐表示,就需要设计一种深层跨模态对齐网络多次进行训练学习以尽可能消除模态间的不匹配问题[34]。

表示学习的目的是将被研究对象中所蕴含的语义信息抽象为实值向量,研究对象包括结构化数据以及图像、视频、语音、文本等非结构化数据[30]。最初基于模态相关性约束,出现了一种面向多模态表达的紧致哈希编码方法,该方法首先基于模态内和模态间的相关性约束,提出了一种新的深度学习模型生成哈希编码[35]。但是由于数据不是连续的,会造成部分模态数据的缺失问题,又发展了一种基于自适应相似结构正则化的部分多模态稀疏编码模型,能很好地解决数据稀疏造成的模态缺失问题[36]。

多模态学习的研究起源于人们日常生活中的许多实际问题,目的是帮助人们解决复杂度更高的问题。多模态学习应用可以很广泛,涉及计算机视觉领域、医疗领域、天文学探测方面以及自动驾驶汽车等[37]。从以上多模态深度学习的几个应用领域看,深度多模式学习的研究已取得较大的成果,有巨大的发展潜力。从最近几年的多模态应用方面的文章看,多模态学习有极好的发展前景,应用实际生活中具有重要的现实意义。越来越多的文章致力于从图像、声音、视频和文本等热门方向着手来寻求各个模态之间的互联想,逐渐形成一个以神经网络为基础的完善的理论体系结构,通过一系列基准实验证明了该结构的可实现性[38]。第4章将针对多模态学习的具体实现细节加以说明。

4 实现细节

4.1 多模态本质问题

从多模态在第3章的几个典型应用可以发现,来自不同模态的信息要想达到较好的实验效果,它们区分单一模态的关键在于如何构建一个共享表示空间,该共享表示空间可以融合来自两个或多个模态的特征,从而可以找出各个模态之间的对应关系[39]。研究多模态学习的目的就是通过建立共享空间表示,学习不同模态之间的关系,最后实现模态之间的互联想。这样,同一现象的多个模态信息可以相互补充,当某一模态数据缺失时,多模态学习仍能达到很好的效果。

多模态学习有重要的现实意义,但是目前针对多模态学习的研究仍然十分有限。对于多模态学习,比较热门的研究方向包括多模态的表示学习、不同模态之间的相互转化、多模态融合、多模态对齐和共同学习等等。尽管多模态应用广泛,但其本质问题是在不同模态之间实现某种关联。下面主要介绍建立一个共享表示空间的两个关键过程:多模态融合和多模态对齐,并对多模态学习中常用的数据集进行介绍。

4.2 多模态融合

在多模态学习的早期就已经开始了对多模态融合的研究,这是多模态学习研究最多的方面之一,它的工作可以追溯到25 年前[40]。首先,多模态融合从技术上讲,是将来自多种模态的信息集成在一起的概念,目的是通过分类方法来预测一个类。例如在医学领域,医生就诊更多根据图像在局部区域高层语义特征(如是否病变、病变类型等)的差异,粗粒度地判断图像的相似程度,针对现有的医学图像特征表达忽略了医学图像特有的高层语义特征,致使医学图像聚类效果不佳的问题,文献[41]提出了一种多模态医学图像聚类方法,就融合了医学图像纹理特征和特有形态学特征,并通过实验验证了该方法的有效性。可见多种模态的信息相互融合可以实现信息补充,提升预测结果的精度,提高预测模型的鲁棒性,使最后的结果更可靠。

一般的融合分为特征融合和决策融合,特征融合指网络一起提取的表达融合,之后接一个分类层;决策融合指模型组合,融合网络计算的分类得分。在此主要介绍特征融合,特征融合即输入两个模态的特征向量,输出融合后的向量,最常用的方法是拼接、按位乘、按位加。特征融合能有效提高某些算法的准确度,例如,针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,文献[42]提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法,实验结果表明在KAIST 数据集上的检测效果超过了目前该数据集上的最佳模型。从特征融合的结构上分,可分为早期融合、后期融合,后来又有了中间融合[43]。三种融合结构的特点如表2所示。

表2 融合结构特点

早期融合主要用于分类,在进行特征提取后立即集成,通常只是简单连接它们的表示,广泛出现在多模态学习任务中;晚期融合用于回归,一般在每个模块之后再执行集成,可以有效地处理数据的异步性,但实现程度较早期融合较难;中间融合用于分类回归,它结合了早、晚期融合的优点,同时模型复杂度和实现难度也增加了[44]。

从融合方法上看,又可分为基于核融合、基于图像模型和基于神经网络的方法,其中基于神经网络的融合方法是比较流行的方法。文献[45]把多模态表示分为联合表示和协同表示,联合表示是将多个单模信号合并到同一个表示空间,学习各个模态间的共享表示;协同表示是在信号投影之前强制执行一定相似性约束来协调它们[46]。

以图像、文本的融合为例,(Xi,Yi)表示经过预处理后得到的图像和文本特征,i=1~N。假设所提取的特征向量的维数相同,最简单的方法是采用直接叠加的方式将它们的特征向量加在一起,然后采用卷积运算来学习自适应权值,但是并没有改变原始的基网络[47]。在融合过程中,将得到的这两个分支中的嵌入图像、文本特征经过正则化处理分别表示为S(Xi)和S(Yi)。融合后的视觉特征f(Xi),文本特征g(Yi)可以由下式计算:

匹配损失函数目的减少匹配对距离,增加非匹配对的距离,较小的匹配距离表示图像文本对存在某种关联[48]。所采用的直接融合只适应于维数相同的情况,但是针对神经网络维数不同的问题,通常处理方法是将某一模态的维数进行PCA降维处理至与另一模态相同的维数,然后再进行相同的融合操作[49]。仅仅通过上面计算余弦相似度来设置匹配函数是不够的,为了保持潜在空间中的相似性约束,通常需要在匹配损失上加约束函数。例如,文献[50]是基于一个类似于有效双向秩损失函数重新定义了匹配损失。为了利用更有代表性的非匹配对,该文在每一小批中选出了最具代表性的K类最不同的候选对象。直观地,这个损失函数是为了减小匹配对的距离和增加非匹配对的距离而设定的。损失函数的计算公式如下:

m为边缘参数,用来平衡两个三重因子,其中的d(f(Xi),g(Yi))表示匹配对的距离,d(f(Xi),g(Yiˉ,k)) ,d(f(Xiˉ,k),g(Yi))表示非匹配对的距离。将这一损失函数最小化将产生一个理想的潜在空间,其中匹配对的距离应小于任何不匹配对之间的距离。为了使用损失函数得到的结果直观的表示,使用了t-SNE 算法可视化特征嵌入f(Xi)和g(Yi),就可以得到图像文字特征的可视化表示。可视化结果表明:相匹配的图像文本在可视图中距离较近,不匹配的图像文本距离较远,该文所用的嵌入模型能够有效学习到图像文本的对齐表示,也即融合效果较好。

4.3 多模态对齐

在多模态学习中,除模态之间的融合外,模态对齐也是多模态学习的核心问题[51]。多模态的对齐负责对来自同一个实例的不同模态信息的子分支元素寻找对应关系。这个对应关系可以是时间维度的,例如电影画面、语音、字幕的自动对齐;对齐又可以是空间维度的,比如图片语义分割:尝试将图片的每个像素对应到某一种类型标签,实现视觉和词汇对齐。多模态对齐指的是分别处理多个单模信号,但在信号投影之前通过强制执行一定相似性约束来协调它们,即多模态表示中的协调表示,如图5为模态对齐示意图。每种模式都有相应的投影函数,它们在一定相似性约束下互相对应。

图5 模态对齐结构示意图

目前针对多模态对齐,常见的两种分类为:隐式对齐和显式对齐[52]。隐式对齐一般是另一个任务的中间步骤,例如在基于文字的图像检索中,指单词和图像区域之间的对齐步骤,它确定了两种类型的隐式对齐模型;显示对齐是显式地将感兴趣的子模式之间的对齐[33]。它主要介绍如何实现不同子模式的对齐表示,以图像和声音两种模态作为研究对象,对于超过两种模态之间的对齐,采用两两对齐的方式以实现多模态对齐。

在实际中,仅仅依靠相似度判别对齐实现的效果并不可靠,希望多模态的对齐表示既有一致性又有区分性,即判别对齐的准确度较高。目前有两种方法来解决这个问题:模型传递对齐和按等级对齐[53]。模型传递对齐是利用有区别的视觉模型来教学生模型一个有对齐的表示方法。以图像Xi和声音Yi两种模态作为研究对象,例如Xi代表一个图像,Yi代表图像对应的声音。用fX(Xi)和fY(Yi)分别表示图像和声音模态的特征表示。假设g(Xi)是某一特定模态类概率的教师模型,它可以估定特定模态的概率,由于各个模式是同步的,可以用另一种模式fY(Yi)来预测教师模型g(Xi)的概率问题,使用KL散度作为损失函数计算公式如下:

这一目标本身将使对齐能够出现在g(Xi)所预测的类别级别上。为了使内部表示出现对齐,需要限制网络上层跨模态的共享参数来实现,网络的上层参数在前期是特定于单个模态的,添加限制条件后上层参数将被各个模态共享,通过约束上层参数来转化为对齐表示[54]。为使对齐的区分效果更好,通常用按等级对齐方式的排序损失函数来获得有区分的对齐表示,该函数表示为:

其中,Δ代表边缘超参数,ψ是一个相似函数,j是迭代负例子。这一损失函数区别于前面仅仅靠余弦相似度判别对齐的好处在于,各自对齐的例子在表示空间中更加紧密的推到一起,达到一定的边缘设置参数。最后在三个基准实验上,在给定一个模式查询的情况下,在所有模式中都找到了相似的示例,验证了提出的对齐模型在视觉、声音和文本方面学到了更好的对齐[33]。

4.4 数据集

多模态深度学习具有极大的发展潜力,大量的研究在对现有的模型不断地进行改善和创新。除了寻求一切算法结构模型上的突破之外,不断更新完善数据集,提高多模态深度学习模型运算速度,提高输出预测准确率,对多模态学习的发展至关重要[55]。在本章列举常见的多模态任务相应的数据集,多模态学习区分单一模态在数据集上也有很大不同,下面介绍几种多模态常用的数据集。最初为了对会议室环境下说话人进行更好的研究,便于运用语音视频处理技术,需要大量的语音视频数据库。在这一领域收集的第一个里程碑数据集之一是AMI会议语料库,这是到目前为止信息量最多,功能最全面的音视频语料会议库,其中包含100多个小时的会议视频记录,每场会议由4到5个人组成,所有这些都经过了完整的转录和注释,以便人们更好地进行会议室环境下视频处理和语义分割等方面的研究[56]。另一个重要的数据集是信号语料库,主要研究说话者和听者之间的动态关系[57]。

这些数据集通常以人为中心的视觉理解,以及包括情感识别在内的变体,群体行为分析等[58]。例如:对于字母识别,avletters是最常用的数据库之一,包含来自10个扬声器的录音,每个字母重复3次,分辨率为376×288像素和25 帧[59]。后来又进行了改进,avletters2 解决了avletters 的一些问题,例如低分辨率或扬声器数量有限[60]。具体来说,avletters2 增加了发声次数,每个扬声器重复 3 到 7 次和分辨率 1 920×1 080 像素和 50 帧。Pascal数据集:它包含来自20个类别的1 000幅图像(每类50 幅),其中一幅图像由5 个不同的句子描述[61]。Flowers数据集:包含102个类,共有8 189幅图像。在训练阶段使用2 040 幅图像,其余6 149 幅图像用于测试[62]。CUB-Bird 数据集:它包含来自200 个类别的11 788 张鸟类图像,其中5 994 张图像用于培训,5 794张图像用于测试[63]。表3为常用的多模态数据集。

表3 多模态数据集

5 发展趋势与结论

关于目前的多模态深度学习,未来的发展趋势主要从以下几点说起:(1)探索如何应用神经网络研究多模态学习,还需要进一步研究形成一个以神经网络为基础的完善的理论体系结构,这取决于神经网络的理论体系的成熟发展;(2)与多模态相关的数据集也应该进一步完善,将直接决定深度学习模型的运算速度,输出预测准确率的高低,对多模态学习的发展也至关重要;(3)不同模态特征在融合过程中会受到噪声影响,使融合后信息不准确,并且在包含时序关系的多模态学习中,每种模态可能遭受噪声干扰的时刻也可能不同,因此在融合方式方面看是否还有更适合的方法;(4)现阶段的对齐方法显示对齐的数据信息量较少,且不同模态间信息甚至无法匹配使模型性能严重下降,在未来的工作中,还需设计同时进行度量学习和对齐的方法提高相关模型的性能。

随着深度学习的快速发展,人们获取信息的方式的不断更新,由于信息数据的广泛性,数据库也不可能包含所需的全部信息,因此建立模态之间的相互联想能力格外重要,即使在数据信息不足,同样能够根据模态间的映射关系获取对事件的正确认知[64]。当然多模态应用很广,比较热门的研究方向用在自动驾驶汽车、多媒体应用和医疗领域等[65]。在这篇文章中,回顾了在深度多模式学习在视听语音识别、协同标注、匹配和分类以及对齐表示学习上的几个热门应用,对它们的具体实现过程作了简要概述,所提出的试听语音自动识别模型、统一空间映射模型、统一的多模式匹配和分类网络模型和跨模态对齐模型都有较好的实验效果。多模态学习是一个充满活力的多学科领域,具有日益重要和巨大的潜力。不可否认,将多种模式纳入学习问题会对网络结构、数据处理、目标函数设置等方面产生各种各样的影响,这在很大程度上是一个有很大挑战的领域,必然会出现许多新的创新,也期待着多模态学习领域这个方向更加蓬勃发展。

猜你喜欢
模态图像融合
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
村企党建联建融合共赢
融合菜
跨模态通信理论及关键技术初探
从创新出发,与高考数列相遇、融合
巧用图像中的点、线、面解题
有趣的图像诗
《融合》
遥感图像几何纠正中GCP选取