深度学习跨模态图文检索研究综述

2022-03-13 09:18郭莹莹范九伦刘继明
计算机与生活 2022年3期
关键词:图文检索模态

刘 颖,郭莹莹,房 杰,2,3,范九伦,3,郝 羽,3,刘继明

1.西安邮电大学 图像与信息处理研究所,西安710121

2.陕西省无线通信与信息处理技术国际合作研究中心,西安710121

3.西安邮电大学 电子信息现场勘验应用技术公安部重点实验室,西安710121

4.西安邮电大学 通信与信息工程学院,西安710121

多模态学习(multi-modal learning)旨在处理与理解来自感官情态的多源信息。近年来,得益于深度学习的快速发展,多模态学习逐渐成为热点课题。

1976 年,文献[1]提出视觉对言语感知的影响,后被用于视听语音识别(audio visual speech recognition,AVSR)技术并成为多模态概念的雏形。自此,多模态信息处理经过了漫长的发展。2010 年,以融合方法和融合水平为线索,文献[2]对已有多模态融合研究方法进行了分类。2015 年,文献[3]提出多模态隐条件随机场(multi-modal hidden conditional random field,M-HCRF),用以提升多模态数据分类效果。文献[4]提出基于正交正则化约束的深度多模态哈希(deep multi-modal Hashing with orthogonal regularization,DMHOR)方法,用以减少多模态表示的信息冗余。2019 年,文献[5]将多模态学习主要研究方向分为多模态表示、多模态翻译、多模态对齐、多模态融合和多模态协同感知等。

目前多模态学习已被成功应用于人脸识别、人体姿态估计、多模态检索、跨模态检索、语义场景理解和情感识别等方面,成为一个潜力巨大且充满活力的跨学科、跨领域研究热点。

跨模态学习是多模态学习的分支,其充分利用了多模态学习中模态间表示、翻译和对齐等策略。跨模态学习与多模态融合的相似之处在于,二者的数据都来自所有模态,但不同之处在于,前者的数据只在某一模态可用,而后者的数据则用于所有模态。

跨模态检索(cross-modal retrieval)是跨模态学习的重要应用之一,又称为跨媒体检索,其特点是训练过程中所有模态的数据都存在,但在测试过程中只有一种模态可用。跨模态检索旨在实现两个不同模态之间的信息交互,其根本目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本。近年来,跨模态检索逐渐成为国内外学术界研究的前沿和热点,是信息检索领域未来发展的重要方向。跨模态图文检索是跨模态检索的重要研究方向,定义如下:

对于跨模态图文检索,关键字到图像的检索因为其本质是查询关键字与图像的标注注释之间的匹配,因此被称为伪“跨模态”问题。跨模态图文检索以视觉数据和自然语言描述为基础,更关注图像和文本两种模态的交互,其目的是在不借助任何辅助信息的情况下,通过文本(图像)查询来检索图像(文本)。多模态检索、跨模态检索和跨模态图文检索关系如图1 所示。

图1 多模态、跨模态检索和跨模态图文检索关系图Fig.1 Relationship among multi-modal retrieval,crossmodal retrieval and image-text cross-modal retrieval

跨模态图文检索分为以图搜文和以文搜图两种形式,文献[9]提出图像和文本间的语义关系可以定义为三个维度下的八种类别,包含不相关关系、互补关系、相互依赖关系、锚定关系、插图关系、对比关系、插图不良关系和锚定不良关系。针对图像和文本之间复杂的语义交互作用,传统的跨模态检索主要采用统计分析方法,如典型相关性分析方法(canonical correlation analysis,CCA)和跨模态因子分析方法(cross-modal factor analysis,CFA),其对实际应用场景中不同模态数据的复杂相关性难以建模。文献[12]研究了多媒体信息中文本和图像的联合建模问题,用典型相关分析来学习两个模态间的相关性,然而其学习到的都是线性映射,无法有效建立不同模态数据的高阶相关性。近年来,深度学习(deep learning)的兴起为跨模态图文检索提供了新选择,并逐渐成为该领域的热点和主流。一方面,相比于传统方法,深度网络因其高度非线性结构,更适合对模态内特征和模态间语义关系进行挖掘;另一方面,鉴于小批量训练策略的优势,深度网络能够支持对海量数据的处理。基于深度学习的跨模态图文检索研究因其良好的性能而倍受关注。

当前跨模态图文检索相关技术已被成功应用于网络舆情事件预警、多媒体事件检测、医学数据分类等领域。

此外,近年来,国内外已有不少跨模态检索相关文献及综述对该主题研究状况进行了呈现。

2014 年,文献[15]将跨模态建模策略分为直接建模和间接建模,前者指通过建立共享层来直接度量不同模态数据间的相关性,后者指通过构建公共表示空间来建立不同场景不同模态间的语义关联。类似地,2015 年,文献[16]将多模态数据间建立关联的策略分为基于共享层与基于公共表示空间的两种关联方法,该文献对跨模态深度学习模型的设计进行了深入分析。2016 年,文献[17]将已有的跨模态检索方法归纳为实值表示学习和二进制表示学习两大类,并总结了各自的核心思想。2018 年,文献[18]针对模态间内容相似性度量的技术难点,将跨模态检索分为公共空间学习方法和跨模态相似性度量方法,并对不同跨模态检索技术进行总结。2018 年,文献[7]将跨模态检索方法分为基于子空间的方法、基于深度学习的方法、基于哈希变换的方法和基于主题模型的方法,指出当前跨模态检索面临的主要问题是缺乏对模态内局部数据结构和模态间语义结构关联的研究。同年,文献[19]从信息抽取与表示、跨模态系统建模两个维度评述了基于表示学习的跨模态检索模型,并总结了特征抽取方面的研究成果。2018 年,文献[20]探索了联合图正则化的跨模态检索方法。2019 年,文献[21]简要介绍了近年来跨模态特征检索及优化的研究进展,并对跨模态数据联合分析方法及跨模态特征检索面临的问题与挑战进行了概述。文献[20-21]对跨模态检索方法的具体分支进行了梳理,为相关领域的探索提供了新思路。

以上文献从不同角度对跨模态检索进行了梳理与描述,本文更聚焦于针对图像-文本的跨模态检索。当前,该领域相关成果归纳如下:2017 年,文献[22]将跨模态图文检索的研究内容分为多模态数据特征表示和模态间关联机制两方面。2019 年,文献[23]根据构建模态间关联方式的区别,将跨模态图文检索分为基于典型关联分析、基于深度学习和基于深度哈希的方法,并就各种跨模态关联方式的缺陷探索了具体的解决思路。2021 年,文献[24]重点对跨模态图文检索的各种研究工作进行了对比评述,并从文献计量的角度分析了该领域文献的发表情况,同时也对跨模态检索领域的实际应用做了简要介绍,然而,基于深度学习的方法只是其框架中的分支之一,并未详尽介绍其发展状况。同文献[24]相比,本文除涵盖了实值表示和二进制表示的方法外,更进一步以多模态学习为背景,以深度学习技术为支撑,对基于深度学习的跨模态图文检索现有的研究成果进行了总结。相比于已有综述,本文主要有以下突破:(1)聚焦于近年来最新基于深度学习的跨模态检索研究,弥补了现有文献的不足;(2)着重分析公安、传媒及医学三大领域对跨模态图文检索的具体应用。

1 跨模态图文检索相关工作介绍

本章主要对跨模态图文检索不同算法中涉及到的几个重要概念和常用网络结构进行介绍。

1.1 相关概念

现有跨模态图文检索不同算法过程中涉及到几个重要概念,现对这些概念进行介绍。

(1)跨模态重构

在给定跨模态数据的情况下联结输入特征表示,然后相互重构各模态数据且保留重构信息,最后比较重构信息与原始信息相似性的过程。

(2)细粒度数据

指信息非常详细具体的数据。数据粒度指数据的详细程度,粒度越小,数据的信息越具体,越容易在机器学习中把握数据的规律与本质。

(3)无监督学习

指事先没有任何训练数据样本而需要直接对数据建模的学习方法。无监督学习仅使用共现信息来学习跨模态数据的公共表示。共现信息指在多模态文档中所共存的不同形式的数据具有相同的语义。

(4)监督学习

指通过有标记的训练数据来推断或建立一个最优模型的学习方法。监督学习利用标签信息来学习公共表示,强制不同类别样本的学习表示距离尽可能远,而相同类别样本的学习表示尽可能接近。

(5)端到端学习(end-to-end learning)

也称端到端训练,指在学习过程中缩减人工预处理和后续处理,使模型从原始输入直接到最终输出。其训练数据为“输入-输出”对的形式,无需提供其他额外信息。端到端学习为模型提供了更多根据数据自动调节的空间,增加了模型的整体契合度。

1.2 相关网络结构

跨模态图文检索在深度学习领域主要涉及七种网络结构,现对这七种网络结构做如下介绍。

深度自编码器模型(deep autoencoder,DAE)由一个编码器和一个生成重构的解码器组成。深度自编码器可以产生对输入进行刻画的编码,其通常用于跨模态重构,从而发现跨模态相关性。

深度信念网络(deep belief nets,DBN)由Hinton在2006 年提出,该网络既可以被视为自编码器进行非监督学习,也可以被视为分类器进行监督学习。

受限玻尔兹曼机模型(restricted Boltzmann machine,RBM)可用于跨模态重建。2012 年,Srivastava等人提了一种由多种模态输入组成的深度玻尔兹曼机,该模型可实现模态融合与统一表示,也可应用于分类识别和信息检索任务。

注意力机制模型最早提出于视觉图像领域中,2015 年DeepMind 团队将其引入到循环神经网络(recurrent neural network,RNN)模型进行图像分类,取得了良好的效果。目前大多数注意力模型在跨模态图文检索中用于对模态局部特征的表示,以及对不同模态片段的对齐,有助于挖掘模态间细粒度的对应关系,并在一定程度上能够弥补模态数据缺失的问题。

生成对抗网络(generative adversarial networks,GAN)能够通过两个模块的互相博弈得到良好的输出。在跨模态图文检索任务中,生成对抗网络一般通过图片和文本相互对抗,使数据间的潜在关系及语义结构被更好地保留,同时生成过程可以学习强大的跨模态特征表示,从而增强跨模态语义一致性。

卷积神经网络(convolutional neural networks,CNN)广泛应用于跨模态图文检索中,是深度学习的代表算法之一。经典的卷积神经网络模型有AlexNet、GoogLeNet、VGGNet、ResNet以 及DenseNet等,常用框架有Caffe、Torch及Tensorflow等。其优点在于对高维数据的处理能力强、特征分类效果良好,具有强大的特征表示能力;缺点是依赖于大规模标记样本和复杂的调参过程。跨模态图文检索中常用的卷积神经网络模型有ResNet、AlexNet等。

长短期记忆网络(long short-term memory,LSTM)可以有效地将短时记忆与长时记忆相结合,借此联合学习数据的上下文信息。在跨模态图文检索任务中,需首先确定从单元状态中被遗忘的信息,进而确定能够被存放到单元状态中的信息,最后通过tanh 的单元状态乘以输出门,用于确定输出的部分。

此外,双向递归神经网络(bidirectional recurrent neural network,BRNN)、基于字嵌入(矢量)的卷积神经网络(word embedding (vector)based convolutional neural network,WCNN)、循环神经网络、递归神经网络(recursive neural network,RNN)、区域卷积神经网络(region convolutional neural network,RCNN)等也被广泛应用于跨模态图文检索的特征提取任务中。

2 跨模态图文检索算法研究现状

对基于深度学习的跨模态图文检索,为确保检索准确度,需解决的主要问题是模态间底层数据特征异构而导致的语义鸿沟;除此之外,出于对快速检索的需求,跨模态图文检索效率的提升也是当前的研究热点。因此,基于跨模态图文检索的准确度和效率,目前流行的算法可以被分为两类:实值表示学习和二进制表示学习。实值表示学习方法通常具备高准确率,且更关注图像和文本间的语义匹配问题,旨在学习一个实值公共表示空间,在该空间中不同模态的数据其通用表示是实值的。二进制表示学习也称为跨模态哈希,通常用于加速跨模态检索,其将不同模态的数据映射到一个共同的汉明空间,但此类方法的二值化过程通常会导致检索精度的降低。本章主要围绕深度学习技术介绍近几年跨模态图文检索领域的相关工作,其研究现状分类如图2所示。

图2 基于深度学习的跨模态图文检索的研究现状分类图示Fig.2 Research status of image-text cross-modal retrieval based on deep learning

2.1 实值表示学习方法

实值表示学习方法通常可以有效降低图像与文本间的语义鸿沟,进而确保检索准确性,其旨在为不同形式的数据学习稠密特征表示。目前流行的基于深度学习的实值表示跨模态图文检索方法可分为两类:基于特征表示的方法和基于图文匹配的方法。前一类方法聚焦于对不同模态间特征进行建模,以良好的特征提取来有效解决不同模态数据特征的异构问题,从而保障检索准确度;后一类方法则关注图像和文本模态间的语义对应关系,旨在通过减小语义鸿沟以提高图文匹配的准确性,从而提高检索的准确度。

特征提取是影响跨模态图文检索准确度的重要因素,多模态信息的引入使得对不同模态数据进行建模成为解决跨模态图文检索异构鸿沟问题的关键,基于特征表示的方法将基于深度学习的单模态特征提取算法应用在跨模态图文检索中,以便对不同模态间特征进行建模。

在基于特征表示的方法中,一些研究者建立了基于最大似然准则的学习框架,通过反向传播和随机梯度下降来优化网络参数。针对模态特定的特征,文献[8]提出了模态针对型深层结构模型(modalityspecific deep structure,MSDS)。该模型使用CNN 和WCNN 分别提取图像和文本表示,通过使用标准反向传播技术来更新CNN 与WCNN 的参数。WCNN可以处理不同长度的序列并获取具有相同维度的结果特征向量,能够有效提取文本特征。实验表明,大规模数据集时模态特定特征学习能够更好地提取输入模态表示,且WCNN的文本特征提取能力优于深度CNN。更进一步,在文献[8]基础上,文献[46]提出了基于深度双向表示学习模型(deep and bidirectional representation learning model,DBRLM)的方法,利用文本描述中的序列和结构信息对特征进行增强,利用双向结构探索匹配与不匹配图像文本对的关系,增加了匹配对的相似性。实验对比发现,双向表示模型比只考虑单向模态不匹配对的情况有更好的效果,且该方法在匹配数据中能够学习丰富的鉴别信息。

针对单标签或多标签样本跨模态图文检索问题,为了更好地弥合图像和相应语义概念间的差距,文献[47]使用了深度卷积激活特征描述子(deep convolutional activation feature,DeCAF),将CNN 实现产生的1 000维度预测得分作为ImageNet的输入视觉特征。实验表明,DeCAF 可以使学习到的视觉特征具有足够的表征能力,特征提取效果良好。由于预训练的CNN 模型可以被直接迁移以提取图像视觉特征,针对同一问题,文献[48]对预训练的CNN 模型进行微调,提出了深度语义匹配方法(deep semantic matching,deep-SM),对不同的目标数据集采用不同的损失函数,使用微调的CNN 和训练的全连接神经网络将图像和文本投影到高抽象级别的同构语义空间中。实验表明,微调的方法可以提高其对目标数据集的适应性,有效降低图像与相应语义之间的鸿沟。文献[49]利用同一思路,通过微调深度CNN 模型对图像生成视觉嵌入,有效避免了部分语义信息的丢失。

基于特征表示的方法一般通过两种方式来获取更好的跨模态输入特征:第一种针对不同应用场景,采用特殊的网络结构或提取特定的特征来获得图像文本表示;第二种方法则对经典的CNN 模型进行微调改进。该类方法尤其对大规模、多标签数据集有良好的适应性,可以为未来跨模态检索提供更有效的设计思路。然而,目前研究者在该类方法中更倾向于对视觉特征的探索,文本数据在跨模态语义特征提取过程中并没有得到很好的研究。因此,探索更合适的神经网络以建立文本数据由低级特征到高级语义之间的映射是该类方法所面临的挑战。

基于特征表示的方法面向跨模态原始数据,其关注点在于获得更好的输入特征,通过模态特征学习减小模态异构问题;相比于基于特征表示的方法,基于图文匹配的方法更关注于不同模态间的结构关联,此类方法通过研究图像和文本模态间的语义对应关系来增强模态间特征表示的一致性。

目前主流的基于图文匹配的方法按照模态间语义结构关联的不同可分为三类:图像-文本对齐的方法、跨模态重构的方法和图文联合嵌入的方法。

(1)图像-文本对齐的方法

图像-文本对齐的方法一般通过学习同一实例不同模态特征之间的关系来推断句子片段与图像区域之间的潜在对齐,进而实现图文匹配。

为了对图像内容及其在自然语言领域的表示同时进行推理,文献[50]提出了多模态双向递归神经网络结构,其核心观点是将句子视为丰富的标签空间,使连续的单词片段对应于图像中某个特定但未知的位置。该模型能够实现对小区域或相对罕见对象的视觉语义对应关系的解释,在图像-句子排序实验中有良好的性能表现。进一步,通过结合图像表示和自然语言处理的研究进展,为了回答关于图像的自然语言问题,文献[51]将问题意图推理、视觉场景理解与单词序列预测任务结合起来,提出了Neural-Image-QA 模型,其中问题与视觉表征一起被输入LSTM 进行联合训练,其语言输出取决于视觉和自然语言输入,通过单词和像素的端到端训练,获取了良好的匹配结果。实验表明该方法在“单字”变体情况下能实现最佳性能。

由于图像-文本对齐的方法更关注局部精细的信息,也常用于细粒度的跨模态图文检索任务。文献[52]针对服装领域提出了FashionBERT 模型,相比于感兴趣区域(region of interest,RoI)模型,时尚文本倾向于描述更精细的信息。因此,FashionBERT 模型由BERT(bidirectional encoder representations from transformers)模型引申得到。BERT 是一种双向注意力语言模型,作为Transformer在自然语言处理任务的变体之一,其主要作用是对单模态文本数据进行编码。FashionBERT 在提取图像表示时将每个图像分割成相同像素的补丁,作为BERT 模型的序列输入,在匹配时将文本标记和图像补丁序列进行连接。实验表明该方法可以在一定程度上掩盖图像中不相关的信息,减小了检测到无用和重复区域的可能性。

此外,由于注意力机制模型在图像-文本对齐方法中的良好表现,文献[55]提出了堆叠交叉注意力模型(stacked cross attention network,SCAN)。该模型对图像RoI 和文本标记执行跨模态匹配,利用注意力机制将每个片段与来自另一模态的所有片段对齐,以区分单词及图像区域的被关注度,有助于捕捉视觉和语言间的细粒度相互作用,增强匹配能力。该方法可以灵活地发现细粒度对应关系,在多个基准数据集上都获得了最佳性能。

然而,基于注意力机制的方法大多忽略了全局上下文中出现的多种语义情况。基于此,文献[56]提出了语境感知注意力网络(context-aware attention network,CAAN),根据全局上下文有选择地关注信息量最大的局部片段,综合了模态间和模态内注意过程,同时执行图像辅助的文本注意和文本辅助的视觉注意,很好地聚合了上下文信息,捕捉了潜在的模态内相关性,实验表明自适应检索过程中考虑特定上下文能够帮助模型获得更好的检索结果。类似地,针对语义模型的复杂性,文献[57]提出了基于循环注意记忆的迭代匹配(iterative matching with recurrent attention memory,IMRAM)方法,该方法通过迭代匹配方案逐步更新跨模态注意力核心,挖掘图文间细粒度的对应关系。如图3 所示,该模型首先通过跨模态注意单元估计V 和T 两组特征点之间的相似度;然后通过记忆提取单元细化注意力结果,深化潜在对应关系,以便为下一次比对提供更多信息。在个匹配步骤之后,该方法通过对匹配分数求和得出图文之间的相似度。实验表明=3 比=2 有更好的表现,证明了迭代匹配方案有效地提高了检索性能。

图3 IMRAM 模型框架Fig.3 Framework of IMRAM model

可以看出,图像-文本对齐的方法更加关注图像和文本的局部区域片段信息。此类方法的优势在于,通过注意力机制等方式,能够获得更好的细粒度语义区分能力,有效解决多语义、图像问答、图像描述和细粒度交互等问题,进而提高了图文匹配的准确度,具有良好的检索性能。然而,此类方法由于更多聚焦于局部信息,对数据集的规模和质量以及模型的精细度会有更高的要求,且大多并不适用于全局信息的匹配。如何在保证局部片段信息良好对齐的前提下实现图文整体的准确匹配仍是目前需要研究的方向。

(2)跨模态重构的方法

与图像-文本对齐的方法关注局部信息的方式不同,跨模态重构的方法更关注全局信息,此类方法通常利用一种模态信息来重构对应模态,同时保留重建信息,能够增强跨模态特征一致性及语义区分能力。

由于跨模态相关性是高度非线性的,而RBM 很难直接对这种相关性进行学习。基于此,考虑在每个模态的预训练层上训练RBM 的方法,文献[58]提出不同模态数据共享权重的双模深度自编码器模型,在仅给定视频数据的情况下进行跨模态重建,从而发现跨模态的相关性。在此研究基础上,文献[59]提出了一种图像字幕生成的方法,引入了结构-内容神经语言(structure-content neural language model,SCNLM)模型,SC-NLM 通过编码器学习图像句子联合嵌入,并根据编码器产生的分布式表示,将句子的结构与内容分离,再通过解码器生成新的字幕。该模型有效地统一了联合图像-文本嵌入模型和多模态神经语言模型,实现了对图像和字幕的排序及新字幕的生成。

此外,由于源集和目标集实例在不可扩展跨模态检索任务中通常被假定共享相同范围的类,当二者实例具有不相交的类时,难以取得理想的检索结果。针对此问题,文献[60]提出了模态对抗语义学习网络(modal-adversarial semantic learning network,MASLN),其中,跨模态重构子网络通过条件自编码器相互重建各模态数据,实现从源集到目标集的知识转移,使跨模态分布差异最小化;模态对抗语义学习子网络通过对抗性学习机制产生语义表征,使学习到的公共表示对语义有区别而对模态无区别。实验表明,该方法在可扩展和不可扩展的检索任务中结果都优于其他方法,有效缩小了不同模态之间的异质性差距。该网络流程图如图4 所示。

图4 MASLN 模型框架Fig.4 Framework of MASLN model

为了克服对嵌入空间的需求,文献[61]提出了循环一致图文检索网络(cycle-consistent text and image retrieval network,CyTIR-Net),将图文检索问题表述为文本和视觉转换的问题。该方法利用文本项和视觉特征的相互翻译建立重构约束,如图5 所示,txt2img和img2txt模型分别实现了图像和文本域之间的前向和后向转换,确保重构的文本或图像与原始文本或图像向量相似,并包含足够的重构信息。实验表明该方法对中小型数据集表现更好,良好地展示了循环一致性约束的正则化能力和网络的泛化能力,以及增强模型在跨模态检索中的场景辨别能力。

图5 CyTIR-Net网络架构Fig.5 Network architecture of CyTIR-Net

跨模态重构的方法利用深度自编码器等方式,有效缩小了模态间的异构性差异,增强了语义辨别能力。此类方法对数据集的训练及其规模要求并不高,注释成本低,更适用于中小型数据集,具有可扩展性,多用于图像字幕生成等任务。然而,此类方法在模型训练过程中容易忽略细节信息,对目标数据集成对相关性的表现度不足。因此,如何在缩小模态间统计差距的前提下,共同学习局部文本与图像信息的对齐,并据此来动态地调节模态间的生成过程,是目前此类方法所面临的挑战。

(3)图文联合嵌入的方法

相比于图像-文本对齐的方法和跨模态重构的方法,图文联合嵌入的方法一般结合了全局和局部信息作为语义特征的嵌入,因此能够学习到更好的特征判别性。此类方法一般通过图像和文本模态数据的联合训练及语义特征的嵌入来学习图像文本的相关性,进而实现图文匹配。

针对模态特征的不一致性导致的跨模态迁移困难的问题,文献[62]使用弱对齐的数据来学习具有强对齐的跨模态表示,在共享层使用多层感知器将文本信息映射到与视觉模态相同维度的表示空间中。该模型同时用到了微调和统计正则化的方法,可以在训练数据没有明确对齐的情况下跨模态检测相同的概念,具有良好的检索性能。为了寻找公共表示空间来直接比较不同模态的样本,文献[63]提出了深度监督跨模态检索(deep supervised cross-modal retrieval,DSCMR)方法,通过最小化样本在标签空间和公共表示空间中的判别损失来监督模型学习判别特征,以保持不同类别语义样本间的区分度,并使用权重共享策略来消除多媒体数据在公共表示空间中的跨模态差异。相比以往的方法,DSCMR 的学习策略可充分利用成对标签信息和分类信息,有效学习了异构数据的公共表示。

值得注意的是,尽管以上方法已考虑到不同模态到公共空间的特征映射,但这种映射函数仅关注于学习模态内或模态间的区分特征,而未能在跨模态学习方法中充分利用语义信息。

为此,文献[14]提出了基于正则化跨模态语义映射的深度神经网络(regularized deep neural network,RE-DNN),通过施加模态内正则化,进而获得一个联合模型来捕捉不同输入之间的高度非线性关系。该模型在语义层同时捕获模态内和模态间的关系,且所学习的深层架构能够通过停用部分网络来解决模态缺失问题,具有良好处理不成对数据的能力。该算法仅需要很少的模型训练先验知识,且对大规模数据集可扩展。进一步,为了减小低级视觉特征和高级用户概念之间的“认知鸿沟”,文献[49]提出了多感官融合网络(multi-sensory fusion network,MSFN)联合模型,将同维CNN 视觉嵌入和LSTM 描述嵌入看作人类的两种感官,从人类感知角度将视觉和描述性感官相结合。在测试集中的所有图像和文本映射到公共语义空间后,跨模态检索被转化为用传统相似性度量评估的同构检索问题,该方法通过最小化类别损失函数挖掘了跨模态丰富的语义相关性。

此外,图文联合嵌入方法通常会学习内嵌式嵌入函数(injective embedding functions),对于具有歧义的实例,内嵌函数寻找单个点会严重限制其在现实世界中的应用。对此,文献[64]引入了多义实例嵌入网络(polysemous instance embedding networks,PIE Nets),如图6所示,通过结合输入的全局和局部信息来提取每个实例的个嵌入,同时使用局部Transformer模块关注输入实例的不同部分,获得局部引导特征表示,并利用残差学习将局部和全局表示结合起来,进而提升特征的判别性。针对内嵌函数学习某一模态只能表示对应模态的部分信息,进而导致被忽略信息在映射点丢失的问题,文献[64]还提出了多义视觉语义嵌入方法(polysemous visual-semantic embedding,PVSE),在多实例学习框架中对图像和文本PIE 网络进行联合优化,且该方法通过最大平均差异(maximum mean discrepancy,MMD)来最小化两个嵌入分布之间的差异。实验表明了残差学习和多实例学习对于实例语义模糊数据检索的重要性。

图6 多义视觉语义嵌入体系结构Fig.6 Architecture of polysemous visual-semantic embedding

同样为解决多义实例问题,文献[65]提出了生成式跨模态学习网络(generative cross-modal feature learning,GXN),将基础表示和抽象表示相结合。除了全局语义层的跨模态特征嵌入外,GXN 还引入了图像到文本和文本到图像两种生成模型的局部跨模态特征嵌入,通过生成过程来学习全局抽象特征及局部基础特征。该方法能够有效处理多义实例问题,并能够检索具有局部相似性的图像或具有词级相似性的句子。另一方面,通过引入GAN 网络的对抗思想,文献[66]提出了对抗式跨模态检索方法(adversarial cross-modal retrieval,ACMR),该模型在对抗机制下执行语义学习,其中,特征投影器从公共子空间中的不同模态生成模态不变表示,模态分类器根据生成的表示来区分不同的模态,并以这种方式引导特征投影器的学习。通过对特征投影器施加三元组约束,将具有相同语义标签的跨模态表示差异最小化,同时最大化具有不同语义的图像文本之间的距离。该方法在跨模态数据被投影到公共子空间中时,数据的潜在语义结构被更好地保留。

图文联合嵌入的方法更关注对高级语义信息的探索。此类方法一般利用生成对抗等思想,通过最小化判别损失函数和模态不变性损失等方式挖掘丰富的语义相关性,能够很大程度上消除跨模态异构差异,减小“语义鸿沟”及“认知鸿沟”,有效解决多义实例、模态缺失等问题,并能良好地捕获成对信息相关性,提高图文匹配的准确度和可扩展性,具有很好的检索性能。

2.2 二进制表示学习方法

实值表示学习方法具有良好的语义区分能力,能够很大程度上减小“语义鸿沟”及“认知鸿沟”,因此其检索准确性一般很好,但对于一些对检索效率要求高的任务场景,实值表示学习并不适用。相比于实值表示学习方法,二进制表示学习方法在检索效率上具有优势,其在保证准确率波动幅度可控的前提下,可显著提升检索速度。

二进制表示学习方法将跨模态数据投影到一个公共汉明空间,目的在于给相似的跨模态内容赋予相似的哈希码。

近十年来,基于二进制表示学习的方法不断取得突破性进展与成果。2009 年,深度哈希算法由Hinton研究组提出。2014 年,文献[68]提出了卷积神经网络哈希(convolutional neural network Hashing,CNNH)模型,使基于CNN 的深度哈希算法开始受到关注。2015 年,文献[69]提出二进制哈希码的深度学习(deep learning of binary Hash codes,DLBHC)方法,利用深度CNN 的增量学习特性,以点的方式进行编码和图像表示,同时学习特定图像表征和类似哈希的函数,实现了快速图像检索并使其适用于大规模数据集。此外,为了进一步探索多标签关联图像的复杂多级语义结构,文献[70]提出深度语义哈希排序(deep semantic ranking Hashing,DSRH)方法,利用深度CNN 与列表排序监督哈希,共同学习特征表示和从它们到哈希码的映射,避免了传统方法特征语义表示能力不足的限制。

基于二进制表示学习方法由于二进制哈希码较短,有利于在现实世界中对大规模数据的处理,因而被广泛应用于跨模态图文检索任务中。

为确保哈希码和不同信息源所设计哈希函数的一致性,文献[71]提出了多源信息复合哈希算法(composite Hashing with multiple information sources,CHMIS),通过调整权重的信息集成方法(CHMIS with adjusted weights,CHMIS-AW)调整每个单独源的权重,将来自不同源的信息集成到二进制哈希码中,进而最大化编码性能,保留了训练示例之间的语义相似性。

在基于深度哈希的跨模态图文检索算法中,一些研究者使用了端到端的方法。针对不同模态的异构性,文献[72]提出了深度视觉语义哈希(deep visual semantic Hashing,DVSH)模型,该模型是首个跨模态哈希的端到端学习方法,设计了学习图文联合嵌入的视觉语义融合网络,以桥接不同模态及两个模态特定的哈希网络,其生成的紧凑哈希码能够捕捉视觉数据和自然语言之间的内在对应关系,进而获取判别性特征,且该模型有效克服了传统融合网络对双峰对象联合嵌入的需求,更适用于高精度的应用程序。针对跨模态哈希(cross-modal Hashing,CMH)手工制作特性与哈希码学习不能良好兼容的问题,文献[73]介绍了跨模态深度哈希算法(deep crossmodal Hashing,DCMH),将特征学习和哈希码学习集成到同一端到端学习框架,通过同时对不同类型样本对施加约束使相似样本间相互靠近,从而保证模态间的对齐,且DCMH 直接学习离散的哈希码,避免了检索准确性的降低,提高了检索性能。

为了弥补模态差异以进一步提高检索准确度,文献[74]提出了自我监督的对抗式哈希方法(selfsupervised adversarial Hashing,SSAH),将对抗式学习以自监督方式结合到跨模态哈希中,由自监督语义生成网络(LabNet)和图像文本对抗网络(ImgNet和TexNet)组成。其中,自监督语义生成网络用来监督两个模态的语义空间以及对抗性学习。两个对抗网络用来共同学习不同模态的高维特征及其对应的哈希码。实验表明,SSAH 比DCMH 减少了90%的训练时间,且SSAH 学习了更充分的监督信息,可以捕获不同模态间更精确的相关性。

针对跨模态哈希在有限数量标记样本上容易过拟合以及高维输入转换成二进制代码导致的信息丢失问题,文献[75]提出了循环一致的深层生成哈希算法(cycle-consistent deep generative Hashing,CYC-DGH),通过循环一致的对抗学习在没有成对对应的情况下学习耦合的生成哈希函数。该算法通过深度生成模型从哈希码中重新生成输入,使学习到的哈希码最大限度地关联每个输入-输出对应关系,且哈希嵌入过程中的信息损失被最小化,有效压缩了输入数据,同时能够最大限度地保留自身信息及不同模态样本间的关系,对减小哈希函数间的模态差异有良好表现。

二进制表示学习方法更侧重解决模态特征异构引起的模态差异问题,运用端到端、生成对抗等思想,致力于最大化特征分布的一致性。此类方法还有效解决了过拟合等问题。然而由于此类方法在二值化过程中会导致信息的丢失以及原有结构被破坏,考虑模态内数据结构和模态间结构匹配的关联,优化计算等是目前需要研究的方向。

2.3 小结

本节主要介绍了现有基于深度学习的跨模态图文检索算法。针对检索的准确度与检索效率,分别从实值表示学习和二进制表示学习两个方法出发,对不同跨模态图文检索方法的研究现状进行了分类总结。表1、表2、表3 从类别、代表性方法、特点和适用场景四方面对一些具有重要作用的跨模态检索算法进行了对比分析。

表1 基于特征表示的代表性方法总结Table 1 Summary of representative methods based on feature representation

表2 基于图文匹配的代表性方法总结Table 2 Summary of representative methods based on image-text matching

表3 二进制表示学习代表性方法总结Table 3 Summary of representative methods of binary representation learning

3 常用数据集及评价指标

3.1 常用数据集

对于图像和文本等单模态或跨模态的信息处理一般都需要数据集来进行评估。高质量的数据集可以使神经网络充分学习各种潜在知识,同时避免神经网络的过拟合等问题。目前跨模态图文检索中常用的数据集有以下几种。

(1)NUS-WIDE

NUS-WIDE 是由新加坡国立大学多媒体检索实验室创建的网络图像数据集,其图像主要来源于Flickr 网站。该数据集包括了269 648 幅图像,平均每幅图像带有2~5 个标签语句,其中独立标签共有5 018 个。该数据集只局限于图像和文本两种模态,常用于跨模态哈希中。基于这个数据集,可以探索有关于网络图像注释和检索的研究问题。

(2)MSCOCO

COCO 数据集是微软团队发布的一个可以用于识别、分割和图像语意描述等任务的数据集。该数据集以场景理解为目标,其图像内容主要从复杂的日常场景中截取而来。该数据集是一个大规模基于句子的图像描述数据集,包含了123 287 幅图像,且每幅图像至少包含5 句对应的语句描述。数据集中的图像来自91 个不同类别,包含了328 000 种影像和2 500 000 个标签。虽然COCO 数据集比ImageNet 类别少,但是各类别包含的图像多,有利于获得更多不同类别中的特定场景。

(3)Flickr30k

Flickr 数据集由雅虎发布,由1 亿幅图像和70 万个视频的统一资源定位器(uniform resource locator,URL)以及与之相关的元数据(标题、描述、标签)组成,其焦点是人或动物执行的一些动作。数据集中的图像由6个不同的Flickr组手动收集,由美国选定工作人员使用多种形式的标题进行注释。其中Flickr30k数据集采集于Flickr 网站,包含31 783 张日常场景、活动和事件的图像,图像与158 915 个标题相关联,每一张都用5 个句子注释。该数据集常用于图像-句子检索中。

(4)Wikipedia

Wikipedia 数据集采集于维基百科,是跨模态检索研究使用最多的数据集,由带有相关图像文本对的文档语料库组成。该数据集是根据维基百科的特色文章设计的,由维基共享资源的一个或多个图像补充,包含2 866 个图像/文本数据对,共10 个不同的语义类。该数据集所囊括的样本和语义类别相对较少且模态类型相对有限,且也只包含图像和文本两种模态。

(5)IAPRTC-12

IAPRTC-12 最初由Grubinger 等人发布,也称为Image CLEF 2006,是为CLEF(cross-language evaluation forum)跨语言图像检索任务创建的,其目的在于评估基于视觉和文本检索技术的效率。该数据集共有19 627 幅图像,其描述由多种语言(主要是英语和德语)组成,每个图像与1~5 个描述相关联,其中每个描述均指图像的不同方面。该数据集词汇量为4 424。值得注意的是,该数据集中的文本都是语法性的,几乎没有噪音。句子中的语言组织良好,其内容与相应的意象密切相关。

对于以上常用数据集,主要参数如表4 所示,且各数据集的图像文本对示例图如图7 所示。

图7 不同数据集图像文本对示例图Fig.7 Sample graph of image-text pairs in different datasets

表4 常用数据集介绍Table 4 Introduction of common datasets

3.2 性能评价指标

目前跨模态图文检索常用的性能评价指标有召回率、精确率、准确率和平均精度等。

(1)召回率(,)

召回率是指检索系统返回的查询样本相关文档与数据集所有匹配文档之比。召回率的计算公式为:

其中,表示检索返回的与查询样本匹配的文档数量,表示数据集中没有返回的与查询样本匹配的文档数量。

对于图文检索,常用的一个评价标准是@,即为@。@计算在前个检索的句子中找到至少一个正确结果的测试图像或测试句子的百分比。对于图像检索,计算前个检索的图像的百分比,即测量在前个结果中检索到正确项目的查询的比例。其中,“@1”“@5”“@10”,分别表示前1、5、10 个结果的召回率。

(2)精确率(,)

精确率是指检索系统中被正确检索的样本数与被检索到样本总数之比。精确率的计算公式为:

其中,表示被检索样本中与查询样本不匹配的数量。

一般而言,召回率和精确率互相矛盾,需要在不同的场合根据实验对于精确率和召回率的要求进行判断。精确率和召回率很少作为单独评价指标去使用,可以绘制-曲线来帮助分析。

(3)准确率(,)

准确率指检索系统中被分类正确的样本数占样本总数的比率。准确率的计算公式为:

其中,表示检索返回的与查询样本匹配的文档数量;表示检索后未能返回的与查询样本匹配的文档数量;表示总样本数。

(4)综合评价(-score,)

综合评价指标-score(又称为-measure)是和加权调和平均,其计算公式为:

其中,用于调整权重,当=1 时两者权重相同,简称为1-score。在检索过程中,若更重要则减小,反之若更重要则增大。

由于和指标会相互矛盾,而综合评价指标-score 既能够参考与,又比的计算更加准确,因此作为评价指标更为常用。

(5)平均精度(mean average precision,MAP)

MAP 是目前跨模态图文检索任务中最流行的性能评价指标,在给定一个查询和top-检索到数据的情况下,平均精度定义为:

其中,表示检索文档中第个样本,()表示的是第个检索样本的精度。另外,如果第个样本检索返回的数据与其本身相关,则()=1,否则()=0。

MAP 可以解决、和-measure 的单点值局限性,用于衡量算法的检索能力,能够反映全局性能。

3.3 不同算法对比

本节对不同算法在不同数据集中的表现进行了全面比较,其主要性能评价指标为@和MAP。对于跨模态图文检索,Flickr30k 数据集常用性能评价指标为@,其一般用于评估实值表示学习方法。Wikipedia 和NUS-WIDE 数据集通常用MAP 来评估算法性能,它们对于实值表示学习和二进制表示学习方法的性能评估都适用。MSCOCO 数据集通常既可用@来评估算法性能,也可用MAP 来进行评估,且对于实值表示和二进制表示学习方法也都适用。IAPRTC-12 数据集通常用MAP 来评估二进制表示学习方法的性能,用top@来评估实值表示学习方法的性能。top@计算公式为:

其中,表示测试集中图像文本对的数量,1()是指示函数,r是第对图像(文本)的排名位置。设置为{1,2,10,20,100,200,1 000}。

对于实值表示学习方法,本文选择了CyTIR-Net、IMRAM、BRNN 等算法,其中基于特征表示的算法有deep-SM、DeCAF、MSDS 和DBRLM,基于图像-文本对齐的算法有IMRAM、BRNN、CAAN 和SCAN,基于跨模态重构的方法有CyTIR-Net 和MASLN,基于图文联合嵌入的方法有ACMR、MSFN+TextNet、GXN、PVSE 和DSCMR;基于二进制表示学习的方法有DVSH、CYC-DGH、SSAH 和DCMH 等。

以下数据均为各经典算法相关文献中所报导的结果,对比结果如表5~表12 所示,对于最好的结果本节进行加粗以示强调,“—”表示结果未被提供。

表5 对于Flickr30k 现有不同算法R@K 比较Table 5 R@K comparison of different existing algorithms for Flickr30k

表6 对于MSCOCO 现有不同算法R@K 比较(1 000 幅测试图像)Table 6 R@K comparison of different existing algorithms for MSCOCO(1000 test images)

由表5~表7 可以看出,算法IMRAM 在跨模态图文检索中取得了更好的@值,该算法实验环境为Pytorch v1.0,在Flickr30k 数据集上分别将29 000、1 000、1 000 幅图像用于训练、验证和测试模型,在MSCOCO 数据集上也分别将1 000 幅图像用于验证和测试,其在小规模数据集(Flickr30k)上和大规模数据集(MSCOCO)上都有较好的表现,证明了该算法的鲁棒性,同时也得出对细粒度对应关系进行探索的必要性。此外,CAAN 算法在Flickr30k 数据集分别将29 000、1 000、1 000 幅图像用于训练、验证和测试模型,该算法在前15 个epochs 的学习率为0.000 2,后15 个epochs的学习率降至0.000 02。PVSE 算法在MSCOCO 数据集上将113 287 幅图像用于训练模型,并在完整的5 000 幅测试图像上进行测试,且以平均值超过5 倍以上来进行1 000 幅图像的测试,该算法初始学习率为0.036 6,并在损失停滞时减少一半,用批量大小为128 的样本进行50 个epochs 的训练。CAAN 算法和PVSE 算法分别在小规模数据集(Flickr30k)和大规模数据集(MSCOCO)上也取得了更好的@值,表明了注意力机制在跨模态图文检索中的优势。且这几种方法都强调局部特征和全局特征的结合,以提升特征的判别性。对于该领域的后续发展具有借鉴意义。

表7 对于MSCOCO 现有不同算法R@K 比较(5 000 幅测试图像)Table 7 R@K comparison of different existing algorithms for MSCOCO(5000 test images)

由表8 可以看出,ACMR 在数据集MSCOCO 上取得了更好的MAP 值,ACMR 算法分别将66 226 和16 557 个图像文本对用于模型训练和测试,用到的图像特征提取网络为4 096 维的VGGNet,文本特征提取网络为3 000 维的BoW(bag-of-words),批量大小为64。该算法利用GAN 的对抗思想,使数据的潜在跨模态语义结构被更好地保留。结果显示实值表示学习的方法在大规模数据集(MSCOCO)上MAP 值一般优于二进制表示学习的方法。其中,CYC-DGH算法在MSCOCO 上取得结果优于其他二进制表示学习方法,该算法初始学习率为0.000 2,在前100 个epochs 中保持不变,在后100 个epochs 中线性衰减到0,且以dropout 率为0.5 的卷积退出ReLU 层。CYC-DGH 同样使用GAN 网络的思想,在有效压缩输入数据的同时,最大限度地保留其自身信息以及来自不同模态的样本之间的关系。因此可以得出,GAN 的思想对于提升跨模态图文检索性能很有帮助,为相关工作提供了值得借鉴的研究思路。

表8 对于MSCOCO 现有不同算法MAP 比较Table 8 MAP comparison of different existing algorithms for MSCOCO

由表9 和表10 可以看出,CYC-DGH 和deep-SM分别在数据集Wikipedia 和NUS-WIDE 上取得了最佳MAP 值,CYC-DGH 从Wikipedia 数据集中随机选择75%的文档作为数据库,其余为查询样本,且批量大小为1。deep-SM 算法实验环境为开源Caffe CNN库,分别将114 114 和76 303 个图像文本对用于训练和测试,其dropout 率为0.5,动量参数为0.9,且对不同模态采取不同学习率,在CNN 中分别将卷积层、前两个完全连接层和最后一个完全连接层的学习率设置为0.001、0.002 和0.010,通过设置不同层的不同学习率来控制参数更新速率;在TextNet 中每层的初始学习率为0.010,然后根据交叉熵损失动态变化。deep-SM 算法对预处理的CNN 模型进行微调以提取CNN视觉特征,一定程度上提升了跨模态检索性能。同时,在Wikipedia 数据集上,MASLN 算法结果优于其他实值表示学习方法,该算法学习率为0.000 1,批量大小为128,其将跨模态重构和模态对抗性语义网络进行了联合训练,对于小规模数据集上跨模态检索性能的提升有很大帮助。

表9 对于Wikipedia 现有不同算法MAP 比较Table 9 MAP comparison of different existing algorithms for Wikipedia

表10 对于NUS-WIDE 现有不同算法MAP 比较Table 10 MAP comparison of different existing algorithms for NUS-WIDE

表11 和表12 对不同算法在IAPRTC-12 数据集上的表现进行了比较。可以看出,二进制表示学习方法中,CYC-DGH 取得了更好的结果;实值表示学习方法中,MSDS 取得了更好的结果。MSDS 模型实验环境为Caffe,其分别将17 627 和2 000 个图像文本对用于训练和测试,且在WCNN、CNN 和DNN 的学习率分别为0.010、0.001 和0.001。MSDS 在潜在空间中使用标准反向传播技术来更新两个卷积网络的参数,易应用于大数据集。

表11 对于IAPRTC-12 现有不同算法MAP 比较Table 11 MAP comparison of different existing algorithms for IAPRTC-12

表12 对于IAPRTC-12 现有不同算法top@k 比较Table 12 top@k comparison of different existing algorithms for IAPRTC-12

综上,通过对不同算法对比,可以得出,对于跨模态图文检索性能的提升,以下方法值得进一步探索研究:

(1)基于细粒度的图像-文本对齐的方法有助于探索模态间精细的潜在语义关系,可以更加灵活地应用于语义更复杂的跨模态图文检索场景,能够从语义的多样性出发,提高检索性能。

(2)不论是实值表示学习方法还是二进制表示学习方法,生成对抗网络的博弈思想都可用于保留模态间语义关系等信息,该网络结构能够有效提升跨模态检索的全局性能。

(3)对预处理的CNN 模型进行微调可以提高其对目标数据集的适应性,是避免从头开始训练CNN模型的有效策略,且该策略也通过反向传播来调整网络。因此是一种对于提升跨模态图文检索性能简单且有效的方法。

(4)注意力机制模型可以捕捉图像和文本中最具判别性的特征,有效区分单词及图像区域的被关注度,能有效解决信息过载问题,提高算法效率及准确性。对于需要关注模态局部特征的跨模态检索任务有很大助益。

4 应用

目前,跨模态图文检索技术在公安、传媒及医学领域等都有着广泛的应用。其中在公安领域主要应用于舆情分析以及对网络舆论欺诈事件的预测和处理,现有的舆情检测系统通常利用互联网来实现舆情的收集、追踪、监控和预警;在传媒领域主要应用于多媒体事件检测和意见挖掘,以及网络推荐系统等;在医学领域可应用于医学存储数据的查询。

4.1 公安领域的应用

跨模态图文检索在公安领域主要用于网络舆情分析和网络舆论欺诈。

网络舆情具有自由性、交互性、多元性、偏差性和突发性的特点,其分析流程如图8 所示,事件发生后,首先要进行突发事件的监测,然后对热点话题进行识别跟踪,对识别结果进行语义分析以进一步判断其情感倾向,最后对不同的情感倾向做出相应预警,同时也可通过信息索引数据库对已有热点事件进一步呈现,实现信息收集,并使其监控相关敏感信息,以提高事件监测效率。

图8 舆情分析一般流程图Fig.8 General flow chart of public opinion analysis

其中,热点话题识别包括主题跟踪、主题发现、相关发现等内容,要求对不同领域的相关图像与文本信息实现良好的信息提取,增强语义辨别能力;语义分析需要满足情感互补性和情感一致性,可分别采用图文融合和注意模型、模态贡献计算等方法,要求所提取的特征要克服语义模型的复杂性,挖掘丰富的语义相关性;对于事件预警,可通过事件分类模块来区分不同事件的等级。通过高效整合来自不同媒介的舆情,运用跨模态图文检索相关技术,可有效实现对突发事件的监测及预警,帮助公安机关有效杜绝涉警网络舆情发酵为群体性事件。

对于突发事件的监测,现有工作对相关问题研究较少,为了在实时的社交网络数据流中对突发事件进行监测和深度挖掘,文献[82]构建了国民安全突发事件检测系统,通过多模态图融合和话题恢复算法对突发事件进行检测,并利用国民安全突发事件分类模块过滤得到相关突发事件。

此外,对于网络舆情分析,现有的研究工作更多关注热点话题识别、语义分析和情感倾向分析三方面。针对舆情事件话题识别及语义分析,文献[83]提出基于文本的情感显著性特征提取方法和基于图文融合的跨模态舆情回归分析方法,将情感信息融入特征提取得到有利于文本情感分析的显著特征,并进行图文融合以解决模态间情感互斥问题。为了通过舆情语义分析进一步实现情感分析预测,文献[84]提出了深度多模态注意融合(deep multi-modal attention fusion,DMAF)模型,利用视觉和语义间的区别性特征和内在相关性,用视觉注意机制自动聚焦情感区域,语义注意机制突出情感相关词,分别捕捉最具辨别力的文本词和视觉区域,然后由基于中间融合的多模态注意模型联合情感分类,最后采用后期融合方案将三种注意力模型结合起来进行情感预测。该模型可以捕获互补和非冗余信息,能够有效处理模态数据不完整问题。

跨模态图文检索在公安领域还应用于网络舆论欺诈的预测与处理,现阶段随着互联网发展,图像式“网络谣言”被频繁地用在网络舆论欺诈中。在图像侦查中可以实时记录、分析、存储、再现证据,通过图像智能检索平台自动解决对图像的检索,从而获取所需画面,减少工作量,并以此作为电子数据证据或侦查的辅助手段。针对网络舆论欺诈问题,文献[86]研究了图文特征联合的证据图像检索技术,其工作原理如图9 所示,通过联合视觉和文本特征,在媒体上检索与网络舆论欺诈所用场景内容相似的图像,将此作为物证来实现对图像式网络舆论欺诈的反制。

图9 图文特征联合的证据图像检索系统工作原理图Fig.9 Schematic diagram of evidence image retrieval system based on combination of image and text features

目前,受已有的理论知识和技术手段的限制,复杂舆情倾向的判断和舆情自动监测等方面仍存在不少问题。同时,对于跨模态图文检索技术,由于文字语义的多义性及视觉数据存在的“认知鸿沟”,需要进一步研究并将其应用于该领域中来改善现状。

4.2 传媒领域的应用

跨模态图文检索技术在传媒领域主要应用于多媒体事件检测(multimedia event detection,MED)、意见挖掘以及网络推荐系统等。此外,文献[59],文献[87]和文献[88]利用跨模态特征表示及跨模态重构的方法实现了图像或视频的字幕生成。

多媒体事件检测一般需要从视频档案中找到特定事件的视频,并给出示例视频及事件描述,与之相关联的多媒体分类任务需要挖掘示例视频以学习最具区别性的特征,通过多个互补特征的组合获得最佳性能。对此,如图10 所示,文献[89]介绍了双融合的多模态方案,在对多模态特征提取后,通过早期融合和晚期融合的结合来实现不同特征的结合。

图10 多媒体事件检测系统示意图Fig.10 Schematic diagram of multimedia event detection system

对于不同用户的意见挖掘,社交媒体一般通过将不同模态的数据进行特征融合来完成情感分析,以进一步判断不同事件的情感极性。不同于以往简单的将不同模态数据相结合的方法,用于意见挖掘的情感分析聚焦于对特征融合方式的探索,现有方法通过结合图像内容、用户信息及媒体信息来实现良好的语义融合。

为了判断情感极性,文献[90]主要研究了图文联合的情感预测问题,将两个单独的CNN 架构用于学习文本和视觉特征,并将其组合作为另一个多头CNN架构的输入,应用于文本和图像间的内部关系,最后在两个类别(正或负)标签上产生分布。该方法在多媒体情感分析中取得了良好的效果。进一步结合用户数据,文献[91]提出了多特征融合的微博图文情感分析方法,构造了基于参数迁移和微调图像的情感分类模型,并为文本和图像情感分类模型设计特征层和决策层融合的方法。该方法结合了内容特征和用户特征,有效增强了模型捕捉情感语义的能力。受媒体中图文数据间存在强烈语义关联的启发,文献[92]提出了端到端的深度融合卷积神经网络,从训练实例中联合学习文本和视觉情感表示,将两种模态信息融合在汇聚层中,以预测情感极性。

此外,对于意见挖掘,除考虑其情感极性外,还应通过对媒体数据的分析发现准确的话题热点。对于该任务,文献[93]基于社交网络媒体数据提出了多模态融合的话题发现算法,通过在文本和图像上分别发掘潜在主题模型,构建文本图和视觉图,并对两个图进行语义融合得到多模态图,最后在多模态图上通过聚类和回归得到最终话题发现结果。

个性化网络推荐系统一般需要结合图像与相关语义属性学习图像语义特征表达,以提高产品推荐度,该任务通常需要预测不同社交媒体间的联系。为了应对社交媒体数据的多样性和异构性等特点,文献[94]设计了一个关系生成深度信念网络模型(relational generative deep belief nets,RGDBN),将非参数贝叶斯模型印度自助餐过程(Indian buffet process,IBP)集成到修改后的深度信念网络,学习能嵌入媒体内容和媒体关系的潜在特征。IBP 的核心思想是一个数据点可以拥有多个隐性特征,且这些特征概率和不为1。该模型能够分析异构和同构数据间的联系并进行跨模态检索,可以通过社交媒体应用到用户推荐中。

可以看出,跨模态图文检索技术的发展对于当前社交媒体中事件检测、意见挖掘和个性化推荐等任务有很大助益。但实际应用中,一些复杂的情感分析需要处理更高层次的抽象概念,要求对主体性、概念和线索有更进一步的理解,对于这类问题,还需对跨模态数据构建更深层次的精细关联。

4.3 医学领域的应用

跨模态图文检索技术在医学领域主要用于医学存储数据的查询。

现有医院信息系统主要面向特定类型的医疗数据,医学数据种类多、数据间语义关系明确的特点使得其成为了特殊的跨模态数据。文献[95]提出跨模态生物医学图像多标签分类算法,通过融合图像内容和说明文本,运用迁移学习技术,有效地识别了复合医学图像中的信息,进而提高了图像检索性能。作为现有医学图像数据处理的典型技术,医学影像存档与通信系统(picture archiving and communication systems,PACS)可以对医学图像数据进行获取、存储、检索和展示,该系统在查询时,通过输入关键字在关系数据库中对相关字段进行查询,找出了文件系统中对应的医学影像。此外,多模态索引图模型将不同数据间的语义关系传导至数据索引之间,进而计算出了不同模态间的相关性并对不同模态信息进行了融合。该检索算法流程图如图11 所示。

图11 基于模态网络模型的医学数据检索技术流程图Fig.11 Flow chart of medical data retrieval based on modal network model

目前,由于医疗数据的敏感性,与其他应用领域相比,医学领域对于跨模态图文检索技术的应用主要还是采用已标注的数据来优化模型,导致其在真实场景下的泛化能力受限。如何结合更多数据来源,如病历资料等来寻找更适合的深度学习方法有效地处理复杂的医疗数据是当前面临的一个挑战。

5 难点及未来研究趋势展望

尽管目前跨模态图文检索技术已经取得了长足发展,但其在模态特征表示、复杂语义处理、不同模态特征对齐以及数据集的构建等方面仍面临严峻的挑战,这些问题的解决也将成为未来的研究趋势,可概括如下:

(1)更精细的模态数据特征表示。模态特征表示是决定跨模态图文检索准确度的重要因素,不同的应用场景对于单模态全局或局部特征的选取要求以及特征提取方法各不相同。随着数据复杂度和用户需求的不断升级,对跨模态图文检索任务模态特征精细度会有更高的要求。

(2)不同模态特征之间的细粒度对齐。由于图像和文本之间存在异质性差异,导致从视觉数据中提取的信息与给定条件下用户对相同数据的解释之间会缺乏一致性。针对这一不足,利用注意力模型等,通过捕捉图像和文本间细粒度的对应关系以更好地表达模态特性是图文检索领域未来研究的一个热点。

(3)上下文相关信息的开发。跨模态关联往往与上下文信息有关。现有方法大多只将共存关系和语义类别标签作为训练信息,而事实上,跨模态数据通常包含了链接关系等重要的上下文信息。上下文信息的准确度是有效进行跨模态检索的重要保障,因此在复杂的实际应用中,需要开发上下文信息以更好地表达模态间的共性,并就此开展进一步的研究,以提高跨模态检索性能。

(4)简化参数形式和提高跨模态检索效率。跨模态图文检索的模型参数个数往往非常多,以至于在很大程度上限制了其应用场景,这也是目前研究者面临的主要挑战。到目前为止,虽然诸如跨模态哈希等技术已被用于提高跨模态检索效率,但跨模态检索速度的提升仍有待发展。

(5)优化目标函数求解算法。目前跨模态深度学习的训练算法仍不能避免鞍点所导致的寻优过程失败问题。因此,尽快提出非凸优化问题的优化求解算法也是跨模态检索领域需要解决的问题。

(6)数据集的扩展和标注。对于跨模态信息处理,高质量数据集可以有效避免过拟合等问题。跨模态信息处理的数据集非常难以构建,尽管Flickr 和MSCOCO 等数据集的图像数据量以及每幅图像的文本描述都很丰富,但是实际中的物体类别仍远超其所囊括的图像种类。因此,扩充数据集类别,对数据集进行更加充分的标注,能够从另一方面促进跨模态图文检索技术的发展和升级。

猜你喜欢
图文检索模态
联合仿真在某车型LGF/PP尾门模态仿真上的应用
多模态超声监测DBD移植肾的临床应用
画与理
跨模态通信理论及关键技术初探
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
英国知识产权局商标数据库信息检索
日版《午夜凶铃》多模态隐喻的认知研究
图文配
图文配