面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法

2023-11-24 05:25杜军平寇菲菲许明英
计算机研究与发展 2023年11期
关键词:跨媒体检索语义

李 昂 杜军平 寇菲菲 薛 哲 徐 欣 许明英 姜 阳

(北京邮电大学计算机学院(国家示范性软件学院)北京 100876)

(智能通信软件与多媒体北京市重点实验室(北京邮电大学)北京 100876)

(junpingdu@126.com)

科技资讯聚焦了中外高新技术的前沿动态.实时跟进最新的科技资讯,有助于促进国家战略科技力量的发展,驱动科技创新,进而确保国家高质量发展[1].科技资讯中包含大量的多媒体信息(如图像、文本等),具备体量大、来源丰富、类型多样等特点[2-3].随着用户感兴趣的科技资讯模态不再单一,检索需求也呈现出从单一模态到跨模态的发展态势[4-5].凭借跨媒体科技资讯检索,用户能够从多源异构的海量科技资源中获取目标科技资讯;研究者亦能近一步设计出符合用户需求的应用,包括科技资讯推荐[6]、个性化科技资讯检索[7]等.跨媒体科技资讯检索作为当下的研究热点,仍旧面临着多媒体数据间异构鸿沟和语义鸿沟亟待打破的难题[8-9].本文旨在解决现有跨媒体科技资讯检索中仅考虑了媒体内数据判别损失和媒体间数据在映射后的不变性损失,却忽略了媒体间数据在映射前后的语义一致性损失和语义内的媒体判别性损失,使得跨媒体检索效果存在局限性的问题.

跨媒体科技资讯检索方法种类繁多.先前的工作[10-14]聚焦于传统的统计关联分析方法,通过优化统计值来学习公共空间的线性投影矩阵[15],目的是建立一个共享子空间,使得不同媒体类型的数据对象的相似性可以映射到该子空间中,再使用常见的距离进行度量.然而,文献[10-14]所述的方法依赖于数据的线性表示,仅通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性.因此,一些研究[16-20]通过深度学习方法解决上述问题,利用其强大的抽象能力处理多媒体数据的多层非线性变换,进行跨媒体相关学习.然而,现有的基于深度学习的跨媒体检索模型通常只专注于保留耦合的跨媒体样本(例如图像和文本)的成对相似性[21],却忽略了一种媒体的一个样本可能存在多个相同媒体的语义不同的样本,因此无法保留跨媒体语义结构.保留跨媒体语义结构需要使得相同语义不同媒体的数据间距离最小化,且相同媒体不同语义的数据间距离最大化.最近的工作[22-26]引入对抗学习的思想,通过联合执行标签预测并保留数据中的底层跨媒体语义结构,为公共子空间中不同媒体的样本生成媒体不变表示.然而,文献[22-26]所述的方法聚焦于建模媒体内数据的语义判别性和媒体间数据在子空间映射后的语义不变性,却忽略了媒体间数据在映射前后的语义一致性和语义内的媒体判别性,使得跨媒体检索效果存在局限性.

针对上述问题,引入语义内的媒体约束来加强将不同类型的媒体数据映射到共享高级语义空间的能力,提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索(semantics-adversarial and mediaadversarial cross-media retrieval,SMCR)方法.SMCR 方法采用对抗博弈[27]的思想,构建特征映射器和媒体判别器,进行极小化极大化游戏.SMCR 方法追随先前工作[28-29],采用标签预测来确保数据在特征投影后仍保留在媒体内的区别.与先前工作不同的是,SMCR 方法同时最小化相同语义的文本-图像对中不同媒体的数据分别在特征映射前和特征映射后的距离,以确保不同媒体间数据在映射过程中的语义一致性得以保留.此外,通过构建基础映射网络和精炼映射网络共同辅助建模语义内的媒体约束,使映射后的数据做到语义上接近自身和媒体上远离自身,来增强特征映射网络混淆媒体判别网络的能力.媒体判别网络负责区分数据的原始媒体,一旦媒体判别网络被欺骗,整个博弈过程收敛.

本文的主要贡献包括3 个方面:

1)提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法(SMCR),通过端到端的方式同时保持媒体内的语义判别性、媒体间的语义一致性、语义内的媒体判别性,能够有效地学习异构数据的公共表示;

2)通过构建基础特征映射网络和精炼特征映射网络联合进行多媒体数据特征映射,辅助语义内的媒体约束,有效地增强了特征映射网络混淆媒体判别网络的能力;

3)在2 个数据集上进行的大量实验表明,本文提出的SMCR 方法优于当前最前沿的跨媒体检索方法,包括传统的方法和基于深度学习的方法.

1 相关工作

科技资讯跨媒体检索是近年来的研究热点,旨在学习一个公共子空间[13,24,30],使得不同媒体的数据在该子空间中可以直接相互比较,以跨越不同媒体间存在的语义鸿沟.

一类经典的方法当属传统的统计关联分析方法[10-14],它是公共空间学习方法的基本范式和基础,主要通过优化统计值来学习公共空间的线性投影矩阵.例如,Hardoon 等人[12]提出典型关联分析(canonical correlation analysis,CCA)方法,CCA 方法是一种关联2 个多维变量之间线性关系的方法,可以被视为使用复杂标签作为引导特征选择朝向底层语义的一种方式.该方法利用同一语义对象的2 个视角来提取语义的表示.Wang 等人[13]提出一种基于耦合特征选择和子空间学习的联合学习(joint feature selection and subspace learning,JFSSL),受CCA 和线性最小二乘法之间潜在关系的启发,将耦合线性回归用于学习投影矩阵,使来自不同媒体的数据映射到公共子空间中.同时,JFSSL 将l2正则用于同时从不同的特征空间中选择相关和不相关的特征,并且在映射时使用多媒体图正则化来保留媒体间和媒体内的相似性关系.Zhai 等人[14]提出了一种新的跨媒体数据特征学习算法,称为联合表示学习(joint representation learning,JRL).该方法能够在统一的优化框架中联合探索相关性和语义信息,并将所有媒体类型的稀疏和半监督正则化集成到一个统一的优化问题中.JRL旨在同时学习不同媒体的稀疏投影矩阵,并将原始异构特征直接投影到联合空间中.然而,仅通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性.

随着深度学习的兴起,许多研究聚焦于将能够实现多层非线性变换的深度神经网络应用于跨媒体检索中[16-20].例如,Yan 等人[17]提出一种基于深度典型相关分析(deep canonical correlation analysis,DCCA)的跨媒体图像字幕匹配方法.通过解决非平凡的复杂性和过度拟合问题,使该方法适用于高维图像和文本表示以及大型数据集.Peng 等人[18]提出一种跨媒体多重深度网络(cross-media multiple deep network,CMDN),通过分层学习来利用复杂而丰富的跨媒体相关性.在第1 阶段,CMDN 不像先前工作仅利用媒体内的分离表示,而是联合学习每种媒体类型的2种互补的分离表示;在第2 阶段,由于每种媒体类型都有2 个互补的独立表示,该方法在更深的2 级网络中分层组合单独的表示,以便联合建模媒体间和媒体内的信息以生成共享表示.然而,现有的基于深度神经网络的跨媒体检索模型通常只专注于保留耦合的跨媒体样本(例如图像和文本)的成对相似性,却忽略了一种媒体的一个样本,可能存在多个相同媒体的语义不同的样本,因此无法保留跨媒体语义结构.

近年来,相关研究转而向对抗学习[31]进行探索.虽然它在图像生成[32]中应用较广,但研究者也将其用作正则化器[33].一些研究将其思想应用于跨媒体检索,并取得了显著的效果[22-26].例如,Wang 等人[24]提出一种基于对抗跨媒体检索(adversarial cross-modal retrieval,ACMR)方法来解决跨媒体语义结构难保留的问题.该方法使用特征投影器,通过联合执行标签预测并保留数据中的底层跨媒体语义结构,为公共子空间中不同媒体的样本生成媒体不变表示.ACMR 的目的是混淆充当对手的媒体分类器,媒体分类器试图根据它们的媒体来区分样本,并以这种方式引导特征投影器的学习.通过这个过程的收敛,即当媒体分类器失败时,表示子空间对于跨媒体检索是最优的.Zhen 等人[25]提出一种深度监督跨媒体检索(deep supervised cross-modal retrieval,DSCMR)方法,旨在找到一个共同的表示空间,以便在其中直接比较来自不同媒体的样本.该方法将标签空间和公共表示空间中的判别损失最小化,以监督模型学习判别特征.同时最小化媒体不变性损失,并使用权重共享策略来消除公共表示空间中多媒体数据的跨媒体差异,以学习媒体不变特征.刘翀等人[26]提出一种基于对抗学习和语义相似度的社交网络跨媒体搜索方法(semantic similarity based adversarial cross media retrieval,SSACR),SSACR 使用语义分布及相似度作为特征映射网训练依据,使得相同语义下的不同媒体数据在该空间距离小、不同语义下的相同媒体数据距离大,最终在同一空间内使用相似度来排序并得到搜索结果.然而,文献[24-26]聚焦于建模媒体内数据语义损失和媒体间数据在映射后的语义损失,却忽略了媒体间数据在映射前后的语义一致性和语义内的媒体判别性,使得跨媒体检索效果存在局限性.

2 问题定义

多媒体数据种类繁多,为了不失通用性,本文聚焦于文本、图像2 种媒体的跨媒体检索.给定一系列语义相关的图像-文本对m={m1,m2,…,m|m|},其中mi=(vi,ti)表示m中的第i个图像-文本对,表示维度为dvis的图像特征向量,表示维度为dtex的文本特征向量.每个图像-文本对都对应着一个语义类别向量li=(y1,y2,…,yC)∈RC,用来表示图像-文本对的语义分布,也可以表示类别标签分布.其中C表示语义类别总数,假设li属于第j个语义类别,则记yj=1,否则记yj=0 .记m中所有的图像、文本、语义类别所对应的特征矩阵为V=(v1,v2,…,vN)∈T=(t1,t2,…,tN)∈L=(l1,l2,…,lN)∈RC×N.

我们的目标是利用一种媒体的数据(如图像vi或文本ti)检索另一种媒体的数据(如文本ti或图像vi).为了比较不同媒体数据之间的语义相似性,我们设计2 个特征映射网络——基础映射网络和精炼映射网络.基础映射网络将图像特征和文本特征映射到统一的隐语义空间S中以进行语义相似性的对比.图像特征V映射到隐语义空间S后的特征记为SV=fV(V;θV),文本特征T映射到隐语义空间S后的特征记为ST=fT(T;θT) .其中fV(V;θV)和fT(T;θT)分别表示图像和文本的映射函数.为了近一步提高特征映射质量,我们用精炼映射网络对基础映射网络的输出特征进行映射.图像特征SV映射后的特征记为文本特征ST映射后的特征记为其中表示图像特征和文本特征的映射函数.

3 面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法

本文提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法(SMCR).SMCR 的框架如图1 所示.本文的目的是利用对抗学习的思想不断在语义与媒体间进行对抗,学习到一个公共子空间,使不同媒体的数据在该子空间中可以直接相互比较.

Fig.1 The overall framework of SMCR图1 SMCR 的整体框架

3.1 特征映射网络

本文采用特征映射网络是为了将不同媒体的特征映射到统一的隐语义空间以便进行语义相似性的比较.同时,特征映射网络也扮演着GAN[27]中“生成器”的角色,目的是为了迷惑媒体判别网络(将在3.2节介绍).为了使映射后的特征表示充分考虑2 类媒体数据的语义相似性和媒体相似性,本文设计的特征映射网络由3 部分组成:媒体内的标签预测、媒体间的语义保留、语义内的媒体约束.媒体内的标签预测使得映射在隐语义空间S中的特征依然能够以原始的语义标签为真值进行语义分类;媒体间的语义保留使得语义相同媒体不同的数据在映射前后都能保留语义相似性;语义内的媒体约束使得映射后的数据更加逼近原本语义.

3.1.1 标签预测

为了保证映射到隐语义空间S中的特征依然能够保留原始语义,以原始的语义标签为真值进行语义分类.在每个特征映射网络的最后加入一个保持线性激活的softmax 层.将图像-文本对mi=(vi,ti)作为样本进行训练,并输出每个数据对应语义类别的概率分布.采用在文献[24]中介绍的损失函数来计算媒体内的判别损失:

其中Limd表示对所有图像-文本对进行语义类别分类的交叉熵损失,θimd表示分类器的参数,li是每个样本mi的真值,是样本中每个数据(图像或文本)所得到的概率分布.

3.1.2 语义保留

语义保留模块致力于保证语义相同、媒体不同的数据在映射前后都能保留语义相似性,即媒体不同、语义相同的数据距离较近,媒体不同、语义不同的数据距离较远.在映射到隐语义空间S之前,每个样本mi中的图像数据与文本数据的语义分布分别为lvis和ltex,那么2 个不同媒体数据间的语义一致性损失用l2范数表示为

在映射到隐语义空间S之后,每个样本mi中的图像数据特征SV与文本数据的特征ST之间的语义一致性损失同样用l2范数表示为

因此,整体的媒体间一致性损失可以建模为l2(lvis,ltex) 和l2(SV,ST)两者的结合:

其中Limi表示媒体间同时考虑映射前与映射后的语义一致性损失.

3.1.3 媒体约束

除了便于度量不同媒体数据间的语义相似性之外,特征映射网络的另一个作用是生成映射后的特征来欺骗媒体判别网络,让它无法区分出数据的原始媒体.因此,引入语义内的媒体约束模块.为了能够更加逼真地映射出难以区分媒体的特征,在基础的特征映射网络P1之外,构造另一个相同结构的特征映射网络P2,称为精炼网络.精炼网络P2的输入是P1的输出结果SV或ST.P2的输出是或其中分别表示SV和ST经过特征映射网络P2映射后的特征,分别表示SV和ST这2 种特征的映射函数.

对每一个图像-文本对mi而言,目标是让精炼网络P2映射出的特征距离基础网络P1映射的特征(SV或ST)较远,距离相同语义的特征(ST或SV)较近.受到文献[34-36]启发,语义内的媒体判别损失采用如下约束损失进行计算:

其中Lcon,V表示图像媒体数据的约束损失,Lcon,T表示文本媒体数据的约束损失.

因此,整体语义内的媒体判别损失可以建模为图像媒体数据的约束损失与文本媒体数据的约束损失的结合:

3.1.4 特征映射网络损失

整个特征映射网络的映射性损失由媒体内的判别损失Limd、媒体间的一致性损失Limi、语义内的判别损失Lcom共同组成,记为Lemb:

其中 α 和 β 为可调节参数,用以控制Limi和Lcon这2 类损失在整个特征映射网络损失中的参与度.

3.2 媒体判别网络

媒体判别网络扮演着GAN[27]中“判别器”的角色,用来判断映射到隐语义空间后的数据的原始媒体.令经过图像映射函数的数据标签为0,经过文本映射函数的数据标签为1.本文使用一个参数为 θdis的3 层全连接网络作为判别网络,充当特征映射网络的对手.其目标是最小化媒体分类损失,也称为对抗性损失Ladv,定义为

其中Ladv表示媒体判别网络中每个样本mi的交叉熵损失,D(·;θdis)表示样本中每个数据(图像或文本)所得到的媒体概率分布.

3.3 对抗学习

对抗学习的目的旨在通过同时最小化式(8)的映射性损失和式(9)的对抗性损失,来学习得到最优的特征表示网络参数,定义如下所示:

具体的对抗学习训练过程如算法1 所示.

算法1.SMCR 的对抗训练过程.

输入:图像特征矩阵V=(v1,v2,…,vN),文本特征矩阵T=(t1,t2,…,tN),真值语义标签矩阵L=(l1,l2,…,lN),迭代次数k,学习率 μ,每个批次的数据量m,损失参数 λ;

4 实验设置

本文分别阐述对实验部分至关重要的研究问题、数据集、对比算法、评价指标等4 个方面.

4.1 研究问题

本文通过3 个研究问题来引导实验的设置.

研究问题1.面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法SMCR 的表现能否优于前沿的跨媒体检索算法.

研究问题2.SMCR 方法的主要组成部分对于跨媒体检索是否存在贡献.

研究问题3.SMCR 方法是否对参数敏感.

4.2 数据集

为了回答上述3 个研究问题,使用爬取自科技资讯网站SciTechDaily[37]的数据集进行实验.数据集包括5 217 个图像-文本对,将其中的4 173 对数据作为训练集,1 044 对数据作为测试集.为了验证本文模型的通用性,同时使用Wikipedia[38]数据集进行实验.Wikipedia 数据集包括2 866 个图像-文本对,将其中的2 292 对数据作为训练集,574 对数据作为测试集.这2 个数据集的详细信息如表1 所示.

Table 1 Attributes of Two Datasets Used for the Experiments表1 实验使用的2 个数据集的属性

4.3 对比算法

本文将SMCR 与相关的基准算法和前沿算法进行比较,对比算法如下.

1)典型关联分析(canonical correlation analysis,CCA).该模型[12]为不同的媒体类型的数据学习一个公共子空间,使2 组异构数据之间的关联最大化.

2)基于耦合特征选择和子空间学习的联合学习(joint feature selection and subspace learning,JFSSL).该模型[13]学习投影矩阵将多媒体数据映射到一个公共子空间,并同时从不同的特征空间中选择相关的和有区别的特征.

3)跨媒体多重深度网络(cross-media multiple deep network,CMDN).该模型[18]通过分层学习来利用复杂的跨媒体相关性.在第1 阶段,联合对媒体内和媒体信息进行建模;在第2 阶段,分层组合媒体间表示和媒体内表示来进一步学习丰富的跨媒体相关性.

4)基于对抗的跨媒体检索(adversarial crossmodal retrieval,ACMR).该模型[24]基于对抗性学习寻求有效的公共子空间.对特征投影器施加3 重约束,以最小化来自具有相同语义标签、不同媒体的所有样本表示之间的差距,同时最大化语义不同的图像和文本之间的距离.

5)深度监督跨媒体检索(deep supervised crossmodal retrieval,DSCMR).该模型[25]同样基于对抗性学习的思想,将标签空间和公共表示空间中的判别损失最小化,同时最小化媒体不变性损失,并使用权重共享策略来消除公共表示空间中多媒体数据的跨媒体差异.

6)基于对抗学习和语义相似度的社交网络跨媒体搜索(SSACR).该模型[26]同样基于对抗性学习的思想,将映射到同一语义空间的不同媒体数据的特征向量进行了相似度计算,并与原本的语义特征向量之间的相似度进行比较,以消除同一语义下不同媒体数据的差异.

4.4 评价指标

本文采用跨媒体检索[39-40]中经典的评价指标——平均精度均值(mean average precision,mAP),在文本检索图像txt2img 和图像检索文本img2txt 这2 个任务上,分别对SMCR 和所有对比算法进行评价.计算mAP,首先需计算R个检索出的文档的平均精度其中T是检索出的文档中的相关文档数量,P(r) 表示前r个检索出的文档的精度,如果第r个检索出的文档是相关的,则 δ(r)=1,否则δ(r)=0.然后通过对查询集中所有查询的AP值进行平均来计算mAP.mAP值越大,说明跨媒体检索结果越精准.

5 实验结果与分析

本节对所有实验结果进行分析,来回答4.1 节提出的研究问题.

5.1 SMCR 算法的有效性

为了回答研究问题1,将SMCR 和6 个前沿算法分别在SciTechDaily,Wikipedia 这2 个数据集上进行对比.对比算法为:1)基于统计关联分析的方法CCA[12],JFSSL[13];2)基于深度学习的方法CMDN[18],ACMR[24],DSCMR[25],SSACR[26].

表2 展示了本文在文本检索图像txt2img 和图像检索文本img2txt 这2 个任务上,对前5 个、前25 个、前50 个的检索结果计算mAP值(mAP@5,mAP@25,mAP@50)和2 个检索任务的mAP均值的结果.

Table 2 Comparison of Cross-Media Retrieval Performance on SciTechDaily and Wikipedia Datasets表2 在SciTechDaily 和Wikipedia 数据集上的跨媒体检索性能比较

从表2 中,我们有以下发现:

1)SMCR 的表现优于所有前沿算法,包括基于统计关联分析的方法和基于深度学习的方法.其中SMCR 方法在前5 个、前25 个、前50 个的检索结果上的mAP均值在2 个数据集上均优于目前最前沿的SSACR 算法.这表明,虽然SSACR 同样建模了媒体内语义损失和媒体间语义损失,SMCR 引入语义内的媒体约束模块,通过更加逼真地映射出难以区分媒体的特征表示,有助于进一步提升跨媒体检索性能.

2)SMCR 和JFSSL,CMDN,ACMR,DSCMR,SSACR等同时建模媒体内相似性和媒体间相似性的模型,效果优于基于图像-文本对建模媒体间相似性的CCA,表明同时考虑媒体内相似性和媒体间相似性能够提高跨媒体检索精度.

3)SMCR 和ACMR,DSCMR,SSACR 的跨媒体检索性能优于在多任务学习框架中同样建模了媒体间不变性和媒体内判别性的CMDN,表明对抗学习有助于进一步提升媒体间不变性和媒体内判别性的建模.

4)SMCR 通过分别建模相同语义、不同媒体数据在映射前和映射后的语义相似性,表现优于仅建模相同语义、不同媒体间数据在映射后的语义相似性的ACMR 和DSCMR.这表示建模不同媒体的数据在映射前后的语义不变性有助于提高跨媒体检索精度.

5)SMCR 和所有前沿算法在SciTechDaily,Wikipedia 这2 个数据集上的表现一致,表明SMCR 算法不仅局限于跨媒体科技资讯的检索,而且在通用的跨媒体检索任务中同样具备良好效果.

5.2 SMCR 方法主要组成部分的贡献

为了回答研究问题2,我们将SMCR 与去掉媒体间语义损失Limi的SMCR、去掉语义内媒体损失Lcon的SMCR 在SciTechDaily 和Wikipedia 这2 个数据集上进行对比.由于采用标签分类建模的媒体内语义损失Limd并非本文创新,因此不对去掉Limd的SMCR进行对比,结果如表3、表4 所示.从表3、表4 中有2点发现:

Table 3 Performance of SMCR and Its Variants in SciTechDaily Dataset表3 SMCR 与其变种在SciTechDaily 数据集上的表现

Table 4 Performance of SMCR and Its Variants in Wikipedia Dataset表4 SMCR 与其变体在Wikipedia 数据集上的表现

1)去掉媒体间语义损失Limi的SMCR 和去掉语义内媒体损失Lcon的SMCR,相比SMCR,跨媒体检索mAP值均有所下降.这表明在特征映射网络中同时优化媒体间语义损失Limi和语义内媒体损失Lcon相比单独优化其中一个更有助于提升跨媒体检索表现.

2)SMCR 与其变体在SciTechDaily,Wikipedia 这2 个数据集上的跨媒体检索表现一致,再次表明SMCR 方法并不局限于跨媒体科技资讯检索,而在通用的跨媒体检索任务上同样有效.

5.3 SMCR 方法的参数敏感性

本节回答研究问题3.式(8)中的特征映射网络的映射性损失Lemb有 α 和 β这2 个参数,分别控制媒体间语义损失Limi和语义内媒体损失Lcon在整体映射性损失Lemb中的参与度.本节在Wikipedia 数据集上改变α 和 β 的取值,以测试SMCR 算法的参数敏感性.将α和 β分别取值0.1,1,10,100,特别而言,当α=0时SMCR 退化为去掉媒体间语义损失Limi的SMCR;当β=0时 SMCR 退化为去掉语义内媒体损失Lcon的SMCR.因此 α 和 β 的取值不为0.固定一个参数(如 α)的前提下,改变另一个参数(如 β)进行实验,并采用mAP@50分别评估文本检索图像效果、图像检索文本效果、平均检索效果,结果如图2 所示.

Fig.2 Retrieval performance with α and β in Wikipedia dataset图2 Wikepedia 数据集上在 α 和 β下的检索效果

从图2中可见,当 α取值为0.1,1,10 和 β取值为0.1,1,10,100 时,SMCR 表现较好.这表明SMCR 对参数不敏感,即泛化能力较好.特别地,在文本检索图像任务上,当 α=0.1 且 β=0.1时,SMCR 表现最优;在图像检索文本任务上,当 α=1且 β=-1时,SMCR取得最优检索效果;在平均检索效果上,当 α=-1且β=-1时,SMCR 表现最好.

6 结论

本文提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法(SMCR),能够同时学习跨媒体检索中的媒体内判别性、媒体间一致性、语义内判别性表示.SMCR 基于对抗学习方法,在极小化极大化游戏中涉及2 个过程:生成具有媒体内判别性、媒体间一致性、语义间判别性表示的特征映射网络和试图辨别给定数据原始媒体的媒体判别网络.本文引入媒体间一致性损失,以确保映射前后的媒体间数据保留语义一致性;此外,引入语义内媒体判别性损失,以确保映射后的数据在语义上接近自身,媒体上远离自身来增强特征映射网络混淆媒体判别网络的能力.在2 个跨媒体数据集上进行的综合实验结果证明了SMCR 方法的有效性,且在跨媒体检索上的表现优于最前沿的方法.

作者贡献声明:李昂负责论文初稿撰写及修改、实验设计验证与核实;杜军平负责论文审阅与修订、研究课题监管与指导;寇菲菲负责指导实验方法设计;薛哲负责指导论文选题;徐欣和许明英负责实际调查研究;姜阳负责数据分析与管理.

猜你喜欢
跨媒体检索语义
“跨媒体表征学习及认知推理”专栏征文通知
“跨媒体表征学习及认知推理”专栏征文通知
语言与语义
2019年第4-6期便捷检索目录
“上”与“下”语义的不对称性及其认知阐释
专利检索中“语义”的表现
跨媒体出版物的平台互动研究
认知范畴模糊与语义模糊
基于跨媒体字典的图像检索
语义分析与汉俄副名组合