基于图上下文的知识表示学习

2021-06-21 01:53周泽华李冠宇
计算机应用与软件 2021年6期
关键词:图谱向量实体

周泽华 陈 恒,2 李冠宇*

1(大连海事大学信息科学技术学院 辽宁 大连 116026)2(大连外国语大学软件学院 辽宁 大连 116044)

0 引 言

知识图谱(KGs)[1-2]已成为机器学习、数据挖掘和人工智能应用(包括问答)[3]中许多任务的关键资源,例如实体消歧[4]、命名实体链接[5]、事实检查[6]和链接预测[7]。典型的知识图谱通常是一个多关系有向图,由一组关系三元组(h, r, t)组成,表示两个实体h和t之间的关系为r,例如(Mark Twain,PlaceofBirth, Florida)。知识图谱具有丰富的结构信息,在许多应用中发挥着重要作用。

尽管如此,知识图谱仍远没有达到完备的程度。知识图谱补全(KGC)和关系抽取(RE)是扩展知识图谱的两种典型方法。知识图谱补全的目标是在知识图谱原有结构的基础上,用新的事实丰富知识图谱。关系抽取旨在从纯文本中提取关系事实。有许多工作致力于关系抽取,如基于内核的模型[8]、基于嵌入的模型[9]和神经网络模型[10]。

KGC任务可以分为两个非互斥的子任务:实体预测和关系预测。实体预测任务采用部分三元组(h, r, ?)或(?, r, t)作为输入并输出候选实体的排名列表。关系预测任务的目的是找到连接头实体和尾实体的关系排名列表。Context_RL在知识图谱补全任务中特别关注实体预测任务。

近年来许多KGC算法被提出,它们都有共同特点:使用低维嵌入向量表示实体和关系。如Unstructured[11]、 TransE[12]、TransH[13]和TransR[14]等嵌入模型,都是使用成对(margin-based)排名损失函数,衡量每个三元组中h+r和t之间ln范数表示的距离。

其他模型,如神经张量网络(NTN)[15]和合成向量空间模型(CVSM)[16],将多层神经网络解决方案纳入现有模型。但是,由于它们的参数非常大,这些模型的扩展性不好,一次只考虑一个关系,从而限制了它们在大型真实世界知识图谱上的应用。

尽管上述方法在知识表示学习方面取得了成功,但大多数方法将知识图谱视为一组三元组,并分别独立地对每个三元组建模。然而,在现实中,三者是相互联系的,整个知识图谱可以看作是一个有向图,由顶点(即实体)和有向边(即关系)组成。很多现有方法只考虑链接实体的三元组信息,而忽略了更多的全局信息,例如多步路径、给定顶点的k度邻域等。将这些不同的结构信息称为图上下文信息,文献[17]同样考虑到这种结构信息。本文采用的图上下文信息即是节点的邻接节点和边的信息,如图1所示,Context_RL的总体结构如图2所示。

图1 实体e的位置及其图上下文信息

图2 Context_RL的总体结构

Context_RL的实体预测任务同其他模型一样,在得到知识图谱向量表示的基础上,通过实体排名进行实体预测。

1 相关工作

目前为止,学者们已提出了各种方法将实体和关系编码到一个连续的低维空间中[18-19]。如以TransE为代表的翻译模型,包括TransR[14]、TransD[20]等扩展模型。其他模型如NTN[15]、HolE[21]、RESCAL[22]和DISTMULT[23]等张量模型。

在上述TransE模型中,关系r在向量空间中表示h到t的平移,即如果知识图谱中存在三元组(h,r,t),则向量(h+r)接近t。因此,TransE的能量得分函数如下:

E(h;r;t)=‖h+r-t‖1/2

(1)

TransE简单高效,但其训练目标具有局限性,即只能满足1-1关系。这是因为实体缺失三元组(?, r, t)或(h, r, ?)只有一个候选实体可以满足h+r=t。当处理1-N、N-1和N-N复杂关系类型时,TransE难以获得准确的预测结果。但仍有以TransE模型为基础的扩展模型取得了更好的实验结果,例如PTransE[24],通过挖掘知识图谱中的路径信息在结构层面上加强知识表示学习的能力,表示形式为h+(r1○r2)=t,其中○表示加法、乘法或RNN中的一种组合运算。本文模型则是通过补充知识图谱中图上下文信息在语义层面上加强知识表示学习的能力,表示形式为hc+rc=tc,其中实体和关系分别融入了图上下文信息。

现有的知识表示学习模型大多只关注实体间的结构信息(如TransE)或实体的文本描述信息,较少考虑图上下文信息的模型。其中使用文本描述信息提高知识图谱表示学习的方法有:文献[15]提出了NTN模型,通过将每个实体表示为实体名称中单词向量的平均值,从而允许共享实体名称中类似文本描述的信息;文献[25]通过使用实体名称和Wikipedia锚的对齐模型,提出了一种将实体嵌入和单词嵌入联合到一个连续向量空间中的新方法;文献[26]提出了一种基于实体文本描述的对齐模型,用于联合嵌入知识库和文本语料库;文献[27]提出了DKRL模型,将词袋模型(Bag-of-words)和深度卷积神经模型作为编码器,编码实体文本描述的语义;文献[28]提出的模型学习了知识图谱和实体文本描述在一个统一的参数共享语义空间中的表示,并提出了一个知识图谱和文本描述间能突出重要特征的相互注意机制。

Context_RL受文献[29]图神经网络模型启发,以TransE模型为基础,通过融合图上下文信息,增强知识图谱的知识表示学习能力,从而更好地完成知识图谱补全任务。

相比基于文本描述的知识表示学习模型,Context_RL优点在于:

(1) 知识图谱中上下文信息来源清晰,与节点紧密相关,不存在噪声的问题。

(2) 对图上下文信息的处理更简便、高效。

2 模 型

2.1 符号和定义

知识图谱(KGs)定义为G={E,R,T},其中E、R和T分别表示实体集、关系集和三元组集合。对于每个三元组(h,r,t)∈T,关系r∈R表示头实体h∈E和尾实体t∈E间的关系,并且h,r,t∈Rn表示它们的嵌入维度为n。在知识图谱中:

(1) 对于节点e(即实体e),存在x个以该节点为尾实体的三元组,y个以该节点为头实体的三元组,得到基于图上下文的潜在实体嵌入为vec∈Rn,融合vec得到实体嵌入为ve∈Rn。

(2) 对于每条边r(即关系r),存在z个以该条边为关系的三元组,通过关系模型得到基于图上下文的关系嵌入,也即是最终的关系嵌入vr∈Rn。

2.2 基于图上下文的表示学习

在Context_RL中,将知识图谱的节点e(即实体e)的上下文信息作为模型输入,得到一个含有该实体上下文信息的嵌入向量,即潜在实体嵌入vec,然后将vec融合到该实体的初始嵌入向量中得到模型的输出,即实体嵌入ve。本文提出了潜在实体嵌入vec的模型方法表达式,表示为:

vec=f(g(Mht,Mr))Mht

(2)

式中:Mht∈R(x+y)×n和Mr∈R(x+y)×n分别是节点e(即实体e)的图上下文信息中的上下文矩阵和上下文关系矩阵,Mht和Mr共同构成了e的完整的图上下文信息。在定义以上两个变量的过程中,本文采用了TransE的模型假设,即对真实三元组,存在假设:h+r-t≈0。基于此条件,定义了Mht和Mr,分别表示为:

Mht=[h1+rh1,h2+rh2,…,hx+

rhx,t1-rt1,t2-rt2,…,ty-rty]

(3)

Mr=[rh1,rh2,…,rhx,rt1,rt2,…,rty]

(4)

式中:{h1,h2,…,hx}、{t1,t2,…,ty}和{rh1,rh2,…,rhx,rt1,rt2,…,rty}分别是节点e(即实体e)在其图上下文中以e为尾实体三元组的头实体集合、以e为头实体三元组的尾实体集合和相关的边(即关系)集合。在得到图上下文的Mht和Mr的表示基础上,可以计算Mht中各上下文向量与Mr中对应关系向量的相似度,本文采用余弦相似度进行相似度计算。定义式(2)中相似度函数g(·)为:

(5)

由式(5)得到上下文矩阵Mht中第i个上下文向量与上下文关系矩阵Mr中第i个关系向量的相似度。通过对各个相似度进行归一化处理,得到图上下文的权重,即式(2)中权重函数f(·)的定义,表示为:

(6)

由式(6)得到节点e(即实体e)的上下文矩阵Mht中各上下文向量的权重。按式(2),对Mht中的上下文向量进行加权求和计算出潜在实体嵌入vec。最后将e的初始嵌入向量融合vec即可得到模型的输出实体嵌入ve,其融合过程表示为:

(ve)[k]=(ve)[k-1]⊕vec

(7)

式中:(ve)[k]表示节点e(即实体e)在第k次迭代后得到的嵌入向量表示;⊕表示加法融合。

对知识图谱中某条边r(即关系r),存在z个三元组的关系为r,本文对关系嵌入vr建立关系模型表示为:

(8)

式中:Wht∈Rz×n表示边r(即关系r)的图上下文矩阵。Wht表示为:

Wht=[tr1-hr1,tr2-hr2,…,trz-hrz]

(9)

式中:{(hr1,tr1),(hr2,tr2),…,(hrz,trz)}表示与边r(即关系r)相关的所有实体对的集合,也即是r的图上下文信息。在关系模型中,忽略了r的初始嵌入向量,是因为在满足了模型假设的同时,不仅防止了信息的重合,也有利于提高模型的效率。

为得到更好的训练结果,定义目标函数如下。首先使用Sigmoid函数σ(·)计算各个候选实体的概率,计算式表示为:

fo(vec,vo)=b-‖vec-vo‖

(10)

P[i]=σ(fo(vec,vo)[i])

(11)

式中:vo表示某个候选实体的嵌入向量;b为偏置参数;函数fo(vec,vo)的作用是计算当前实体的潜在实体嵌入vec与候选实体vo的距离值。式(11)表示在函数σ(·)的变换下得到所有候选实体是目标实体的概率P。基于候选实体的概率定义交叉熵损失函数,即目标函数,表示为:

(1-t[i])log(1-P[i])))

(12)

式中:N表示候选实体的个数;t[i]表示第i个候选实体的标签,其取值为{0,1}。当第i个候选实体为目标实体时,t[i]为1,否则为0。

在模型优化时,本文使用的是随机梯度下降法(SGD)。在实验过程中,为防止数据出现过拟合,令‖ve‖≤1和‖vr‖≤1。本文算法如算法1所示。

算法1Context_RL模型算法

输入:Training setS= {(h,r,t)},entities and relations. setsEandR, marginb, embeddings dim.n。

initialize

loop

r←r/‖r‖ for each relationr∈R

e←e/‖e‖ for each entitye∈E

Sbatch←sample (S,s)

//抽取数量大小为s的训练样本

for (h,r,t)∈Sbatchdo

(Mht,Mr)←graph context ofhort//从集合S中获取h,t

//的图上下文,并以TransE模型为基础进行处理

sim←calculate similarity betweenMhtandMr

e←e⊕(sim·Mht)

//e表示头实体h或尾实体t

Wht←graph context ofr

//从集合S中获取r的图上下文,

//并以TransE模型为基础进行处理

r←average ofWht

end for

Update embeddingsw.r.t

//更新参数

end loop

3 实 验

为说明本文模型在提高知识图谱表示学习能力中融合图上下文信息的有效性,在给出的数据集上进行了实体预测实验。

3.1 参数设置

在实验过程中,所有的嵌入向量的嵌入维度n=100;以模型每次运行完整个训练集为一轮,设置运行轮次k=500;在定义目标函数时,用到偏置参数b,考虑到‖ve‖≤1,设置b=1;SGD的学习率设置为0.001。

3.2 实验数据

WN18是WordNet的一个子集,WordNet是一个以单词间的词汇关系为特征的数据库,同时这个数据集存在许多逆关系。因此,WN18的主要关系模式也是对称/反对称和反转。数据集WN18RR是WN18的一个子集,删除反转关系,主要关系模式为对称/反对称。

FB15k是Freebase的一个子集,Freebase是一个包含一般事实知识的大型知识库。其主要关系模式是对称/反对称和反转。数据集FB15k-237是FB15k的一个子集,删除反转关系,主要关系模式为对称/反对称。

本文所有数据集的组成如表1所示。

表1 数据集中实体、关系、三元组的数量

3.3 实体预测

实验结果的参考指标为MR和H@10,其含义分别为实体预测时正确实体的平均排名和正确实体排在前10的百分比。并将Context_RL的结果与其他模型结果进行了比较,结果如表2和表3所示。

表2 数据集WN18RR和FB15k-237上的实体预测结果

表3 数据集WN18和FB15k上的实体预测结果

实验结果表明,通过Context_RL得到的结果,在给定的两个参考指标上明显优于其他模型,证明了Context_RL的有效性和可行性,同时说明知识图谱的上下文信息加强了知识表示学习的能力,提高了实体预测的准确率。

3.4 三元组分类

三元组分类是一个二分类问题,判断给定的三元组(h,r,t)是正确还是错误的。采用文献[30]的抽样方法,实验数据集是数据集WN18和FB15k,评价指标是分类的准确率,实验结果如表4所示。

表4 三元组分类实验准确率结果 %

可以看出,Context_RL在三元组分类上同样取得了很好的结果,与TransE的结果相比:在数据集WN18上,准确率提升了0.2百分点;在语义更丰富的数据集FB15k上,准确率提升了9.5%,说明了Context_RL可以应用到大规模知识图谱上。

4 结 语

本文提出Context_RL模型,通过知识图谱中节点或边(即实体或关系)的图上下文信息,来加强该实体或关系的语义表示,从而得到更加准确和可靠的向量表示。

Context_RL在WN18、FB15k等有关数据集上进行了实体预测和三元组分类实验,并与现阶段经典的TransE和最新的ConvE等模型进行了比较,取得了更好的结果。

未来的工作中,在模型Context_RL的基础上,仍然可以通过更加精确的融合模型来融合潜在实体嵌入,进一步提高知识图谱的知识表示学习能力。

猜你喜欢
图谱向量实体
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
向量的分解
知识图谱的候选实体搜索与排序①
实体书店步入复兴期?
图表
2017实体经济领军者
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
关于推动实体书店经营发展的几点思考