结合卷积特征提取和路径语义的知识推理

2021-09-11 03:13陈新元谢晟祎陈庆强刘羽

智能系统学报 2021年4期

陈新元，谢晟祎，陈庆强，刘羽

（1.闽江学院计算机与控制工程学院，福建福州 350121;2.福州墨尔本理工职业学院信息工程系，福建福州 350121;3.福建农业职业技术学院教学科研处，福建福州 350181;4.福建工程学院信息科学与工程学院，福建福州 350118;5.福州墨尔本理工职业学院现代教育技术中心，福建福州 350121）

知识库(knowledge base,KB)[1]以三元组的形式编码事实，三元组由实体和关系组成。主流知识库(如NELL[2]、YAGO[3]、Freebase[4]等)在语义搜索[5]和问题解答[6]等领域[7]应用广泛。

然而，现有知识库缺失大量事实，即三元组不完整，缺少实体或关系[8]。知识图谱补全(knowledge graph completion,KGC)[9]旨在解决该问题，通过提取局部模式或语义特征，用已知信息生成新的有效事实[10-11]，许多学者对KGC 的核心概念、关键问题、主流技术和未来方向进行了分析、总结和展望[12-13]。模式提取借助贝叶斯扩展或张量/矩阵分解[14]增强表达能力，但往往忽略了路径携带的语义信息，经典模型如RESCAL[15]、TransE[16]、DistMult[17]和ConvE[18]。上述模型大多忽略路径携带的语义信息。

在知识推理中，实体对间的多条关系路径所携带的语义信息有助于判定三元组的有效性[19-20]。Neelakantan 等[21]和Das 等[22]使用循环神经网络(recurrent neural networks,RNN)进行关系路径嵌入以减小计算开销。由于常规RNN 无法学习到长序列的语义依赖，Hochreiter 等[23]提出了LSTM(long short-term memory)，引入门控结构计算遗忘和更新的信息。Xu 等[24]将注意力机制引入图像物体识别；目前该机制已应用到机器翻译和知识补全。Xiong 等[25]结合嵌入模型和路径模型的优点，使用强化学习框架，在TransE 的基础上将智能体编码至连续空间中，通过最优关系采样和路径扩展进行推理，同时设计了自定义的奖励函数,兼顾局部模式提取和语义关联识别[26-28]。

本文设计了PKICLA 方案(path-based knowledge inference with CNN,LSTM and attention mechanism)，结合卷积神经网络(convolutional neural networks,CNN)和双向LSTM 实现基于关系路径嵌入的局部特征提取和向量序列合并，同时借助注意力机制实现多路径权重分配，集成关系语义评分，在NELL995 和FB15k-237 数据集上进行链路预测，比较PKICLA 与其他主流模型的性能。

1 相关研究

1.1 嵌入模型

KGC 中，嵌入模型的基本思路是学习节点和关系的低维矢量表示，保留原有结构信息和知识约束，如TransE 将关系映射为平移向量，认为若三元组成立，则平移后的头部向量应靠近尾部向量，即vh+vr≈vt，其中vh、vr、vt是实体和关系的嵌入向量表示。三元组局部特征在各向量同一维度的映射中得以保留。许多模型对TransE 进行了优化，TransH[29]为关系分配超平面wr以体现实体的角色差异，TransR[30]使用投影矩阵Wr替换wr以提高表达能力。

1.2 神经网络模型

近年来，在自然语言处理(natural language processing,NLP) 领域，最初用于计算机视觉的CNN 大放光彩[31]，其参数规模和计算开销远少于全连接神经网络。ConvE 在ComplEx[32]的基础上引入CNN，将vh、vr转化并拼接后作为卷积层输入，过滤器提取特征映射张量后，将其向量化并与vt计算点积，得到三元组评分。ConvE 的二维卷积被证实能加强实体/关系间的交互，更好地提取关系属性用于学习嵌入表示[33]。

1.3 附加语义模型

上述模型大多只考虑直接关联，忽略了关系路径蕴含的语义信息[34-35]。Zhang 等[36]认为，在复杂现实场景中进行推理，集成关系路径的丰富语义信息很有必要；Xiong 等[37]则认为知识库的持续动态增长和稀疏性决定了few-shot、one-shot 甚至是zero-shot 的推理需求，而语义信息等辅助知识有助于实现这类推理。Lao 等[19-20]验证了关系路径对知识补全的辅助作用：使用深度优先的随机游走算法生成路径，使用逻辑回归或决策树等二分类方法训练并预测链路。关系路径后续也有许多改进研究[38-39]，如Das 等[40]提出MINERVA方案，在知识图遍历中使用历史路径信息，Lin 等[41]在其基础上改进了奖励函数。此外，Lin 等[42]和Luo 等[43]将关系路径与TransE 结合，进一步提升知识表达能力。然而，多数相关研究将路径视为原子性特征，导致特征矩阵的规模庞大，计算开销高[44-45]。

1.4 融合模型

RNN 原本用于处理序列数据，在语音识别、NLP 和连续图像处理等领域取得成功，因此Neelakantan 等[21]提出Path-RNN，将路径分解为关系序列，用作RNN 的输入，通过层内的参数共享降低计算开销，选择得分最高的路径(Max 运算)以补全缺失三元组。然而，单一路径可能无法提供足够的语义参照，因此Das 等[22]使用Mean和LogSumExp 等指标集成多路径信息，但忽略了不同路径与候选关系的语义关联程度存在差异。

由于常规RNN 存在梯度消失问题，难以学习到长距离的语义依赖关系，因此LSTM 模型[23]引入门控结构计算遗忘和更新的信息，后续产生了许多变种[46]。

近来用于调整资源分配的注意力机制也在NLP 领域得到应用[47]，Bahdanau 等[48]和Vaswani等[49]将之用于机器翻译的解码器设计；Jiang 等[27]提出了基于注意力机制的知识推理方案，根据路径的语义匹配程度为其分配不同的权重。Nathani 等[34]使用注意力机制提取知识图中的近邻信息，用于发现近似关系簇，以及同一实体的角色差异。

Wang 等[50]和Zhang 等[36]认为，长距离的多跳推理有助于发掘实体关联，从而提高知识推理模型在现实场景中的性能，但注意力机制在长序列上的分配机制有待优化，有研究尝试集成上述框架以取长补短，Zhou 等[26]提出Att-BLSTM 用于关系分类，词级嵌入后使用双向LSTM[51]合并句级信息并结合注意力机制评分；Chiu 等[52]使用LSTM 和CNN 的混合模型识别命名实体，降低特征工程的计算量。

由于基于嵌入特征提取的模型和基于关系路径语义的模型各有优点，因此本文在前人工作基础上将嵌入表示与语义提取结合，提出PKICLA模型，首先使用自定义的CNN 框架编码完整路径；其次将前、后向LSTM 的隐藏状态拼接，合并关系序列特征，实体对的多条路径相当于在多个整句级别上并行映射；最后使用基于注意力机制的方法集成不同路径与候选关系的语义关联信息，计算关系与实体对的概率得分，用于判定三元组是否成立。

2 PKICLA

PKICLA 模型框架如图1 所示。在给定实体对和候选关系的前提下，利用CNN 将通过随机游走得到的实体间多条路径分别依据其关系序列编码为低维表示，将变长路径映射到定长的向量序列，保留其局部结构；使用双向LSTM 将路径的特征序列合并为单一向量，减少计算开销；由于不同路径与候选关系的语义关联程度不同，结合注意力机制计算各路径的相关性并分配权重，加权计算关系的状态向量，通过该关系与相应实体对的概率得分判定三元组是否有效。

图1 PKICLA 模型框架Fig.1 Model framework of PKICLA

2.1 路径关系序列的向量嵌入

给定KG 包括实体集E和关系集R。三元组(h,r,t)中，h∈E表示头实体或源实体，t∈E表示尾实体或目标实体，r∈R表示关系。三元组的向量表示为(es,r,et)，体现实体和关系的有序链接。实体对间可能存在多条路径，因此将路径视作原子性特征会导致特征矩阵随数据规模上升迅速膨胀。ConvE 使用CNN 提取三元组的局部特征，大大降低了参数规模；本文采用自定义的CNN 框架将路径嵌入低维表示。首先使用PRA(path ranking algorithm)算法得到与候选三元组(es,r,et) 的头/尾实体es、et对应且概率较高的路径。PRA 通过Random Walk，在全图范围内从源实体开始寻找并一一列举到达目标实体的长度符合要求的n条路径，记录每条路径上的关系和中间实体，完整路径 π 可表示为{es,r1,e1,r2,e2,···,ei−1,ri,ei,···,rt,et}∈Π，其关系序列可表示为{r1,r2,···,rt}，其中(ei−1,ri,ei)表示路径中的第i个三元组。记录不同路径到达目标实体的概率，根据预设阈值进行筛选。Π 表示筛选后的路径集合。不同路径的关系数不同，取最长的路径，其关系数或关系序列的长度用t表示；将所有路径设为相同长度t，长度不足的使用零填充。

本文使用实体类型对应的向量表示[22]，进一步减小参数规模，同时解决测试集中部分实体在训练集中未出现的问题。将头/尾实体对和候选关系通过嵌入矩阵转化为k维向量，即es,et,r∈Rk，作为路径卷积编码的输入。过滤器 ω 的尺寸(size)和步长(stride)对特征提取和计算开销影响较大，本文使用统一的ω ∈Rk×3提取特征，步长为2，避免抽取无意义的局部特征。使用多个卷积核遍历路径，令Ω和 τ 分别表示卷积核和核数，即τ=|Ω|。以路径上所有三元组为单位/窗口，逐个提取其局部模式。拼接所有卷积核提取的特征，路径第i个特征向量可表示为ci=[ci1,ci2,···,ciτ],ci∈Rτ,ciτ=f(ωτ[ei−1,ri,ei]+b)，其中f表示ReLU非线性激活函数(优于线性函数[21-22])，b为偏置系数。卷积处理路径后，得到其向量序列表示{c1,c2,···,ct}，作为双向LSTM 的输入。

2.2 双向LSTM 提取路径特征

常规RNN 存在梯度消失问题，难以学习长序列的语义信息；Zhou 等[26]使用双向LSTM(BLSTM)并通过peephole connections 查看当前神经节点/细胞的状态，增加CEC(constant error carousel)到各门的双向关联；Lu 等[53]使用的双向GRU(bidirectional gated recurrent unit)则通过类似耦合门控的设计简化了细胞结构和参数规模，保留了近似性能[54]；其中重置门rt对维度信息进行调整，更新门zt以及 (1−zt) 可视作对应原始忘记门和输入门(后者也可遗忘部分信息)。本文使用双向LSTM 将路径的向量序列表示合并为单一向量。

将卷积层输出序列的每个向量视作LSTM 中的一个时间步，每个时间步将一个 τ 维的向量ci馈送到LSTM 细胞。双向LSTM 分别由前向和后向的相反方向读取数据，其输出分别表示为和即前向从左向右，后向从右向左。双向处理路径后，得到两组不同的隐藏状态，即对于向量序列{c1,c2,···,ct}，前向LSTM 网络得到状态序列后向网络则是为降低参数规模，本文将前向网络序列的最后隐藏状态和后向网络序列的最前隐藏状态拼接，生成完整路径 π 的向量表示从而保留关系序列的秩序信息。为便于拼接，以及与候选关系匹配，将细胞的隐藏状态数设为本文在Keras 的Time Distributed 层使用相同编码器并行处理所有n条路径，得到其向量表示集合P={p1,p2,···,pn},P∈Rk×n。双向LSTM 的输出作为注意力层的输入。

2.3 基于注意力机制的路径集成

主流PRA 常使用Max 或Mean 运算，忽略了不同路径提供的推理证据存在差异，因此本文使用Bahdanau 等[48]提出的基于累加性注意力机制(additive attention)的路径信息集成，该方法对于不同区间数值的适应能力优于简单的点积计算语义相关度得分[22,49]。将候选关系的向量表示r与头/尾实体对的多条路径编码分别匹配，计算每条路径的语义相关度得分 score(pi,r)(式(1))，进而为其分配独立权重 αi(式(2))，加权计算得到候选关系的状态向量c(式(3))，并以之计算候选关系与对应头/尾实体对的概率得分P(r|es,et)(式(4))，用于判定三元组是否有效。

式中：Ws∈Rk×k,Wp∈Rkf为权重参数；表示非线性激活函数，本文使用sigmoid。通过权重分配，与候选关系语义关联程度不同的路径得以区分。

本文使用Adam 优化器[55]训练PKICLA 以优化结果，损失函数定义如式(5)所示：

目标函数中N为训练样本总数；T+、T−分别表示有效三元组和无效三元组的集合；Θ 表示所有需要学习的参数，随机初始化；使用L2 正则化防止过拟合。

3 实验与分析

3.1 任务与评价指标

链路预测从已知信息中推理新的事实，用于知识补全，方法是计算给定头/尾实体与特定关系连接的概率得分，判定三元组是否有效。度量指标通常为原始正确实体在所有候选项中的排序，如：查询(Joe Biden,isPresidentOf,?)，期望实验结果中，“the U.S.”或“America”应得分较高，或排序较前。

实验使用平均精度均值(mean average precision,MAP)、正确三元组的平均倒数排名(mean reciprocal rank,MRR)、Hits@1(排名在第1 位的有效实体的比例)、Hits@3(取前3 位)、Hits@5(取前5 位)和F1等指标进行评估。MAP 取头/尾实体预测排序的均值；Hits@1 和Hits@3 将头/尾预测视为同一任务，合并计算hit rate。

3.2 数据集

本文在FB15k-237 和NELL995 这两个常规数据集，FC17 大型数据集(模拟现实复杂场景)[27,36]和NELL-One 稀疏数据集[37]上进行链路预测，其统计信息如表1 所示。从NELL995 中删除无推理价值的generalizations 和haswikipediaurl 关系，保留频率最高的Top 200 关系的三元组。Toutanova 等[39]在FB15k 基础上删除可逆三元组，生成FB15k-237，防止算法高分漏洞。FC17 的主要数据来自Freebase，同时集成了ClueWeb 中对应实体链接；选择其中频率最高的46 个关系用于实验。NELL-One 是NELL 数据集中三元组实例数∈[50,500]的关系集合。表1NELL-One 中 Train Set、Dev.Set 和 Test Set 使用关系数而非实例三元组数。

表1 数据集统计信息Table 1 Dataset Statistics

对于上述数据集中的每一个关系，确保Train Set 和Dev.Set/Test Set 中无重复三元组(含反向)。将无对应关系路径的实体对删除。将路径长度限制设定为4，相应的元素个数最多为9(含中间实体，含填充)。将Random Walk 的概率阈值设置为0.1。

参考Bordes 等[16]的实验，使用Bernoulli 方法[29]随机替换实体创建无效三元组，具体如下：给定有效三元组 (h,r,t)，ηh和 ηt分别是每个尾部对应头实体和每个头部对应尾实体的平均数量，使用分别表示生成新三元组 (h′,r,t) 和(h,r,t′)的概率。

3.3 模型与参数设置

实验中用于比较的基准模型包括：

1)DistMult[17](2015)，使用对角矩阵表示目标关系；

2)DeepPath[25](2017)，基于TransE[16]的强化学习(reinforcement learning,RL)框架；

3)Single-Model[22](2017)，使用RNN 处理关系序列，本文采用原方案推荐的LogSumExp；

4)Att-Model+Type[27](2017)，可视作基于注意力机制的Single-Model，本文重新实现；

5)ConvE[18](2018)，使用2 维卷积处理实体/关系嵌入；

6)G-GAT[34](2019)，使用注意力机制提取近邻特征，该模型侧重复杂数据集上的关系预测；

7)M-walk[28](2018)，同样使用RL 和RNN 框架，结合随机抽样搜索路径空间；

8)GMH[36](2020)，多跳知识推理框架，结合局部特征和图结构整体特征，针对复杂现实场景设计；该模型在FC17 数据集上进行预测；

9)Gmatching[37](2018)，针对few-shot 的近似度量推理框架。

GMH 使用ConvE 作为预训练模型，距离上限设置为6 时性能最优；其他基准模型均使用原方案的最优性能建议参数。

实验在Dev.Set 上验证，若最后10 轮(epoch)对应准确率提升<10−2则停止训练并确定最优参数。超参数池设置如下：minibatch size=64，学习率(Adam 优化器其他参数默认)，γ ∈[10−5,10−4,5×10−4]k∈[50,100,200]，LSTM 中隐藏节点数∈[64,128]，τ∈[50,100]，L2 正则化系数∈[0,0.001,0.01,0.1,0.5]。

3.4 结果与分析

常规数据集上实验结果如表2 所示，最优表现设置为粗体，次优设置为斜体+下划线。PKICLA相比Single-Model 和Att-Model+Type 这两个相似模型有一定的提升，在较大数据集，特别是关系类型分布相比NELL995 复杂得多的FB15k-237数据集上，优势明显；在NELL995 上，由于部分实体对的路径较少，基于关系路径语义的模型的Hits@1 和Hits@3 得分受到影响，但PKICLA 的表现仍较稳定。基于双线性乘法运算的DistMult 模型擅长提取实体相似性特征，尽管没有考虑路径语义，在两个数据集上的MRR 得分都较高。在稠密数据集NELL995 上，DeepPath 结合强化学习的路径扩展有效弥补了平移模型表达能力不足的缺陷，各项指标表现较稳定。ConvE 在NELL995上的表现出色，但在FB15k-237 上性能下滑，可能是因为忽略平移特性导致部分全局特征丢失。G-GAT 针对复杂数据集进行设计，性能表现整体优于DeepPath，略逊于同样结合注意力机制的Att-Model+Type，可见多跳路径能提供比单跳近邻更多的语义信息。M-Walk在NELL995 数据集上取得了最高的hits@1 得分；但模型受到无效路径的干扰，在FB15k-237 数据集上性能不算突出。G-GAT 原文没有给出具体超参设置，本文实现与原文结果差异较大，因此引用原文在 FB15k-237 上的实验数据。

表2 NELL995 和FB15k-237 上的性能比较Table 2 Performance comparison on NELL995 and FB15k-237

进一步选取部分整体表现较好的模型，比较其在NELL995 数据集不同任务/关系上的MAP得分，如图2 所示。DeepPath 仅考虑了局部特征，Single-Model 则缺少对不同语义关联的关系路径的权重分配，PKICLA 弥补了这两种模型的不足，在10 种主要关系上的表现都有所提升。相比Att-Model+Type，PKICLA 在7 种关系上也具有优势，特别在athletePlaysForTeam 和bornLocation 复杂关系上，PKICLA 有较明显提升(约2.7%)，说明卷积特征提取+双向LSTM 的路径合并有助于提取局部模式。

图2 NELL995 不同关系上的MAP 得分Fig.2 Comparison of MAP scores on various relations of NELL995

FC17 数据集上的实验结果如表3 所示，相比Att-Model+Type，GMH 结合了图结构的整体特征，一定程度上缓解了长距离推理带来的无效关系偏离效应；但对循环次数依赖较重。在3 个指标上，PKICLA 都取得了最高分，但PKICLA 的路径长度是手动设置的，而GMH 框架可自适应的调整，在路径长度可变的推理任务中可能表现较好。

表3 FC17 上的性能比较Table 3 Performance comparison on FC17

NELL-One 数据集上的实验结果如表4 所示，在没有应用Gmatching 框架时，PKICLA 的fewshot 预测能力明显强于TransE 和DistMult。应用框架后，3 个模型的性能都有所上升，PKICLA 的性能仍然是最优，但相对TransE(94.0%)和Dist-Mult(65.7%)，PKICLA 的提升较小(6.2%)。

表4 NELL-One 上的性能比较Table 4 Performance comparison on NELL-One

此外，本文比较了不同实体类型覆盖率、不同路径长度和不同LSTM 模型对PKICLA 在NELL995 上性能表现的影响，如表5 所示。数据集中绝大多数实体携带类型信息，反之实验中使用实体自身的嵌入表达，因此比较不同实体类型覆盖率对模型性能的影响，发现差异极小；当覆盖率较低时，性能有轻微下降，因为测试集中含有训练集中未出现的实体。当路径长度设置为4 时，性能表现有一定上升，可能是因为阈值较小时，测试数据中部分实体对无法生成足够的路径；但差异不大，说明短路径提供了大部分的推理信息。与实体类型覆盖率类似，不同LSTM 模型对性能造成的影响微弱。

表5 NELL995 数据集上不同实体类型覆盖率、路径长度和LSTM 模型的比较Table 5 Comparison between different coverages,path lengths,and LSTM models on NELL995

最后，选取表现较好的Single-Model 和Att-Model+Type 模型为基准，比较其与PKICLA 在NELL995 上的Precision、Recall 和F1得分，结果如图3、图4 所示，PKICLA 较为平衡，F1得分高于另外两个模型；随着Recall 率增长，Precision 下滑也较平缓，说明基于注意力机制的语义集成能更好地匹配候选关系，以及卷积操作在提取局部特征上的优势。

图3 NELL995 上的Precision/Recall/F1 比较Fig.3 Comparison of Precision/Recall/F1 on NELL995

图4 NELL995 上的Precision-Recall 曲线比较Fig.4 Comparison of Precision-Recall Curve on NELL995

4 结束语

本文通过自定义的CNN 框架和双向LSTM提取三元组局部特征，合并关系序列为单一向量，并使用基于注意力机制的方法集成多条路径的语义信息，用于计算候选三元组的概率得分。链路预测结果证明本文模型可在常规和大型数据集上进行知识推理，复杂关系的学习能力较强，Precision、Recall 和F1 指标的整体表现也高于主流模型。PKICLA 亦可用于few-shot 的推理任务，但在无法生成足够路径的数据集上仍有提升空间，因此未来工作考虑引入强化学习框架、带置信度的规则体系、知识层次结构或多源信息融合模型以扩大方案的适用范围。此外，本文使用单一实体类型进行嵌入表达，但实体往往具有多类型[22]，因此计划优化嵌入方案。最后，为适应现实场景任务，针对知识的不确定性建模[56]，以及重塑特征维度以优化信息提取也是工作方向。