基于深度信念网络的维吾尔语事件伴随关系识别

2018-06-14 07:38田生伟吐尔根依布拉音冯冠军艾斯卡尔艾木都拉

中文信息学报 2018年5期

胡伟，禹龙，田生伟，吐尔根·依布拉音，冯冠军，艾斯卡尔·艾木都拉

(1. 新疆大学软件学院，新疆乌鲁木齐 830008； 2. 新疆大学网络中心，新疆乌鲁木齐 830046；3. 新疆大学信息科学与工程学院，新疆乌鲁木齐 830046； 4. 新疆大学人文学院,新疆乌鲁木齐 830046)

0 引言

维吾尔语事件伴随关系有着广泛的应用前景,事件伴随关系指的是一个事件的发生伴随着另一个事件的发生，两者在时间上具有紧密性，反映的是事件间的一种语义关系。通过对事件伴随关系的研究有助于了解事件发生的诸多因素，从而获取事件的演变过程，在某种程度上为决策者对事件后期发展的预判提供重要的信息。如例1(维吾尔语的书写格式为从右向左，下文同)。

(美国得克萨斯州西南部地区一辆教会巴士与轻型货车相撞。当地警方表示事故已经造成12人死亡，3人受伤。)

鉴于事件伴随关系具有的重要意义，本文提出一种基于DBN的维吾尔语事件伴随关系的识别方法，从而有助于更加全面地理解事件关系。通过这种方法能够有效识别出维吾尔语文本中的具有伴随关系的事件对，利用多层受限玻尔兹曼机(restricted Boltzmann machine,RBM)提取事件对中隐含的语义和句法关系，不仅能够进行句子间的伴随关系的识别，而且对跨句的伴随关系的识别仍然有效，克服了由于缺少事件伴随关系连接词所带来的识别难的问题。

1 相关工作

深度学习相对于浅层学习而言，具有更强的表达能力，是机器学习研究中的一个新领域。早在2006年Hinton等人指出，深层神经网络(deep neural network, DNN)具有更好的特征学习能力，随着深度学习方法在图像和语音领域的应用，越来越多的深度学习方法被应用于自然语言处理领域，梁军等人[1]利用递归神经网络来发现与微博任务相关的特征进行微博情感分析的研究。赵妍妍等人[2]采用基于触发词扩展和二元分类相结合的方法进行事件类别识别，以及基于最大熵的多元分类的方法进行事件元素识别的事件抽取任务。Hen-Hsen Huang等人[3]提出一种半监督的DCNN(dependency-based convolutional neural network)模型用于中文时态标注和因果关系分析。Jing Lu等人[4]提出应用MLN(Markov Logic Network)进行事件共指消解的研究，主要是在低维空间的单元子句中，通过扩大MLN的分布来将实验所需要的特征加入到模型中进行训练。Abhyuday N Jagannatha等人[5]利用双向RNN(bidirectional recurrent neural network)进行医学事件检测。Hao Li等人[6]利用跨文本类型知识的方法进行事件结构信息的提取。

上述是国内外有关事件的研究，主要集中在汉语和英语等大语种的相关研究领域，研究方向包括事件抽取、事件检测和事件因果关系分析等。而对于像维吾尔语、蒙古语和藏语等少数民族语言的相关研究主要有：玛尔哈巴·艾赛提等人[7]分析了维吾尔语情感词汇在上下文中表现的特征,并结合维吾尔语本身的语法特征,提出基于语法的维吾尔语情感词汇自动获取；孙媛等人[8]在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题；钟军等人[9]提出了一种基于双层模型的抽取方法，用来进行维吾尔语突发事件因果关系的抽取；郑亚楠等人[10]提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。对于少数民族语言的相关研究，主要集中在词性标注、情感分析等方面，而对于维吾尔语事件伴随关系的研究却很少。

本文在前人相关研究基础上，通过对维吾尔语语言特点的分析，根据深度信念网络的无监督学习算法，利用逐层贪婪预训练的方式解决深度学习模型优化困难的问题，提出基于DBN的深度学习思想进行维吾尔语事件伴随关系的识别。根据维吾尔语具体的语言特性和事件伴随关系的特点，本文抽取出基于事件结构信息的12项特征，同时为充分利用事件与对应触发词间的语义信息，引入词向量来计算触发词间的语义相似度，融合两类特征构建训练和测试数据，接着将训练数据作为DBN模型的输入，利用无监督逐层贪婪算法完成训练过程，最后引入softmax分类器实现维吾尔语事件伴随关系识别任务。

2 维吾尔语相关事件定义

定义1事件(event)：指在特定时间和环境下发生的，由若干角色参与的，表现出一些动作特征的一件事情[11]。其中事件发生的时间、地点和参与角色称为事件要素。

定义2事件触发词(eventtriggerword)：事件触发词直接引起事件的发生，是决定事件类别的重要特征，在一些文献中也称作事件指示词。

定义3泛指事件(generalevent): 在文本中包含事件触发词，但是通过联系文本上下文信息，该事件触发词并不能表示一个事件的发生，这类事件称之为泛指事件。

(据新疆地震(E1)局预测……)

定义4语义类别(semanticclass)：语言学中的语义是语言形式和言语形式所表现出来的全部意义，而语言的意义又包括词义和句义两种，同时根据语义的分析，并非所有的语义都具有类别。根据实验组维吾尔语语言学专家的意见，将维吾尔语中具有语义的语义类别划分为“rel_关系”、“time_时间”等14个类别(详见附录1)。

定义5事件的类别及事件子类别(typeandsubtype)：根据ACE(automatic content extraction)语料和实验组维吾尔语语言专家的意见，结合维吾尔语语言的特性，将事件的类别划分为“突发事件”、“生命”等八个大类,并且每个事件类别又对应若干个事件子类别(详见附录2)。

定义6事件极性(polarity)：根据ACE(Automatic content extraction)语料和实验组维吾尔语语言专家的意见，将事件的极性分为negative(根据事件的上下文信息，若明确指出该事件没有发生，则该事件的极性为negative)和positive(根据事件的上下文信息，若明确指出该事件已经发生或正在发生，则该事件的极性为positive)两类。

3 维吾尔语事件伴随关系识别模型

本文提出利用DBN模型完成维吾尔语事件伴随关系的识别，在实验组维吾尔语语言专家指导下对实验语料进行标注。标注的内容主要包括：事件触发词、事件指示词、事件类型、事件的语义类别等。本研究的主要过程是：对已标注的语料进行候选事件对的提取，而后在此基础上进行特征抽取，从而生成训练数据，最后用得到的训练数据训练DBN模型并带到softmax分类器中完成事件伴随关系的识别。整个识别过程如图1所示。

图1 维吾尔语事件伴随关系识别过程

3.1 候选事件对的抽取

候选事件对的抽取是本研究的基础，将直接影响后续研究的进行，正确地进行候选事件对的抽取，不仅能够达到去重、去噪的目的，而且有助于提高实验的性能。具体抽取过程如下：

Step1取出语料库中所有事件，存入列表eventList中。

Step2循环遍历列表eventList，依次取出列表中的事件e，判断该事件对应的伴随事件是否为空，如果不为空，将该事件对应的伴随事件存入集合{followEvent}中，同时将该事件和其所对应的伴随事件作为候选事件对，将其作为实验的正例，如果为空并且该事件不是泛指事件，则将该事件存入集合{events}中。

Step3重复Step2，直到列表eventList为空。

Step4完成上述步骤之后，将集合{events}中含有集合{followEvent}的元素移除掉。同时对集合{events}中剩余元素进行两两组对作为候选事件对，并将其作为实验的负例。

Step5最后将Step2和Step4得到的候选事件对融合起来，作为实验总的候选事件对。

3.2 特征提取

实验中提取的特征是否有效对深度信念网络的识别效果有直接的影响，使用准确的特征对文本进行描述，有助于实验效果的提升。本次实验结合实验组维吾尔语语言学专家总结的关于维吾尔语语言特性及维吾尔语事件伴随关系的特点，选取12个特征进行事件伴随关系的识别。通过以下实例(例3)对实验所提取的特征进行介绍。

例3

(也门海岸上一艘搭载索马里难民的船只遭受武装直升机的袭击(E1)，事故现场十分惨烈，造成至少31名难民死亡(E2)。)

(1) 事件类别(type)：若事件类别相同，特征值取1，否则取0，根据定义5知事件E1的事件类别为突发事件，事件E2的事件类别为生命。故例3中特征值为0。

(2) 事件子类别(subtype)：若事件子类型相同，特征值取1，否则取0。根据定义5可知，事件E1的子类别为恐怖袭击，事件E2放入子类别死亡。故例3中特征值取0。

(3) 事件的极性(polarity)：事件的极性有po-sitive和negative两种。若事件极性相同，特征值取1，否则取0。根据定义6可知例3中事件E1和事件E2的极性都为positive，故特征值取1。

(4) 事件的时态(tense)：事件的时态可以分为past_event、now_event、future_event和unspecified_event。若时态相同，特征值取1，否则，同取0。例3中，事件E1和事件E2的时态都为past_event，故特征值取1。

(5) 触发词的语义类别(semantic type)：若触发词的语义类别相同，特征值取1，否则取0。根据定义4知，例3中事件E1和事件E2的触发词语义类别都为event_事件，故特征值取1。

(6) 事件触发词的词性(triggerPOS)：若事件触发词的词性相同，特征值取1，否则0。例3中事件E1的触发词词性为普通名词，事件E2的触发词词性为动词，故特征值取0。

(7) 两个事件是否具有依存关系(dependency)：所谓两个事件具有依存关系，指的是这两个事件的触发词出现在一个句子中。若具有依存关系，特征值取1，否则取0。例3中事件E1和事件E2对应的触发词都出现在一个句子中，故特征值取1。

(8) 两个事件在文本中出现的先后顺序(EventSeq)：实验中根据触发词在文本中出现的先后顺序来代表候选事件对对应的两个事件在文本中出现的先后顺序，若两者对应，特征值取1，否则取0。经实验可知例3中特征值取1。

(9) 两个事件的触发词类型是否相同(triggertype)：在语料设置中，事件的触发词类型有泛指事件、本句事件、非本句事件等。触发词类型相同，特征值1，否则取0。例3中，事件E1是本句事件，事件E2是本句事件，故特征值取1。

(10) 两个事件之间的相对距离(reldistance)：通过计算实验语料库中所有抽取的候选事件对对应触发词之间的相对距离划定一个最优的距离范围，经计算可知相对距离在[0,15]之间的事件对约占10%,[16,55]之间的约占78%，大于55的约占12%，故本次实验划定相对距离范围为[15,55]。若两个事件之间的相对距离在划定范围内，特征值取1，否则取0。在例3中，事件E1和事件E2对应触发词的相对距离为16，故特征值取1。

(11) 两个事件之间间隔事件的事件数(interevent)：通过计算实验语料库中所有候选事件对之间间隔的事件数并且划定一个最优的范围，经实验计算可知，[0,3]之间约占8.5%,[3,5]约占82%，大于5的约占9.5%，故本次实验划定的间隔事件数的范围是[3,5]。若两个事件之间间隔的事件数在这个范围内，特征值取1，否则取0。例3中，事件E1和事件E2间隔的事件数为0，故特征值取0。

(12) 两个事件之间间隔句子数(intersentence)：在文本中候选事件对之间通常间隔的句子数较少，甚至没有间隔的句子。在实验中通过计算所有候选事件对之间间隔的句子数可以看出，间隔句子数范围在[0,2]之间的事件对约占86.7%，所以本实验中，事件之间间隔的句子数在[0,2]范围内对应的特征值取1，否则取0。例3中，事件E1和事件E2之间间隔的句子数为1，故特征值取1。

(13) 候选事件对对应触发词的语义相似度：根据触发词间的语义信息，利用词向量计算候选事件对对应触发词之间的语义相似度，将其作为实验的特征之一。

3.3 深度信念网络

深度信念网络(deep belief network，DBN)是深度学习中重要的模型[12]。由Hinton等人[13]于2006年提出，其采用逐层贪婪的学习方法，能够有效避免传统的梯度下降算法针对多隐层训练效果不佳的问题，已被成功应用于图像、语音和文档等对象的建模、特征抽取、识别等[14-15]。

由于DBN模型良好的特征学习能力，本文提出一种基于DBN模型的维吾尔语事件伴随关系的识别方法，利用该模型从原始的特征集中学习到更加抽象且高度区分的特征，最后作为softmax分类器的输入实现分类。DBN模型由多层无监督的受限玻尔兹曼机(restricted Boltzmann machine,RBM)和一层有监督的反向传播(back-propagation,BP)网络组成，如图2所示。

图2 DBN模型框架

DBN的训练包括“预训练”和“微调”两个阶段，“预训练”阶段采用逐层训练的方式对各层的RBM进行训练，低一层RBM的隐含层输出作为高一层RBM的可见层的输入。“微调”阶段是在经过预训练之后，为使模型具有更好的表现能力，在DBN模型的最后一层设置BP网络，用以接收RBM的输出特征向量作为它的输入特征向量。采用BP算法，利用梯度下降的方法对整个DBN进行优化、微调，是一个有监督的学习过程。

3.4 受限玻尔兹曼机

受限玻尔兹曼机(restricted Boltzmann machine,RBM)是一类具有两层结构、对称连接且无自反馈的神经网络模型[16],由一个隐含层和一个可见层组成,其层内各神经元无连接，层间神经元全连接，各个隐含层节点的各个激活状态之间是相互独立的，如图3所示。其中，W是两层之间的连接权重。

图3 RBM网络结构

在RBM中，可见单元和隐藏单元都是二元变量，其状态仅为{0,1}，由于其是一种基于能量的模型，输入v向量和隐含层输出向量h之间的能量函数值为：

(1)

式中，θ是RBM的参数，W是可见单元与隐藏单元边的链接权重，ai和bj分别是可见单元和隐藏单元的偏置。基于该能量函数，可得到v和h的联合概率，如式(2)所示。

(2)

(3)

接下来通过最大化p(v)来得到RBM的参数，在这里最大化等同于最大化log(p(v))=L(θ)，如式(4)所示。

(4)

通过L(θ)利用随机梯度下降法来最大化L(θ)，首先L(θ)需要对W进行求导，经过简化如式(5)所示。

(5)

对于式(5)而言，等式右边的第一项较为容易计算，而等式右边第二项在通常情况下基本不可解，由分析可知：

(6)

为求解(6)式，采用Hinton[17]提出的对比散度(contrastive divergence,CD)算法进行求解。从而可以得到：

重构的可见向量v1和隐藏向量h1就是对p(v,h)的一次抽样，多次抽样得到的样本集合可以看作是对p(v,h)的一种近似，使得式(5)的计算变得可行。

3.5 词向量

基于神经网络训练得到的词向量蕴含丰富的上下文语义信息，在实验中引入词向量充分表示当前事件所对应的触发词在文本中的语义信息，同时避免了维数灾难[18]。

本文使用Mikolov[19]提出的Word2Vec工具训练得到词向量，选择Skip-gram+HS模型作为训练框架。为了更准确地获取每个触发词在低维空间中的语义分布情况，本文在原有语料的基础之上进行了扩充。选取维吾尔语版网页作为语料来源，利用网络爬虫下载网页，进行去重、去噪处理，得到不限题材并且未标注的生语料。

下面通过一个具体的例子来阐述本次实验如何利用词向量进行触发词间语义相似度的计算(词向量维度以10维为例)

例4

(在某地高速公路上发生一起严重的车祸(E1)，现场造成10人死亡(E2))。

表1 例4中两个触发词的词向量

从表1中得到事件E1和E2对应触发词的词向量，利用二者之间的余弦值来表示两个触发词之间的语义相似度，通过计算得到上述两个触发词之间的语义相似度为0.144 3，而后将其作为一个特征，并将其加入到对应事件对的特征集中。

4 实验结果与分析

为了便于比较，本文采用准确率P、召回率R和F值三个重要指标来对事件伴随关系的识别结果进行衡量。其中准确率是指正确识别的对象个数占实际识别的对象个数的百分比。召回率是指正确识别的对象个数占识别系统应该识别对象个数的百分比。F值是正确率和召回率的综合评价指标，即:F=P×R×2/(P+R)。本文所有实验均采用五折交叉验证，为保证结果的稳定性，取平均值作为最终的实验结果。

4.1 基于DBN模型的有效性验证

在不引入词向量的前提下，使用3.2节提取的前12个特征构成的特征向量作为输入，利用DBNi(表示DBN神经网络的层数为i)和SVM进行对比实验。SVM是处理非线性数据较好的浅层机器学习模型，因此本文选用SVM模型作为Baseline进行对比实验，实验结果如表2所示。

表2 基于DBN的有效性验证

从表2可以看出，不同层数的DBN模型，对于实验性能的影响也有所不同，这是因为不同层数的DBN模型，在通过多层映射之后所提取出的结构信息有所不同，由表2可知，当DBN模型层数为2时相对于DBN模型的其他层数性能更优，其F值达到76.86%，较浅层SVM机器学习模型提高了2.56%，说明在本任务中基于深度学习的模型较基于浅层的机器学习模型具有更好的表达能力。

4.2 特征选取对模型性能的影响

在维吾尔语事件伴随关系识别过程中，特征的选择对模型性能的影响较大，为了探讨特征的选择对模型性能的影响，本文基于4.1节中实验效果最佳的DBN2来详细说明特征的选择对模型性能的影响。去掉4.2节中前12项特征中的某一项，将剩余的11项特征构成新的特征集，将该特征集作为模型的输入进行特征有效性验证，如表3所示，表中每一行的结果为去掉对应特征后得到的结果。

表3 特征选取对模型性能的影响

续表

由表3可知，在去掉某一项特征之后模型的准确率、召回率以及F值与包含全部特征相比均有所下降，由此证明3.2节提取的规则特征在维吾尔语事件伴随关系上的有效性。

4.3 词向量对实验结果的影响

词向量富含丰富的上下文语义信息，为探讨Word Embedding 对模型的分层结构学习性能的影响，实验选用50维的词向量进行实验，依次训练DBN1、DBN2、DBN3、DBN4。实验结果如表4所示，其中DBNi+W_E表示，在原有特征集中加入对应候选事件对的触发词的语义相似度的特征。

表4 Word Embedding对实验结果的影响

从表4可知，词向量对不同层次的DBN模型都是有效的。这是因为词向量每一维都包含丰富的上下文信息，能够很好地表示语义特征，并且使语义类似的触发词，其向量表示也比较接近，进一步促进模型对语料深层语义的学习，进而提高了模型对维吾尔语事件伴随关系的识别性能。在引入词向量训练DBN2时，可以从表中很明显地看出其性能要明显高于引入词向量训练其他各层的性能。

4.4 词向量维度对实验的影响

词向量维度的选择对DBN模型的性能有一定的影响。为探讨词向量维度设为多大时能更好地表达识别效果，实验中将词向量的维度依次设定为10维、50维、100维、150维、200维分别进行实验。通过表2和表4分析，选定DBN2模型进行对比实验，结果如表5所示。

从表5可以看出，词向量维度的不同对DBN模型的性能都有不同的影响。当特征集中词向量的维度为50维时DBN模型的性能最佳，P值达到81.89%，R值达到84.32%，F值达到82.48%。随着维度的不断增加，模型的正确率开始回落，性能下降，其原因是当维度过高时，会产生过拟合现象，模型对数据的泛化能力降低。

5 结语

针对国内外关于事件的相关研究，结合维吾尔语本身的特点，提出一种基于DBN的维吾尔语事件伴随关系的识别方法。通过对维吾尔语语言结构和伴随关系的特点的分析，提取了12项基于事件结构信息的特征。为充分利用事件对与其对应的触发词之间的语义信息，利用词向量计算其语义相似度，最后融合这两类特征作为DBN神经网络模型的输入，进而完成事件伴随关系的识别。实验结果表明，基于深度学习的模型较浅层的SVM模型更适合事件伴随关系的识别任务，且引入词向量能更好地提高模型的性能识别。同时，Word Embedding维度不同，对模型性能的影响也有所不同。

[1] 梁军, 柴玉梅, 原慧斌,等. 基于深度学习的微博情感分析[J]. 中文信息学报, 2014, 28(5): 155-161.

[2] 赵妍妍, 秦兵, 车万翔,等. 中文事件抽取技术研究[J]. 中文信息学报, 2008, 22(1): 3-8.

[3] Hen-Hsen Huang,Chang-Rui Yang, Hsin-Hsi Chen.Chinese tense labelling and causal analysis[C]//the 26th International Conference on Computational Linguistics,2016: 2227-2237

[4] Jing Lu, Deepak Venugopal, Vibhav Gogate, et al. Joint Inference for event coreference resolution[C]//the 26th International Conference on Computational Linguistics, 2016: 3264-3275

[5] Jagannatha A N, Yu H. Bidirectional RNN for medical event detection in electronic health records[C]// Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Proc Conf, 2016: 473.

[6] Li H, Ji H. Cross-genre event extraction with knowledge enrichment[C]// Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,2016: 1158-1162.

[7] 玛尔哈巴·艾赛提, 艾孜尔古丽, 玉素甫·艾白都拉. 基于语法的维吾尔语情感词汇自动获取[J]. 中文信息学报, 2017(1): 126-132.

[8] 孙媛, 赵倩. 藏汉跨语言话题模型构建及对齐方法研究[J]. 中文信息学报, 2017, 31(1): 102-111.

[9] 钟军, 禹龙, 田生伟,等. 基于双层模型的维吾尔语突发事件因果关系抽取[J]. Acta Automatica Sinica, 2014, 40(4): 771-779.

[10] 郑亚楠, 珠杰. 基于词向量的藏文词性标注方法研究[J]. 中文信息学报, 2017, 31(1): 112-117.

[11] 付剑锋. 面向事件的知识处理研究[D]. 上海: 上海大学博士学位论文，2010.

[12] 丁美昆, 徐昱琳, 蒋财军. 深度信念网络研究综述[J]. 工业控制计算机, 2016, 29(4): 80-81.

[13] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006,313(5786): 504-507

[14] 曲利新.基于深度信念网络的语音情感识别策略[D].大连：大连理工大学硕士学位论文，2014: 56.

[15] 黄晨晨，巩微，伏文龙，等.基于深度信念网络的语音情感识别的研究[J].计算机研究与发展，2014,51(2)： 75-80.

[16] 张春霞, 姬楠楠, 王冠伟. 受限波尔兹曼机[J]. 工程数学学报, 2015(2): 159-173.

[17] Hinton G E. Training productsof experts by minimzing contrastive divergence[J]. Neural Computation, 2002,14(8): 1771-1800.

[18] He Yu, Pan Da, Fu Guo-Hong. Chinese explanatory opinionated sentence recognition based on auto-encoding features[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015,51(2): 235-240.

[19] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality//Proceedings of Advances in Neural Information Processing Systems, Vancouve, Canada: NIPS, 2013: 3111-3119.

附录1：

(维吾尔语语言的语义类别)

附录2：

(左侧列是事件类别，右侧列是对应类别的子类别)