基于多特征与多分类器融合的PPIE方法

2015-12-06 06:11刘敏捷林鸿飞
计算机工程 2015年11期
关键词:支持向量机

王 健,刘敏捷,林鸿飞

(大连理工大学计算机科学与技术学院,辽宁大连116024)

基于多特征与多分类器融合的PPIE方法

王 健,刘敏捷,林鸿飞

(大连理工大学计算机科学与技术学院,辽宁大连116024)

从生物医学文献中自动地抽取蛋白质相互作用(PPI)关系是文本挖掘的一项重要任务。考虑到特征和分类器的选择对于PPI任务的重要性,提出一种基于丰富特征和多分类器融合的蛋白质关系抽取方法。选取15种词法、句法及语义特征,融合3种分类器,采用文档级别的10倍交叉验证方法,在5个公开的PPI基准语料上进行评估实验,结果表明,该方法在AIM ed语料上取得的F值和AUC值分别为63.7%和87.8%,具有良好的抽取性能。关键词:蛋白质相互作用关系抽取;丰富特征;支持向量机;最大熵;图核

1 概述

随着生物医学文献数量的急剧增长,生物医学工作者只能阅读一小部分文献,远远不能满足研究的需要。而蛋白质交互作用关系对于蛋白质网络的构建、蛋白质相互作用(Protein-protein Interaction,PPI)关系的预测以及新药的研制具有重要的意义。因此,从生物医学文献中自动地抽取蛋白质交互作用关系成为一项非常重要的任务。蛋白质关系的重要性使得越来越多的人开始投入到PPI抽取的研究中。生物医学家们为此还构建了5个公开的蛋白质关系数据库(Bio Infer[1],AIMed[2],IEPA[3],HPRD50[4],LLL[5])用于评测。

目前,根据早期的研究,主要有3种方法用于生物医学文献的蛋白质交互作用关系抽取,即基于词共现的方法、基于模式匹配的方法和基于机器学习的方法。文献[6]使用的基于词共现的方法具有以下特点:统计在同一个句子中共现的词,并依据统计学原理来判断蛋白质间是否存在交互作用关系。这种方法能够获得很高的召回率,但是由于缺少对新关键词的统计,因此很难发现新的PPI。以文献[7]为代表的使用的基于模式匹配的方法,根据大量的训练数据提取模式,把测试数据与已有模式进行匹配,从而达到抽取蛋白质关系的目的。这种方法获得的准确率较高,但是由于提取的模式具有数量和质量的局限性,依赖于人工干预,因此效果也不是特别理想。机器学习的方法克服了以上2种方法的不足,并在蛋白质关系抽取这一任务中表现出最好的性能。其中,以基于核函数的方法最为受到关注。该方法的实质是句法结构的应用,即在句法结构的基础上设计不同的核函数。但是依然存在着计算复杂、特征挖掘不足等问题。文献[8]利用蛋白质实体对间的最短路径信息,进一步改善由语法解析器生成的树表达,然后在树表达上定义树核函数。该方法在蛋白质关系抽取这一任务中表现出的性能较好,但是忽略了例如上下文特征等其他方面的有用信息。文献[9]应用了混合模型(机器学习和模式学习)的半监督方法,既利用了蛋白质对周围的词袋特征,也考虑了由词性标记序列得到的模式特征。不足的是,得到模式的过程非常复杂。文献[10]在句法分析基础上使用了图核信息,尽管涵盖详尽的结构化特征,却忽视了简单有效的上下文特征。由以上分析可知,PPI抽取任务既需要利用核函数所使用的句法特征信息,也需要借助有效的上下文信息来进一步提高PPI抽取性能。

因此蛋白质关系抽取任务最核心的问题就是特征的选择。只有得到充分的特征信息,才能更精确地分类。此外,蛋白质关系抽取作为一个二元分类任务,存在着分类器的选择问题。一些决策机制互补的分类器融合在一起能够促进蛋白质对间有无交互作用关系的判定。针对这些问题,本文提出一种基于丰富特征和多分类器融合的方法。与文献[11]相比较,本文所提出的融合方法具有以下特点:

(1)本文采用的特征是文献[11]的进一步扩展,在其基础上又添加了交互词、结构路径、实体对间的依存关系路径等特征,这些特征的加入有助于系统性能的提升。

(2)使用多个分类器进行融合,可以避免单个分类器支持向量机独自决策导致错误率偏高。

本文在5个公开的PPI语料上进行实验,针对不同特征以及分类器对PPI抽取的影响进行了详细的分析。

2 蛋白质关系抽取方法

本文提出的基于丰富特征和多分类器融合的蛋白质关系抽取系统框架如图1所示。主要分为3个部分:预处理阶段,特征向量表示阶段,分类融合阶段。

图1 本文的蛋白质关系系统抽取框架

2.1 预处理

本文中预处理包括2个阶段:(1)语料规整,首先从原始的XM L文本中提取句子。为了减少噪音干扰,实验首先要对这些句子进行停用词处理,去除出现频率高,却没有实际意义的词语。鉴于采用的语料是英文,就存在许多特殊符号,如“.”、“-”、“~”、“<”、“%”,这些词会在预处理的不同部分分别与左右的词划分在一起,产生歧义,因此需要分别予以替换处理。(2)候选蛋白质对的抽取。本文不考虑无蛋白质或者只有一个蛋白质的句子,仅保留至少含有2个蛋白质的句子。

2.2 特征向量表示

许多实验证明,特征的选择对于提高分类的效果至关重要。本文使用的特征主要包括上下文特征和依存句法特征两大类。这些特征对PPI实体关系的判断具有指导意义。

(1)上下文特征

由表1可以看出,本文使用了词袋特征、N元词特征、位置特征、具体位置特征、交互词特征、实体对间其他蛋白质数量特征、实体距离特征和否定词特征。

表1 上下文特征

(2)依存句法特征

上下文特征简单有效,提取容易,但是却未能捕获语料中较深层的语义信息。本文借助多种不同的句法分析工具,进一步挖掘语义关系以提高PPI抽取性能。表2对本文使用的依存句法特征作了详细说明。

表2 深层句法特征

1)句子距离特征

图2表示的是使用GDep句法分析器输出的依存图。考虑到简单句出现在最短依存路径上的可能性比较大,因此本文首先采用Dijkstra算法获取依存图中2个蛋白质之间的最短依存路径(图中实线表示的是在最短路径上的边)。如果在最短依存路径上有VB,VBZ,VBD其中任何一个谓语动词存在,则表明了蛋白质实体对出现在在同一个简单句中,同时可以认为它们之间很有可能存在交互作用关系。也就是说简单句的出现就是句子距离特征存在的标志。

图2 GDep的输出图

2)结构路径特征

本文使用The Stanford Parser输出解析树结构。根据树的性质,蛋白质实体对之间一定存在一条路径,此路径即是2个蛋白质之间的结构路径[12]。这些包含了词性标记的结构路径具有丰富的句法和语义信息。如果2个蛋白质能在一个结构路径上出现,那么它们之间就有可能存在交互作用关系。图3中实体对之间的实线部分即为结构路径。

图3 解析树结构路径

3)依存路径三元组特征

在句子距离特征中,本文提到的蛋白质实体对的最短依存路径形式为“节点边节点…”序列(节点代表单词,边表示2个单词间的引导关系)。借鉴文献[13]中构建e-walk和v-walk特征的方法,本文在上文提到的最短依存路径上提取三元组特征,总共获得2类特征。定义形如“节点边节点”样式的为v特征,形如“边节点边”样式的为e特征。文献[13]证明了e-walk比v-walk更能反映句子的谓词-参数的信息,因此如果依存路径存在,本文借鉴的e特征比v特征也能反映更多的信息,应赋予更高的权重。除此之外,2类特征还存在连续和不连续的情况,连续的特征显然比不连续的更能反映词之间的序列信息,所以连续的特征也应该给予更高的权重。

明确了实验所用到的所有特征后,开始构建特征向量空间。由于采用分析器后能够挖掘更深层的信息,因此本文赋予依存路径特征,结构路径特征,连续的v特征权重为2。考虑到交互词特征能够表明2个蛋白质之间的关系,以及连续的e特征比连续的v特征更能挖掘蛋白质对之间是否存在交互关系,因此交互词特征和连续的e特征权重为3。对于其他出现的特征则采用布尔形式,出现为1,不出现为0。

2.3 分类融合

2.3.1 相关概念和原理

(1)图核(graph kernel)基本思想

图核的学习原理是通过比较2个目的图的共同节点之间的关系,计算2个输入图的相似度。它由2个直接有向子图组成,分别是分析结构子图(PSS)和线性顺序子图(LOS)。2类子图共同表述了句子的依存句法结构(词顶点和链顶点)和词在句子中位置的线性顺序关系。由于图核富含丰富的词法和句法信息,且在蛋白质关系抽取上表现较好,因此经常被用于PPI的多核融合上。考虑到图核的输出结果也是一个蛋白质实体对是否存在交互作用的打分值,因此本文将图核也视为一个分类器。本文的实验采用的是文献[10]中提出的全路径依存图核。

(2)支持向量机原理

支持向量机是由Corinna Cortes等人于1995年基于统计学习理论提出的一种机器学习方法,由于它具有良好的泛化能力,以及非线性数据处理能力,因此应用到许多分类问题中。SVM的目标是通过学习在特征空间中找到最大间隔分离超平面,从而将实例分到不同的类别中[14]。对于线性分类问题,通过间隔最大化得到的最优分离超平面为w*x+b*= 0,如图4中的H0所示。位于H0的两侧并与其平行的是距离H0最近的2个不同类别实例的超平面。表达式分别为:H1:w*x+b*=1,H2:w*x+b*=-1。当数据线性不可分时,可以通过选择核函数(线性核、多项式核、RBF核、Sigmoid核和用户自定义的核函数)将样本映射到高维空间,从而实现线性可分。可以根据分类任务的不同,选择或设计对应的核函数。

图4 线性可分情况下的最优分离超平面

(3)最大熵原理

1957年E.T.Jaynes提出最大熵原理。最大熵原理认为:满足某些约束条件时,信息熵达到极大值的模型是最好的模型[15]。假设在仅有2个状态的情况下,要使熵最大,每种状态的概率都是0.5。如图5所示。由于试验者仅需要选择对分类有用的特征,而无需考虑如何使用这些特征,且独立于特定的任务,可移植性强,不受不确定因素的影响,因此ME模型已经成为自然语言处理领域最成功的机器学习方法之一。与基于距离空间的分类方法SVM相比,最大熵模型速度快,更容易给各个类别打出一个相对客观公正的得分。

图5 2个状态下的最大熵

2.3.2 分类融合

不同的分类器由于使用的模型,打分机制不同,因此都有着各自的优缺点。图核使用了丰富的词法和句法特征,但是可能关注不到距离较远的词。SVM具有较强的泛化能力以及对非线性数据的处理能力。可是当训练数据量稍大时,SVM的训练时间就会比较长,当数据量变得更大时,SVM算法甚至难以实施。ME尽量满足已知的事实,对未知的部分通过熵的最大化来实现等可能性。它的缺点就是对语料库的依赖性比较强。考虑到以上几点,为了使最后的分类结果更加全面、精确、可靠,本文将3组分类结果进行线性融合,这样可以弥补单一的分类器造成的失误。除此之外,本文还根据单个分类器的分类性能,对于性能好的分类器打分给予稍高的权重。线性加权融合公式如下:

其中,N代表分类器的个数;σn代表权重。图核、支持向量机和最大熵分类器的权重分别为0.2,0.7和0.1。

3 实验结果与分析

3.1 数据集

本文在5个公开的PPI语料上进行了评测。5个语料都以句子为单位,并且由专家标注了蛋白质实体名称以及实体之间的关系类别等。其中,A IM ed语料具有比较大的规模,近年来已发展成为蛋白质关系抽取评测的首选语料。对这5个PPI语料进行了统计,如表3所示。可以看出,5个语料在规模、正负例比例上有很大的不同,因此基于5个语料评测的PPI抽取方法具有较好的泛化性能。

表3 5个语料统计

3.2 评测指标

实验使用4个评测指标:准确率P(Precision),召回率R(Recall),F值(F-score)和AUC值(AUC score)。定义如下:其中,TP(True Positive)代表正例中判断正确的样本数,即原始实例为正例,分类后依然判断为正例的个数;FP(False Positive)表示正例中判断错误的样本数,即原始实例是正例,分类后被误判为负例的个数;TN(True Negative)表示负例中判断正确的样本数,即原始实例是负例,分类后被划分为负例的样本数;FN(False Negative)表示负例中判断错误的样本数,即原始实例是负例,分类后被误判为正例的个数。在这4个评测指标中,本文主要依据F值和AUC值。由于AUC值不受实例类别的分布影响,能够很好地权衡分类算法的总体性能,因此目前被广泛地用于文本分类算法进行评价。

3.3 结果分析

为了验证基于丰富特征和多分类器融合方法的有效性,本文实验在5个公开的基准语料上进行文档级别的10倍交叉验证,得到的所有实验结果都是10倍交叉验证后的平均值。

3个分类器及其组合在AImed语料上的具体结果见表4。由于3个分类器的决策机制以及分类效果差异比较大,因此比较适合融合。但是就3个分类器的单独分类效果来看,SVM在4个评测指标上几乎都要远远优于其他2个分类器。图核的F值处于SVM和ME的中间水平,而ME的准确率比较显著。因此,在对3组分类器打分进行线性加权时,应给予SVM更高的权重。综合5组实验来看,与前4组实验相比,第5组实验将3个分类器进行融合效果最好,F值达到了63.74%,AUC值为87.84%。但是组合分类器却造成了准确率的降低。究其原因,主要是图核分类的准确率偏低所致。

表4 AIM ed语料上的融合结果

同时,为了证明选取的特征不存在冗余,本文做了如下实验,结果如表5所示,从表5可以看出,将表1和表2中15种特征中的任意14种进行组合,其F值和AUC值都没有超过全部15种特征组合的结果。这说明本文选取的特征能够通过良好的融合来挖掘影响蛋白质实体对极性的信息。

表5 14种特征在AIM ed语料上的实验结果

本文实验对SVM、图核、最大熵的权重比作了穷举探讨,并给出了部分权重比的评测结果。如表6所示。由此可见当SVM、图核、最大熵的权重比为7∶2∶1时,F值和AUC值最高。

表6 多分类器融合的权重分配结果

表7是本文方法与其他方法在5个基准语料上的性能比较结果。各个语料上最好的F值和AUC值都用黑体加以强调。由表7可以看出和所有其他实验方法相比,本文方法在AIM ed语料上效果是最好的。此外,本文实验在4个语料上AUC值达到了最高。它是本文的系统性能良好的最好证明之一,因为AUC值描绘了分类器在TP(真正的正例)和FP(错误的正例)间的权衡比,标志着分类器性能的好坏。文献[10]使用了全路径图核的方法,仅在IEPA语料上获得了最好的F值75.1%,然而它的其他结果都要远远低于本文方法。文献[16]利用了多核和分析器融合,方法要比本文实验复杂,但是从性能上来看,本文的方法在除了Bio Infer以外的剩余4个语料上AUC值都要更胜一筹,而F值亦与其不相上下。不难看出,文献[17]在A IM ed、Bio Infer这样的大语料上效果要比本文的实验差很多,但在其他小语料集上却和本文持平。可能的原因就是A IM ed、Bio Infer语料相对比较大,且语料中的句子结构比较复杂,正负例不均衡,文献[17]在实验中过滤掉了大量的负例。文献[18]中使用的方法在各项指标上都不及本文,主要是因为本文在特征选择上做了充分的考虑,尽可能多地挖掘了词法、句法、语义特征。

表7 不同方法在5个语料上的结果

4 结束语

本文提出一个基于丰富特征和多分类器融合的蛋白质交互作用关系抽取方法。该方法一方面选取了丰富的上下文特征,并且利用句法分析器GDep和Stanford Parser得到了充足的句法和语义特征,另一方面综合了多个分类器的优势,达到了提高分类效果的目的。实验结果表明,本文方法具有良好的性能,在5个公开的PPI语料上综合指标位于前列,尤其是在AUC值上有较明显的优势。如何利用句法分析器的输出结果,挖掘有向的句法特征来进一步提高蛋白质交互作用关系抽取的性能则是下一步的研究工作。

[1] Pyysalo S,Ginter F,Heim onen J,et al.Bio Infer:A Corpus for Information Extraction in the Biomedical Domain[J].BMC Bioinformatics,2007,8(1):50.

[2] Bunescu R,Ge R,Kate R J,et al.Comparative Experiments on Learning Information Extractors for Proteins and Their Interactions[J].Artificial Intelligence in Medicine,2005,33(2):139-155.

[3] Ding J,Berleant D,Nettleton D,et al.Mining Medline:Abstracts,Sentences,or Phrases[C]//Proceedings of IEEE Symposium on BioComputing.Washington D.C.,USA:IEEE Press,2002:326-337.

[4] Fundel K,Küffner R,Zimmer R.RelEx-relation Extraction Using Dependency Parse Trees[J].Bioinformatics, 2007,23(3):365-371.

[5] Nédellec C.Learning Language in Logic-genic Interaction Extraction Challenge[C]//Proceedings of the 4th IEEE Learning Language in Logic Workshop. Washington D.C.,USA:IEEE Press,2005:216-222.

[6] Bunescu R,Mooney R,Ramani A,et al.Integrating Cooccurrence Statistics with Information Extraction for Robust Retrieval of Protein Interactions from Medline[C]//Proceedings of Workshop on Linking Natural Language Processing and Biology.[S.1.]:Association for Computational Linguistics,2006:49-56.

[7] Fundel K,Küffner R,Zimmer R.RelEx——Relation Extraction Using Dependency Parse Trees[J]. Bioinformatics,2007,23(3):365-371.

[8] Qian L,Zhou G.Tree Kernel-based Protein-protein Interaction Extraction from Biomedical Literature[J]. Journal of Biomedical Inform atics,2012,45(3):535-543.

[9] Qian W,Fu C,Cheng H.Semi-supervised Method for Extraction of Protein-protein Interactions Using Hybrid Model[C]//Proceedings of ISDEA'13.Washington D.C.,USA:IEEE Press,2013:1268-1271.

[10] Airola A,Pyysalo S,Björne J,et al.A ll-paths Graph Kernel for Protein-protein Interaction Extraction w ith Evaluation of Cross-corpus Learning[J].BMC Bioinformatics,2008,9(11).

[11] 王 健,冀明辉,林鸿飞,等.基于上下文环境和句法分析的蛋白质关系抽取[J].计算机应用,2012,32(4):1074-1077.

[12] Zhang X,Lin H F,Yang Z H.Extracting Protein-protein Interaction from Biomedical Literature Using an Ensemble Kernel[J].Journal of Information and Computational Science,2009,6(2):1067-1075.

[13] Kim S,Yoon J,Yang J,et al.Walk-weighted Subsequence Kernels for Protein-protein Interaction Extraction[J].BMC Bioinformatics,2010,11(1).

[14] 李 航.统计学习方法[M].北京:清华大学出版社,2012.

[15] Berger A L,Pietra V J D,Pietra S A D.A Maximum Entropy Approach to Natural Language Processing[J]. Computational Linguistics,1996,22(1):39-71.

[16] Miwa M,Sætre R,Miyao Y,et al.Protein-protein Interaction by Leveraging Multiple Kernels and Parsers[J]. International Journal of Medical Informatics,2009,78(12):39-46.

[17] Bui Q C,Katrenko S,Sloot PM A.A Hybrid Approach to Extract Protein-protein Interactions[J].Bioinformatics,2011,27(2):259-265.

[18] Tikk D,Thom as P,Palaga P,et al.A Comprehensive Benchmark of Kernel Methods to Extract Protein-protein Interactions from Literature[J].PLo S Computational Biology,2010,6(7).

编辑 索书志

Protein-protein Interaction Extraction Method Based on Multiple Features and Multiple Classifiers Fusion

WANG Jian,LIU M injie,LIN Hongfei
(School of Computing Science and Technology,Dalian University of Technology,Dalian 116024,China)

Automatically extracting Protein-protein Interaction(PPI)from biomedical literature is a significant task in text mining.Considering the choice of features and the selection of classifier is of great importance for Protein-protein Interaction Extraction(PPIE)task,this paper proposes a method to combine various features and multiple classifiers. Fifteen lexical,syntactic and semantic features,three kinds of classifiers and the standard ten-fold document level crossvalidation evaluation method are used to evaluate on the five public PPI corpuses,and results show that the method achieves the preferable F-score(63.7%)and AUC-score(87.8%)on the AIMed corpus which is on the top of the PPI extraction task,and it has better extraction performance.

Protein-protein Interaction Extraction(PPIE);rich features;Support Vector Machine(SVM);maximum entropy;graph kernel

王 健,刘敏捷,林鸿飞.基于多特征与多分类器融合的PPIE方法[J].计算机工程,2015,41(11):207-212.英文

Wang Jian,Liu Minjie,Lin Hongfei.Protein-protein Interaction Extraction Based on Multiple Features and Multiple Classifiers Fusion[J].Computing Engineering,2015,41(11):207-212.

1000-3428(2015)11-0207-06

A

TP391

10.3969/j.issn.1000-3428.2015.11.036

国家自然科学基金资助项目(61340020)。

王 健(1967-),女,副教授、博士、CCF高级会员,主研方向:信息检索,文本挖掘;刘敏捷,硕士研究生;林鸿飞,教授、博士、博士生导师。

2014-11-05

2014-12-02 E-m ail:wangjian@dlut.edu.cn

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究