关联规则挖掘结合PSO的基因-疾病关系自动提取方法*

2016-02-07 06:06陆维嘉
湘潭大学自然科学学报 2016年3期
关键词:肯定句否定句关联

陆维嘉

(南通大学 附属医院 信息中心,江苏 南通 226001)



关联规则挖掘结合PSO的基因-疾病关系自动提取方法*

陆维嘉*

(南通大学 附属医院 信息中心,江苏 南通 226001)

针对生物医学可用数据越来越庞大而导致管理人员很难从非结构化文件中整理出有用信息的问题,提出了一种基因-疾病关联规则提取方法.首先从MEDLINE和OMIM准备实验语料库,应用解析器产生一些语法信息;然后学习所有可能的规则,利用粒子群优化进行优化学习,从不相关句子中区分相关的;最后,计算学习规则的分数,选择感兴趣的规则,并生成一组有用的关联规则.以精度、召回率和F-分数为评价指标的实验证明了提出方法的有效性.实验结果表明,提出的方法最大精度、召回率和F-分数可分别高达79.2%、65.1%、68.5%,相比手动规则集,提出的方法更加完整.

关联规则;基因-疾病关系;粒子群优化;生物医学;自动提取;浅解析器

过去几年中随着医学生物学知识的指数增长,提供给研究者和临床医生可用的生物医学数据也因此急剧增加[1].基因与疾病关系是一个重要的研究领域[2],是理解疾病属性和开发预防诊断治疗新技术等人类健康应用程序的一个基本挑战[3].已经有许多可探索基因与疾病之间关系的方法,部分学者使用蛋白质-蛋白质交互预测基因-疾病关系[4-7];也有方法使用基因本体论(GO)[2]或疾病本体论(DO)[8-10]比较基因和疾病之间的相似度,基因与某个特定的疾病关联基于一些涉及GO或DO的比较评估排序;其他约束词表如MeSH已用于连接蛋白质与疾病术语MeSH;基因表示、蛋白质序列和位置信息也担任关联基因和疾病的重要证据;而且,学者们采用挖掘技术从生物医学文献中提取基因-疾病关联.这些研究表明,基因与疾病之间的关联规则挖掘是一个非常活跃的研究领域,因为它能使人们更好地理解疾病,减少开发有效药物和治疗的时间和支出.

基于上述分析,参照文献[11]使用的工具,提出了一种基因与疾病之间关联规则提取方法,通过利用规则学习算法进行蛋白质注释,该方法更加关注基因-疾病关系的挖掘.

1 架构概述

图1所示为提出方法的总体架构.第一步,预处理语料库中的每个摘要;第二步,为学习取一组肯定句和一组否定句,参考OMIM中的疾病数据,因为它记录了基因和疾病之间的一些正确关系,因此,评估测试结果时把疾病数据当作黄金标准;第三步,采用基于内存的浅解析器产生带解析信息的标记句子;第四步,使用ALEPH系统学习基因与疾病之间的关系,并利用粒子群优化(particle swarm optimization, PSO)算法进一步优化学习;第五步,根据提出的方法选择一些规则,做出规则释义;第六步,获得一组规则.

2 实验数据

MEDLINE[12]是一个大型生物医学语料库,生物医学专家经常从MEDLINE中检索专题或提取相关文件,它覆盖了生物、植物学、生物化学、生物技术、医学、护理、牙科、兽医医药、卫生保健系统和其他相关领域的话题.用于TREC,2004基因组跟踪的部分文件作为本文实验数据,由918 202个MEDLINE摘要组成,涉及许多不同物种的基因.

3 提出的方法

3.1 语料库预处理

每个摘要的预处理过程均由两部分组成:基因名称识别;疾病名称识别.使用geniatagger.3.0.1识别所有出现的基因名称,因为OMIM数据库包含许多基因-疾病的注释,故从OMIM中提取疾病名称列表.

3.2 基于内存的浅解析器

为了应用解析器,首先清除句子的基因和疾病标记,也就是此时有2 000个无标记句子;然后利用基于内存的浅解析器(The memory based shallow parser, MBSP)解析.解析器的功能有:标记和拆分句子、词性标注、词块划分、关系发现、介词短语连接和词性还原.MBSP将以语法信息标注每个单词.研究采用的解析信息包括词性、词块和SVO关系(主-谓-宾关系).

3.3 关联规则学习

对于从分析的不相关和相关句子中学习的候选规则,将归纳逻辑程序(Inductive Logic Programming, ILP)作为机器学习框架.实验中,背景知识包括两部分:语言启发式算法和句子的描述.语言启发式算法的作用是引导单插槽模式的构建,使用表1中预定义的谓语表示分析的句子,从而对句子进行描述.

表1 用于分析句子的谓语表示Tab.1 The expression of converses using to parsing sentence

利用PSO对关联规则进行优化学习,PSO由粒子群组成,这里,粒子为初步学习到的关联规则.每次迭代过程,每个粒子都在向着它的个体及全局最佳位置移动,粒子移动过程可描述为:

(1)

(2)

式中t表示第t次迭代;C1和C2是学习因子,其范围是正常分布下0~1之间的任意正数;α 是控制速度比重的约束因子;w表示惯性权重系数;xid表示粒子i的位置;vid表示粒子的i速度;pid是粒子i的个体最佳位置;pgbest表示所有粒子中最佳粒子位置之一.

3.4 规则选择和规则释义

接着,ALEPH将输出有关学习的信息,即规则和规则形式覆盖的肯定句和否定句的数目.如下所示,对于规则366,有一个肯定句没有否定句满足规则366的形式,“structure”记录句子366中的规则形式,使用Prolog语言表示.

[Rule366] [Pos cover=1 Neg cover =0]

Sturcture.

[Rule367] [Pos cover=1 Neg cover =0]

Sturcture.

[Rule368] [Pos cover=3 Neg cover =0]

Sturcture.

利用(3)式计算每个规则的分数:

(3)

式中S是分数;Pos和Neg分别表示规则覆盖的肯定句和否定句的数目;N表示归一化系统,为常数,根据经验,本文取1 000.实验使用阈值过滤选择规则,选择的规则中,有些规则可能会有相同的意思,例如,“vp:cause”和“vp:be caused”的意思相同,其中,subj是主语,vp是动词短语,dobj是直接宾语.因此,若规则包含主动语态的动词短语,则将被动语态添加到规则中,反之亦然.

4 实 验

4.1 评价指标

使用标准的精度和召回率作为评价指标,定义如下:

精度=TP/(TP+FP),召回率=TP/(TP+FN),

式中TP是正确肯定句的数目,FP是错误肯定句的数目,FN是错误否定句的数目.实验中,正确肯定句指有正确基因-疾病对的句子,错误肯定句指有不正确基因-疾病对的句子,错误否定句是实际上有基因-疾病对的句子,但本系统未提出.用F-分数度量来表示包括精度和召回率的性能:

4.2 预处理测试

测试一组包含200个肯定句和200个否定句的400个句子的性能.为了找到有正确基因-疾病对的句子,先过滤了有否定意义的句子,接着由一个简单的启发式算法进行指代解消:提取前述的基因或疾病名称.测试预处理过程如下:

1) 若句子包含一些否定词,如not、either、nerver…,则认为这些句子是否定句.

2) 若主语是代名词,如which、that…,则检查代名词的前一个词,若前一个词是基因或疾病名称,则使用它代替代名词,例如,句子“This information is relevant for the screening of recently reported missense mutations of which cause ”中的“which”用基因名“RET”代替.

4.3 实验结果

利用(3)式归一化了所有规则的分数,给出5个阈值来生成5组规则,然后评估每组400个测试句子的性能,实验结果列于表2.

表2 五个不同阈值的实验结果Tab.2 The experimental results of five different thresholds

表2中,列“规则#”表示分数大于或等于对应阈值的规则数目,列“肯定句#”表示本系统提出的有正确基因-疾病关系的句子数目,列“否定句#”表示本系统提出的有不正确基因-疾病关系的句子数目,“精度”、“召回率”和“F-分数”是本文的评价指标.从表2中可以观察到,阈值取的越小,得到的规则数目越多.这是因为召回率更好;反过来,如果阈值取的越大,则规则数目会减少,召回率也会越差.例如,阈值0.9时能产生5个规则,5个规则为:

Rule 1: cause ;Rule 2: be involved in ;Rule 3: be associated with ;Rule 4: affect by ;Rule 5: result in .

从规则可以看出,对于规则1,它表示gene出现在cause之前,这里规则不要求gene一定要在cause旁边.本文认为cause在gene和disease之间,中间允许有其他单词.规则1的例子是“This observation and the finding that TP53 gene is the ‘faulty’ genes that cause breast cancer.”这个例子中,TP53是基因,breast cancer是疾病.

上述5个规则展示了有基因-疾病关系的句子的一般模式,计算可得精度为79.2%,但它没有足够的覆盖范围,因为召回率仅17.5%.这个现象反映出尽管可以手动写出一般模式规则,但自动模式才能达到较高的覆盖范围,即便是该领域的专家,也要花费大量的时间才能产生所有模式.

4.4 比较及分析

将提出的方法与其他文献提出的方法进行比较,结果如表4所示.由于测试集和评估准则不同,故没有足够的证据推断哪个方法更好.从表4可以得出如下信息:1)本文对基因-疾病关系发现使用“自动规则提取”,这个方法比其他研究难度更大;2)通常情况下,性能差别很大,但本文提出的方法给出的结果是令人振奋的,而且,因为训练语料库相似,本文可以与以前的性能作比较,以前研究的F-分数为42.%(100%精度和27.15%召回率),而本研究能得到68.5%的F-分数(70.6%精度和65.1%召回率),表明提出的方法得到的结果更好.因此,相比以前类似的研究,提出的方法有了很大程度的改进.

表3 与其他文献研究结果的比较Tab.3 The research results comparison with other literatures

5 结 论

本文提出了基因-疾病关系自动提取方法,可自动生成关联规则.如果有更多注解的语料库,该方法能生成更加精确的规则,其比直观或手动产生的规则更加完整.尤其是在文本中记录了成千上万条生物医学知识的情况下,即便是该领域的专家,在短时间内手动整理所有内容也是不可能实现的,故提出的方法可为操作快速增长的文献资料节省大量时间.相比以前的研究,由于测试集和准则各有不同,实验不能直接推断提出的方法执行效果最好,但是提出的方法仍然获得了令人满意的结果,且提出的方法比其他以前的研究都要困难.

[1] 冉雪江, 薛康, 曹莉. 基于切比雪夫混沌映射的医学信息管理系统安全认证方案[J]. 湘潭大学自然科学学报, 2016, 38(1): 106-110.

[2] 邵海珠. 基于协同过滤的疾病基因预测方法[D].西安:西安电子科技大学, 2014.

[3] GARCIAALBORNOZ M, NIELSEN J. Finding directionality and gene-disease predictions in disease associations [J]. Bmc Systems Biology, 2015, 9(1): 1-8.

[4] 郜峦, 王键, 李锋刚, 等. 基于关联规则的肺系疾病症药关系研究[J]. 中医杂志, 2013, 54(8): 697-700.

[5] 梁诗雨. 蛋白质相互作用网络中致病基因预测算法研究[D]. 长沙:湖南大学, 2015.

[6] 查青林, 余俊英, 余飞, 等. 基于代谢相关 MeSH 词文本挖掘分析治疗咳嗽中药五味分类的生物学特征[J].中国中医基础医学杂志, 2010, 23(7): 616-618.

[7] PLETSCHER-FRANKILD S, PALLEJA, TSAFOU K, et al. DISEASES: Text mining and data integration of disease-gene associations[J]. Methods, 2015, 74(3): 83-89.

[8] 王宏, 曲晓莉, 赵研,等. 基于表达及网络拓扑结构挖掘动脉粥样硬化风险疾病基因[J]. 生物化学与生物物理进展, 2010, 37(8): 916-922.

[9] NATARJAN N, DHILLON I S. Inductive matrix completion for predicting gene-disease associations[J]. Bioinformatics, 2014, 30(12): 60-68.

[10] 袁芳, 王瑞春, 管明祥, 等. 基于文本挖掘与功能相似性的疾病基因预测[J]. 计算机工程, 2011, 37(4): 27-28.

[11] HOU W J, KUO B Y. Discovery of gene-disease associations from biomedical texts [J].Computer Science and Information Technology,2016, 4(1): 1-8.

[12] GREENHALGH T. How to read a paper:the medline database [J]. BMJ, 1997, 315(12): 180-183.

责任编辑:龙顺潮

An Automatically Gene-disease Association Extraction Method Based on Association Rule Algorithm and PSO

LUWei-jia*

(Information Center, Affiliated Hospital of Nantong University, Nantong 226001 China)

Biomedical data available to researchers and clinicians have increased dramatically with the exponential growth of knowledge in medical biology. It is difficult for curators to organize useful information, for which a automatically extract algorithm of gene-disease association is proposed. Firstly, the experimental corpus is prepared from MEDLINE and OMIM,and a parser is used to produce some grammatical information. Then, all possible rules that discriminate relevant from irrelevant sentences are learned, and particle swarm optimization (PSO) is used to optimized learning. Finally, the scores of the learned rules are computed in order to select rules of interest and a set of rules is generated. The effectiveness of proposed algorithm has been verified by experiments setting recall andF-score served as evaluation metrics. Experimental results show that the maximal precision rate, the maximal recall rate andF-score can achieve 79.2%, 65.1% and 68.5% respectively. Proposed automatically association extracting algorithm has more complete set than the manually generated one.

association rule; gene-disease association; particle swarm optimization; biomedicine; automatically extract; latent parser

2016-05-11

国家自然科学基金项目( 61171146)

陆维嘉(1976-),男,江苏 南通人,博士, 高级工程师. E-mail:luweijia.good@163.com

R318

A

1000-5900(2016)03-0064-05

猜你喜欢
肯定句否定句关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
can have done用法小结
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
学写双重否定句
虚拟语气“本……”的表达方式和高考
重点词语辨析与演练
must,have to和have got to
Units 1—2句型转换专练