基于文本挖掘的基因网络分析

2018-01-17 15:56邢翀
电子技术与软件工程 2017年20期
关键词:转录因子文本挖掘老年痴呆

摘 要 Alzheimers disease是生活中最为常见的老年痴呆症状,尤其是近些年来,患者人数在不断的攀升,给社会造成了巨大的负担,然而目前的医学研究人员并不清楚其发病机制。本文所使用的数据来自于NCBIgene数据库、北京大学生物医学信息学院开发的TransmiR(http://cmbi.bjmu.edu.cn/transmir)数据库等数据平台。本文采用文本挖掘的方法首先从相关已知数据库中搜集了与病症有关的异常表达数据和相关表达数据,并进行了数据整理,通过试验证实构建调控网络,最后构建了阿尔默海茨病的异常表达网络以及相关表达网络。

【关键词】阿尔默海茨病 文本挖掘 老年痴呆 miRNA 转录因子

阿尔茨海默病(AD)是一种起病隐匿的进行性发展的神经系统退行性疾病。临床上以记忆障碍、失语、失用、失认、视空间技能损害、执行功能障碍以及人格和行为改变等全面性痴呆表现为特征,病因迄今未明。65岁以前发病者,称早老性痴呆;65岁以后发病者称老年性痴呆。如今,阿尔茨海默病已经成为一个世界性的公共卫生问题,由于人口老龄化情况严重,使得阿尔茨海默病的发病率和患者人数成倍增加。据当前数据统计,世界范围内阿尔茨海默病患者大概有三千多万,预计到2050年,阿尔茨海默病患者是现在人数的三倍还要多。这些都给我国社会的发展带来了沉重的负担。因此,如何有效的对其预防和治疗,成为我国面临重要的健康问题。由于近年来,科学技术的快速发展,使得网络大数据在医学上也得到了广泛的应用,因此本文就利用计算方法构建阿尔茨海默病差异表达网络以及相关表达网络,并从中挖掘隐藏的miRNA与阿尔茨海默病的关联信息。

1 数据搜集

文中的基因数据来自DisGeNET (v4.0) ,MalaCards,Phenopeda和PubMed (http://www.ncbi.nlm.nih.gov/pubmed) 数据库。miRNA数据来自HMDD (v2.0) ,miR2Disease,PhenomiR和PubMed数据库。转录因子-miRNA数据来自TransmiR(version 1.2)数据库。转录因子-基因数据来自TRANSFAC (v 11.4)和ORegAnno数据库。miRNA宿主基因来自National Center for Biotechnology Information (NCBI) (http://www.ncbi.nlm.nih.gov/gene/)数据库。miRNA-基因数据来自Tarbase(v 7.0) ,miRTarBase (v 6)和miRecords (v 4)数据库。

2 网络的构建

试验调控网络的数据包括以下几种:转录因子miRNA(TFs→miRNAs),转录因子基因(TFs→genes),miRNA基因(miRNAs→genes),miRNA(miRNA)以及宿主基因(host gene)。本文就是通过这些试验数据来构造的转录因子和miRNA的联合调控网络,这個网络称为试验认证调控网络。

文章在转录因子、miRNA和基因的关联数据以及试验认证调控网络基础上构造了阿尔茨海默病的相关网络。首先将节点映射到认证网络中,其次提取出相关联的认证数据来构造一个相关调控网络,最后结合网络和其他没有出现在上述网络中的转录因子、基因和miRNA一起构成一个网络。

继续使用相似的方法构造了阿尔茨海默病的异常表达网络。把异常数据(阿尔茨海默病的转录因子、miRNA和基因)映射到认证网络中,从而提取出试验数据来构建异常表达的网络,最后也是结合网络以及其他没有出现在此网络中的转录因子、miRNA和基因再构成网络。本文中使用cytoscape软件把网络可视化。

3 相关表达网络的构建

如图1所示为阿尔茨海默病的相关表达网络。其中包括了异常调节和非异常调节元素,显然,相关表达网络包括了异常网络。试验结果显示14个宿主基因没有差异表达,它们有可能参与了阿尔茨海默病的相关过程。异常网络在一定程度上揭示了阿尔茨海默病的发病机制。相关网络不仅可以在一定程度上显示出阿尔茨海默病出现的调控机制,还可以说明该病症的预防和治疗策略。

图1为阿尔茨海默病相关表达网络。红色节点代表差异表达的转录因子、miRNA和靶基因;蓝色节点代表非差异表达以相关的转录因子、miRNA和靶基因;白色代表miRNA的宿主基因;圆型代表靶基因;三角形代表转录因子;园矩形代表宿主基因;菱形代表miRNA。

本文手动从阿尔茨海默病的相关网络中提取关键网络基序。其中由阿尔茨海默病的相关表达网络中的宿主基因、miRNA和靶基因组成的共有10种关键网络基序。其中包括反馈环基序,此基序是癌症关键调控基序。异常表达网络中包含了45个3节点关键网络基序,15个4节点基序以及26个反馈环基序。而相关表达网络中包含75个3节点关键网络基序,75个4节点基序,31个反馈环基序。

4 调控网络的构建

最后获得了38个预测转录因子。其中转录因子E2F1,NFKB1 和E2F4是异常表达基因,TCF3 和非异常表达基因有关。图二显示出4种转录因子在阿尔茨海默病的相关网络中的调控关系。E2F1 在57个靶基因之间调节,其中13个基因是异常表达的,其他的都是非异常表达。E2F1 在10个miRNA之间调节,其中9个miRNA为异常表达,1个miRNA非异常表达。与此同时,5个转录因子调节E2F1 ,6个miRNA也指向了E2F1 。E2F1 的靶基因和这些miRNA构成了38个反馈环和6个前馈环。E2F4在79个靶基因之间调节,其中21个基因是差异表达,其他的基因都是非差异表达,与此同时SMARCA4 调节了E2F4。NFKB1调节了8个miRNA,它们都是差异表达,5个转录因子(E2F1, E2F4, GATA2,RBL2 and SMARCA4)调节NFKB1,9个miRNA调节NFKB1,NFKB1的靶基因和6个miRNA构成了6个反馈环。TCF3调节3个靶基因(GLI1, VPREB1 and NR0B2),它们都是非差异表达,4个转录因子(E2F1, E2F4, RBL2 and SMARCA4)调节TCF3,2个miRNA(miR-145 and miR-17)调节TCF3。endprint

图2为阿尔茨海默病调控网络中E2F1,NFKB1, E2F4 and TCF3的调节关系图。红色节点代表差异表达的转录因子、miRNA和靶基因,蓝色节点代表非差异表达以及相关的转录因子、miRNA和靶基因,圆形代表靶基因,三角形代表转录因子,菱形代表miRNA。

5 结论

医学工作者通过多次的重复实验,发现一些与阿尔茨默病有关的基因和miRNA,根据大量的研究发现,阿尔茨默病的发生不是由单一的或者几个基因和miRNA造成的。我们可以知道,基因和miRNA可以相互调控,建立调控网络,可以将它们之间的控制关系清晰的展现出来。转录因子,miRNA还有宿主基因都在疾病中占据重要的作用它们可以共同合作调控基因表达。

参考文献

[1]Xiao F1,Zuo Z,Cai G,et al. miRecords: an integrated resource for microRNA-target interactions [J]. Nucleic Acids Res,2009,37(Database issue):D105-D110.

[2]Havelange V,Stauffer N,Heaphy CC, et al.Functional implications of microRNAs in acute myeloid leukemia by integrating microRNA and messenger RNA expression profiling [J].Cancer,2011,117(20):4696-4706.

[3]劉静,抑癌基因p14ARF对慢性粒细胞白血病细胞增殖、细胞周期及凋亡的影响机制研究[J].中国医药导报,2012,9(35).

[4]苏乃芳,转录因子和microRNA组成的基因调控网络的生物信息学分析[D].北京:北京大学数学科学学院,2013.

[5]Dohi O1,Yasui K,Gen Y,et al. Epigenetic silencing of miR-335 and its host gene MEST in hepatocellular carcinoma [J].Int J Oncol,2013,42(02):411-418.

[6]Shannon P,Markiel A,Ozier O,Baliga NS,Wang JT,Ramage D,Amin N, Schwikowski B,IdekerT.Cytoscape:a software environment for integrated models of biomolecular interaction networks.Genome Research 2003 Nov;13(11):2498-504.

作者简介

邢翀(1980-),女,吉林省长春市人。吉林大学计算机科学与技术学院博士毕业,副教授。研究方向为智能计算。

作者单位

长春金融高等专科学校信息技术学院 吉林省长春市 130028endprint

猜你喜欢
转录因子文本挖掘老年痴呆
探讨预见性护理程序在老年痴呆护理中的应用效果
NF—κB信号通路抗肝纤维化的研究进展
奥氮平、利培酮治疗老年痴呆精神行为症状的临床疗效比较
慧眼识璞玉,妙手炼浑金