基于双层生物分子网络的致病基因预测

2022-03-16 00:10王路宽吴舜尧

青岛大学学报（自然科学版） 2022年1期

王路宽吴舜尧

摘要：基于“致病基因邻居倾向于引起相似疾病”和“必需基因和致病基因关联较少”的假设，融合蛋白质相互作用和代谢通路，构建双层生物分子网络，提出一种基于双层生物分子网络双流量网络传播的致病基因排序方法。为致病基因和必需基因分配正流量和负流量，挖掘与已知致病基因相似的潜在致病基因。实验结果表明，本方法与基于经典假设的单层网络方法相比，在富集分数1和富集分数2分别提高11.66和13.66。

关键词：致病基因预测;网络传播;蛋白质相互作用;代谢通路

中图分类号：TP391 文献标志码：A

人类基因组计划的完成标志后基因组时代到来[1]。相关研究表明，基因突变与变异是疾病发生的重要因素[2]，大部分疾病都会受到遗传变异的影响[3]。例如阿尔兹海默症、糖尿病和乳腺癌等疾病通常是由一个或者一组基因突变引起的，这些基因被称为致病基因[4]。识别致病基因是生物信息学领域的重要任务之一[5]，有助于揭示遗传疾病发病机理，提高疾病检测[6]、预防及治疗水平，还可为药物研发提供靶标[7]。致病基因预测一般可分为基因分类和基因排序。基因分类将致病基因预测转化为二分类问题，即将已知致病基因视为正样本，随机选择一些未知基因（不确定是否为致病基因）作为负样本，构建二分类器判断未知基因是否致病。Adie等[8]从基因序列中提取特征，利用决策树构建致病基因预测模型。Smalter等[9]从基因序列和蛋白质拓扑结构中提取特征，采用支持向量机构建致病基因预测模型。虽然基因分类取得了一定成果，但是在选择未知基因做负样本时，若将未被发现的致病基因作为负样本（假阴性样本），这会干扰分类器的构建[10]。基因排序则可以避免这一问题，通常基于“致病基因的邻居倾向引起相似疾病”经典假设设计方法，给定一种疾病及其已知的致病基因，在蛋白质相互作用等生物分子网络中筛选与已知致病基因拓扑相似性高的候选基因。Kohler等[3]利用重启随机游走算法进行基因排序，但仅利用了蛋白质相互作用的数据。随着高通量测序技术的快速发展，生命科学领域积累了大量的组学数据，为致病基因预测带来新的机遇和挑战。Lage等[11]利用贝叶斯模型整合多源网络，提高了致病基因预测的可靠性，但无法识别与已知致病基因无连接的基因。Li等[12]基于二元网络重启游走算法实现致病基因的预测，提高了预测准确率，但沒有利用必需基因等其他组学数据。必需基因和其编码的蛋白质是维持人体生命活动的基础，当其受到影响时可能会导致严重疾病，甚至致死。Wu等[13]发现致病蛋白（致病基因编码的蛋白质）与必需蛋白（必需基因编码的蛋白质）的拓扑关联较少，设计双流量网络传播方法用于基因排序，提高了致病基因的预测效果，为基于多组学数据预测致病基因提供了新思路。以往研究缺乏对多种组学数据或者必需基因的利用，为此，本文使用蛋白质相互作用和代谢通路等组学数据，构建两层分子网络，采用双流量网络传播，通过迭代更新达到稳定状态，从而获得基因排序以及预测的致病基因。

1 基于双层生物分子网络的致病基因预测

本文利用蛋白质相互作用和代谢通路构建双层生物分子网络。记双层生物分子网络为G=（V，E，L）。其中，V为节点集合，节点包括蛋白质pi和基因gi。E为链路集合，包括网内连边和网间连边。L为网络层集合，包括蛋白质网络层LPPI和代谢通路网络层LMP。E中任意一条链路均可表示为（u，v，Lα），其中u，

v∈V，Lα为该链路所属的网络层。Mp表示蛋白质网络的邻接矩阵;Mg表示代谢通路网络的邻接矩阵;Mgp表示基因和蛋白质对应关系的邻接矩阵;Mpg表示蛋白和基因对应关系的邻接矩阵。如图1所示，上层LPPI为蛋白质相互作用层，下层LMP为代谢通路层，两层网络通过基因编码蛋白质关系的映射。图中候选蛋白质p2、p3、p6与致病蛋白质p4、p5有相互作用，传统方法会认为p2是致病蛋白质。考虑到p2与必需蛋白质关联较多，违背了“必需基因与致病基因关联少”的假设[14]，而p3与必需蛋白质关联较少，因此降低误认为蛋白质p2为致病蛋白质的可能性，并使正确识别p3成为致病蛋白质的可能。

基于双层生物分子网络设计一种双流量网络传播方法。双层网络传播[15]分别从LPPI中节点p和LMP层节点g出发，连续将流量分配给邻居节点（同层或者异层）。每个时间戳，节点将流量平均分配给邻居。假设节点x拥有1单位的流量，则向其邻居传送的流量为Wx，y=M（x，y）/d（x），d（x）是节点x的度，M表示邻接矩阵，W为M的归一化矩阵。根据网络结构评估节点与节点x的相似性。网络传播定义为

Ft+1=1-λWFt+λY（1）

其中，Ft是一个向量，记录节点在时间戳t时拥有的流量，Y是先验信息，λ是控制Y重要程度参数，F0=Y。双层生物分子网络中存在蛋白质和基因两种属性的节点，其邻接矩阵定义为

M=（1-α）MpαMpg（MgpMpg）αMgp（MpgMgp）（1-α）Mg（2）

其中，参数α为LPPI层和LMP层中分发流量概率;1-α为停留在上一时刻概率。若Ft=Ft+1，代入式（1）得

Ft+1=λ（I-1-λW）-1Y（3）

记λ（I-1-λM）-1为S，S（x， y）表示节点x和节点y的相似性，α和λ依据经验设置为0.5。

基于“致病基因邻居很有可能导致相同或者相似的疾病”经典假设，该方法为“NPMD”，给定一种疾病n及其已知的致病基因集合Tn，编码蛋白质集合Pn。设置先验信息

Y=μ0ν0（4）

其中，μ0为LPPI初始化向量，若μi为致病蛋白质，则μ0i=1Pn。v0为LMP初始化向量，若vi为致病基因，则v0i=1Tn。候选基因x与致病基因的相似性

Ft+1=∑y∈TnS（x，y）（5）

融合“致病基因邻居很有可能导致相同或者相似的疾病”和“必需基因与致病基因关联较少”两个假设，该方法称为“NPMD&E”。本文将正流量分配给致病基因（蛋白质），将负流量分配给非致病必需基因（蛋白质），设置先验信息Y，式（4）中，非致病必需基因（D∩E），编码蛋白质有m个，若μi为致病蛋白质，则μ0i=1Pn，若μj为非致病必需蛋白质，则μ0j=1m，若vi为致病基因，则v0i=1Tn，若vj为非致病必需基因，则v0j=1|D∩E|。候选基因排序

Ft+1=1Tn∑y∈TnS（x，y）-1|D∩E|∑y∈D∩ES（x，y）（6）

2 实验设计

2.1 数据

蛋白质相互作用（Protein-Protein Interaction，PPI）数据来源于I2D和String[16]数据库。蛋白质互作网络中含有16 456个节点和153 578个连边，用邻接矩阵Mp表示。代谢通路数据来源于京都基因和基因组百科全书（KEGG），通过基因组测序和高通量实验技术整合了基因组、化学和系统功能信息的大规模分子数据库[17]。代谢通路中含有6 329个节点和56 759个连边，用邻接矩阵Mg表示。从Uniprot数据库[18]获取基因编码蛋白质映射关系。构建两层网络间的连边，双层生物分子网络中包含16 456个蛋白质节点和6 329个基因节点，经过分析得到蛋白质和基因之间直接相连的边有5 699条。

疾病的致病基因从孟德尔遗传数据库（Online Mendelian Inheritance in Man，OMIM）[19]获得，选取通过医学验证的9个疾病及其致病基因如表1所示。必需基因普遍存在于正常组织和细胞中，对于个体生命的正常生命活动很重要。相关研究表明致病基因对必需基因的影响与其他基因相似，甚至更弱，这表明当基因发生突变时，可以最大限度地保护人体的正常活动。本文选用持家基因作为必需基因[20]。

2.2 评价标准

富集分数（Enrichment Score，ES）[3]是基因优先排序的典型评价指标。选择一个致病基因作为测试基因，候选基因列表是选择同一染色体上该基因最接近的100个基因。若分配给测试基因的最终排在第r位，则富集分数为50/r。若具有相同的流量，则测试基因排在最后。若测试基因不在网络中，评分为100（富集分數为0.5）。包含不在网络中的致病基因称为“富集分数1”，剔除不在网络中的致病基因称为“富集分数2”。接收者操作特征曲线（Receiver Operating Characteristic Curve，ROC）能有效地估计二进制分类器的性能。通过设置等级阈值，认为基因优先排序是二进制分类[21]。ROC曲线下的面积（Area Under Curve，AUC），通过给定的阈值评价该方法的敏感性和特异性。实验中采用留一交叉验证，给定一种疾病和相应的致病基因（假设致病基因总数为n），依次选择每个致病基因作为测试集，剩下的n-1个致病基因作为训练集，通过富集分数和AUC分析[21]评估预测致病基因的性能。

2.3 实验结果及分析

从OMIM数据库选用9种遗传疾病的致病基因，对比预测效果，如表2所示。在椭圆细胞增多症、掌跖角化病和阿尔茨海默症疾病的致病基因预测能够达到50，但在非胰岛素依赖型糖尿病和青年发病的成年型糖尿病提升效果不明显，总体NPMD&E的预测效果明显优于其他方法。

采用AUC、平均富集分数1（AVE ES 1）和平均富集分数2（AVE ES 2）进一步评价方法性能。平均富集分数1表示选取疾病所得富集分数1的平均值，平均富集分数2表示选取疾病所得富集分数2的平均值。如表2和表3所示，基于假设“必需蛋白与致病蛋白关联较少”，NPD&E预测效果优于单层网络的NPD，平均富集分数1和平均富集分数2分别提高了4.71和4.89，NPMD&E相比NPMD在平均富集分数1和平均富集分数2分别提高了11.77和13.34，表明考虑必需基因有利于提高预测准确率。双层生物分子网络NPMD&E比单层蛋白质网络NPD&E的提高了11.66和13.66，说明引入代谢的组学数据、构造双层生物分子网络可有效提高致病基因的预测效果。

图2中NPMD曲线下的面积要大于NPD，表明引入代谢通路可有效提高致病基因的预测准确率。NPD&E的AUC要大于NPD和NPMD，表明兼顾“致病基因邻居很有可能导致相同或者相似的疾病”和“必需蛋白与致病蛋白关联较少”两种假设可有效提高致病基因的预测效果。NPMD&E性能明显优于NPMD、NPD&E和NPD 3种方法，表明双层生物网络中引入“必需蛋白与致病蛋白关联较少”假设可进一步提升致病基因预测效果。

3 结论

本文提出基于双层生物分子网络的致病基因预测方法，运用蛋白质相互作用和代谢通路组学数据，利用致病基因和必需基因在网络中的拓扑结构差异性，采用正、负流量的网络传播预测致病基因。对比实验结果，本方法的AUC、富集分数1和富集分数2分别为0.86、28.66和31.16，提高了致病基因预测效果。今后将充分利用其他组学数据如疾病表型、基因调控和蛋白质复合物预测其他疾病的致病基因。

参考文献

[1]夏启中. 基因工程[M]. 北京：高等教育出版社， 2017.

[2]KABIR M T， UDDIN M S， SETU J R， et al. Exploring the role of PSEN mutations in the pathogenesis of Alzheimer’s disease[J]. Neurotoxicity Research， 2020，38（4）： 833-849.

[3]KOHLER S， BAUER S， HORN D， et al. Walking the interactome for prioritization of candidate disease genes[J]. American Journal of Human Genetics， 2008， 82（4）： 949-958.

[4]PIRO R M， DI CUNTO F. Computational approaches to disease-gene prediction： Rationale， classification and successes[J]. Febs Journal， 2012， 279（5）： 678-696.

[5]劉丽丽，张绍武. 基于随机游走的风险致病基因预测研究进展[J]. 生物化学与生物物理进展：2021，48（10）：1184-1195.

[6]沈倩倩，邵峰晶，孙仁诚. 基于XGBoost的乳腺癌预测模型[J]. 青岛大学学报（自然科学版）， 2019， 32（1）：95-100.

[7]LUO P， TIAN L P， RUAN J S， et al. Disease gene prediction by integrating PPI networks， clinical RNA-Seq data and OMIM data[J]. IEEE-ACM Transactions on Computational Biology and Bioinformatics， 2019，16（1）： 222-232.

[8]ADIE E A， ADAMS R R， EVANS K L， et al. Speeding disease gene discovery by sequence based candidate prioritization[J]. Biomed Central Bioinformatics， 2005， 6：55.

[9]SMALTER A， LEI S F， CHEN X W. Human disease-gene classification with integrative sequence-based and topological features of protein-protein interaction networks[C] // 2007 IEEE International Conference on Bioinformatics and Biomedicine， Fremont， 2007：209-214.

[10] NGUYEN T P， HO T B. Detecting disease genes based on semi-supervised learning and protein-protein interaction networks[J]. Artificial Intelligence in Medicine， 2012， 54（1）：63-71.

[11] LAGE K， KARLBERG E O， STORLING Z M， et al. A human phenome-interactome network of protein complexes implicated in genetic disorders[J]. Nature Biotechnology， 2007， 25（3）：309-316.

[12] LI Y J， PATRA J C. Genome-wide inferring gene-phenotype relationship by walking on the heterogeneous network[J]. Bioinformatics， 2010， 26（9）：1219-1224.

[13] WU S Y， SHAO F J， JI J， et al. Network propagation with dual flow for gene prioritization[J]. Plos One， 2015， 10（2）： e0116505.

[14] WU S Y， SHAO F J， SUN R C， et al. Analysis of human genes with protein-protein interaction network for detecting disease genes[J]. Physica A： Statistical Mechanics and its Applications， 2014， 398：217-228.

[15] VANUNU O， MAGGER O， RUPPIN E， et al. Associating genes and protein complexes with disease via network propagation[J]. PLOS Computational Biology， 2010， 6（1）： e1000641.

[16] SZKLARCZYK D， GABLE A L， NASTOU K C， et al. The string database in 2021： Customizable protein-protein networks， and functional characterization of user-uploaded gene/measurement sets[J]. Nucleic Acids Research， 2021， 49（D1）： D605-D612.

[17] KANEHISA M， FURUMICHI M， TANABE M， et al. KEGG： New perspectives on genomes， pathways， diseases and drugs[J]. Nucleic Acids Research， 2017， 45（D1）： D353-D361.

[18] 罗静初. UniProt蛋白质数据库简介[J]. 生物信息学， 2019， 17（3）：131-144.

[19] AMBERGER J S， HAMOSH A. Searching online mendelian inheritance in man （OMIM）： A knowledgebase of human genes and genetic phenotypes[J]. Current Protocols in Bioinformatics， 2017， 58： 1.2.1-1.2.12.

[20] CHANG C W， CHENG W C， CHEN C R， et al. Identification of human housekeeping genes and tissue-selective genes by microarray meta-analysis[J]. PLoS One， 2017， 6（7）： e22859.

[21] GUALA D， SONNHAMMER E L L. A large-scale benchmark of gene prioritization methods[J]. Scientific Reports， 2017， 7： 46598.

Disease Gene Prediction Based in Two-layer Biomolecular Network

WANG Lu-kuan， WU Shun-yao

（School of Computer Science and Technology，Qingdao University，Qingdao 266071，China）

Abstract：

Based on the hypothesis that "the neighbors of pathogenic genes tend to cause similar diseases" and "the essential genes and disease genes are less related"， a two-layer biomolecular network was constructed by fusing protein interaction and metabolic pathways. A method of sequencing disease genes was proposed based on two-layer biomolecular network and dual flows network transmission. Positive flow and negative flow were allocated for disease genes and essential genes and potential pathogenic genes similar to known pathogenic genes were mined. Experimental results show that this method compared with single network method based on the classical assumptions， the enrichment score 1 and enrichment score 2 increased by 11.66 and 13.66 respectively.

Keywords：

disease gene prediction; network propagation; protein-protein interaction; metabolic pathway

收稿日期：2021-04-28

基金項目：

山东省自然科学基金（批准号：ZR2019PF012）资助;山东省高等学校科技计划（批准号：J18KA356）资助。

通信作者：

吴舜尧，男，博士，讲师，主要研究方向数据挖掘与复杂网络。E-mail：wushunyao@qdu.edu.cn

2348501186342