一种癌症蛋白质作用网络分析的方法

2013-10-15 07:38胡心宇

计算机与现代化 2013年11期

胡心宇，朱斐

(苏州大学计算机科学与技术学院，江苏苏州 215006)

0 引言

近年来大量的物种全基因组序列被测序出来，使得生物研究进入了后基因组时代［1］，由单个的基因研究转入大规模的蛋白质功能领域的研究［2］。蛋白质-蛋白质相互作用作为最基本内容已经成为了研究的基础和重点［3］。蛋白质相互作用的信息有助于进一步理解蛋白质的功能，以及建立整体蛋白质相互作用的通路，并且可用于发现新的药物靶点。

癌症是由基因异常，如癌基因或抑癌基因的突变，改变下游的信号转导通路和蛋白质之间的相互作用［4］。蛋白质在癌细胞与正常细胞之间的相互作用比较可以揭示致癌机理［5］。瓦西列夫和他的同事的研究表明，根据作用原理的证明，蛋白质-蛋白质相互作用的抑制剂可以作为有效的抗癌药物。

如今大量使用的实验和数据库的方法常常会产生“假阳性”［6］。酵母双杂交技术可以产生假阳性(杂散相互作用检测，因为高通量筛选过程的性质)和假阴性。然而计算方法网络分析可以提炼蛋白-蛋白相互作用网络，并导致更少的假阳性，因此有很大研究开发的潜能［7］。

在基础研究方面，近2年来蛋白质相互作用的研究技术已被应用到各种生命科学领域，如细胞生物学、神经生物学等。在研究对象上，覆盖了原核微生物、真核微生物、植物和动物等范围，涉及各种重要的生物学现象，如信号转导、细胞分化、蛋白质折叠等。在未来的发展中，蛋白质相互作用的研究领域将更加广泛。

在应用研究方面，蛋白质相互作用的研究将成为寻找疾病分子标记和药物靶标有效的方法［8］。对癌症的临床诊断和治疗方面癌症蛋白质作用网络分析也有十分诱人的前景，目前国际上许多大型药物公司正投入大量的人力和物力进行蛋白质组学方面的应用性研究［9］。

由此，笔者提出一种癌症蛋白质作用网络分析方法。本项目主要是开发一个系统，该系统能够从生物文本中提取出蛋白质的相关信息，进行蛋白质功能聚类，并构建蛋白质间相互作用的网络，预测癌症。

1 相关研究

对于癌症蛋白质的相关研究，Yu G.，Wang J.，Chen Y.等人分别分析了1072例中国籍胃癌患者的初期肿瘤、淋巴结转移灶、邻近的黏膜组织样本的微阵列，发现当胃癌发展和转移时目标膜联蛋白A1的表达显著降低，推测目标膜联蛋白A1可作为一种阴性的标志物用来预测胃癌的发生和进展［10］。

Choi P.，Jordan C.D.，Mendez E.等人为了进一步验证口腔鳞状细胞癌DNA微阵列实验中可能作为的潜在生物标记的基因亚型，采用微阵列分析了标志物的蛋白质水平，发现与健康对照组相比肿瘤组织中的蛋白质(富含半胱氨酸的酸性分泌蛋白、成骨细胞特异性因子、结合黏蛋白C)表达增加，而且它们的表达主要集中在与肿瘤相关的基质中而非肿瘤上皮细胞，相反地，转谷氨酰胺酶3的蛋白表达仅在健康对照组的角质化细胞中出现，在癌细胞中则显著下调［11］。

袁芳、李靖等人基于现有的蛋白质相互作用数据，提出利用邻居曲线方法来分析癌症基因产物在蛋白质相互作用网络中的中心度和聚集度，据此获取与癌症高度相关的候选致病基因。癌症基因大规模测试显示，有26%的目标基因在候选基因中排名前5%，90%的目标基因在候选基因中排名前50%，该方法能有效地识别癌症致病基因［12］。

对于数据提取与蛋白质网络分析方面，2009年，Liu等人结合迭代的加权计分方法提出了应用于加权蛋白质相互作用网络聚类算法CMC(Clustering based on Maximal Cliques，CMC)［13］。

Navlakha等人引用 GS(Graph Sum-marization，GS)技术对蛋白质相互作用网络进行聚类分析以挖掘蛋白质复合物和功能模块［14］。

2010年，Liang等人又提出了双杂交聚类算法(Hybrid Clustering Algorithm)和基于局部密度与随机游走的算法分别挖掘蛋白质相互作用网络中的功能模块和蛋白质复合物。

Jongkwang等人提出了参数化局部相似性蛋白质复合物挖掘算法miPALM(Module Inference by Parametc LocalModularity，miPALM)。

同时，Olson B.，Molloy K.，Hendi S.F.，Shehu A.也进行了提高搜索蛋白质结构空间的效率的研究工作［17］。

2 方法

本项目主要是开发一个系统，该系统能够从生物文本中提取出蛋白质的相关信息，并进行蛋白质功能聚类，并构建蛋白质间相互作用的网络，预测癌症。

其中对癌症蛋白质相互作用的研究将主要包括以下几个方面:

(1)一种面向多物种的通用预测模型的建立;

(2)机器学习训练集反例的不断扩充与完善;

(3)基于精确的蛋白质结构模型的蛋白质团间相互作用预测;

(4)蛋白质功能簇间相互作用网络预测研究有待深入;

(5)蛋白质功能簇间相互作用数据集的验证与完善。

详细流程说明如图1所示。

图1 方案详细流程

步骤1 从癌症蛋白质相关文本中提取数据，并进行特征向量提取与KEGG检索。过程如图2所示。

图2 信息提取过程

KEGG(Kyoto Encyclopedia of Genes and Genomes，京都基因与基因组百科全书)是一套关于基因组、酶促途径以及生物化学物质的在线数据库。在给出染色体中一套完整的基因的情况下，它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测［18］。

KEGG的PATHWAY数据库整合当前在分子互动网络(比如通道，联合体)的知识，KEGG的GENES/SSDB/KO数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识，KEGG的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识［19］。与其他数据库相比，KEGG的一个显著特点就是具有强大的图形功能，它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系，这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。

选择KEGG主要是因为它有如下几个特征:

(1)各个数据库中包含了大量的有用信息。基因组信息存储在GENES数据库里，包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里，包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期，还包括同系保守的子通路等信息;KEGG的另一个数据库LIGAND，包含关于化学物质、酶分子、酶反应等信息［20］。

(2)通过与世界上其它一些大型生物信息学数据库的连接，KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。

(3)KEGG提供了Java的图形工具来访问基因组图谱，比较基因组图谱和操作表达图谱，以及其它序列比较、图形比较和通路计算的工具，可以免费获取。

首先，获取蛋白质名字词典和蛋白质-蛋白质相互作用词典、PubMed摘要实现信息，同时进行基因提取、蛋白质提取与KEGG数据库检索。蛋白质提取结果显示为一个基于多源验证的蛋白质相互作用文本信息以及一个基于蛋白质相互作用网络的文本。详细流程如图3所示。

图3 数据提取流程图

以己糖激酶hexokinase为例，在KEGG Orthology中任找一个代谢通路图，点击pathway entry，进入Orthology table页面。此页面中，行与物种对应，has表示Homo sapiens，mcc表示Macaca mulatta;列表示相应的Ortholog分类，K00844就表示生物体内的己糖激酶hexokinase这一类序列和功能相似的蛋白质类(酶类)。根据KEGG数据显示，在人类细胞中存在3种不同的己糖激酶，它们分别由3101，3098，3099这3组数字代表的基因所编码，这3组数字是这3个基因的登录号。空白则表示在该物种中不存在这种酶。

步骤2 抽取特征向量，构建特征向量数据集。特征选取的任务就是将信息量小的特征项去除，在降低特征向量维数的同时，又不影响信息检索的质量。这里，采用了X2统计量法(CHI)来计算特征项t和文档c之间的相关性。

步骤3 利用贝叶斯网络学习技术优化特征信息，进一步处理数据，消除冗余。

贝叶斯网络是基于概率推理的数学模型，是为了解决不定性和不完整性问题而提出的，它对于解决复杂设备不确定性和关联性引起的故障有很大的优势，可用来表示疾病和其相关症状间的概率关系［21］;倘若已知某种症状下，贝叶斯网络就可用来计算各种可能罹患疾病的发生概率。在生物信息学应用广泛。

采用贝叶斯网络主要因为它有如下一些优点:

(1)贝叶斯网络本身是一种不定性因果关联模型。它本身是将多元知识图解可视化的一种概率知识表达与推理模型［22］。

(2)贝叶斯网络具有强大的不确定性问题处理能力。

(3)贝叶斯网络能有效地进行多源信息表达与融合，按信息的相关关系进行融合。

步骤4 将经过处理的搜索结果按照名称、别名、分子大小、分子结构、作用等方面显示在界面的输出框中，返回给用户。

目前已经实验确定的人类蛋白质相互作用不多，进一步挖掘未知的蛋白质相互作用非常必要。将来可以通过人类蛋白质芯片组技术，完整分析人类蛋白质相互作用，进一步完善相互作用网络的建立。

与只分析基因表达数据的传统方法不同，笔者结合人类蛋白质相互作用网络和基因表达数据的信息，基于网络结构和基因表达2类数据，针对癌症的初步作用途径和机制，进行较准确的网络分析。实现生物信息学、蛋白质组信息学、肿瘤蛋白质组学的完美结合，为进一步理解癌症发生和发展的分子机理，进一步探究癌症发生和转移的基因变异机理做出贡献［23］。

蛋白质间相互作用是一个十分复杂的现象，受到多种因素的影响，要取得完美的预测效果仍面临诸多困难。相信随着各种预测方法的不断完善，它将为实验方法提供切实有效的指导线索，而实验方法又能为之提供富足必要的先验知识和结果验证，二者共同为促进蛋白质功能簇间相互作用标准数据的形成各尽其力。

3 结束语

笔者设计出一种方法，该方法能够从生物文本中提取出蛋白质的相关信息，并进行蛋白质功能聚类，并构建蛋白质间相互作用的网络，预测癌症。对于理解细胞生命、生物致病机理以及新药物靶点发现和药物设计等都具有重要的科学价值和应用前景。

［1］Sava G，Bergamo A，Dyson P J.Metal-based antitumour drugs in the post-genomic era:What comes next?［J］.Dalton Transactions，2011，40(36):9069-9075.

［2］Brustad E M，Arnold F H.Optimizing non-natural protein function with directed evolution［J］.Current Opinion in Chemical Biology，2011，15(2):201-210.

［3］Heo M，Maslov S，Shakhnovich E.Topology of protein interaction network shapes protein abundances and strengths of their functional and nonspecific interactions［J］.Proceedings of the National Academy of Sciences，2011，108(10):4258-4263.

［4］William C S Cho.蛋白质组学与转化医学:用以癌症诊断，预后和疗效预测的分子生物标记物［J］.南娟译.中国肺癌杂志，2011，14(8):I0003-I0004.

［5］Reva B，Antipin Y，Sander C.Predicting the functional impact of protein mutations:Application to cancer genomics［J］.Nucleic Acids Research，2011，39(17):e118.

［6］翁改志，路军梅，唐耀庭，等.代谢综合征合并非酒精性脂肪性肝病血糖，血脂，尿酸，丙氨酸转移酶相关性分析［J］.国际检验医学杂志，2012，33(1):94-96.

［7］Stynen B，Tournu H，Tavernier J，et al.Diversity in genetic in vivo methods for protein-protein interaction studies:From the yeast two-hybrid system to the mammalian split-luciferase system［J］.Microbiology and Molecular Biology Reviews，2012，76(2):331-382.

［8］周红光，陈海彬，周学平，等.蛋白质组学是中医病机研究的重要技术平台［J］.中国中西医结合杂志，2012，32(7):990-993.

［9］Raimondo F，Morosi L，Chinello C，et al.Advances in membranous vesicle and exosome proteomics improving biological understanding and biomarker discovery［J］.Proteomics，2011，11(4):709-720.

［10］Yu G，Wang J，Chen Y，et al.Tissue microarray analysis reveals strong clinical evidence for a close association between loss of annexin A1 expression and nodal metastasis in gastric cancer［J］.Clinical ＆ Experimental Metastasis，2008，25(7):695-702.

［11］Choi P，Jordan C D，Mendez E，et al.Examination of oral cancer biomarkers by tissue microarray analysis［J］.Archives of Otolaryngology—Head ＆ Neck Surgery，2008，134(5):539.

［12］袁芳，李靖，周艳红.基于蛋白质相互作用网络预测癌症致病基因［J］.计算机应用研究，2012，29(9):3221-3223.

［13］Liu G，Wong L，Chua H N.Complex discovery from weighted PPI networks［J］.Bioinformatics，2009，25(15):1891-1897.

［14］Navlakha S，Schatz M C，Kingsford C.Revealing biological modules via graph summarization［J］.Journal of Computational Biology，2009，16(2):253-264.

［15］Dittrich M T，Klau G W，Rosenwald A，et al.Identifying functional modules in protein-protein interaction networks:An integrated exact approach［J］.Bioinformatics，2008，24(13):223-231.

［16］Kim J，Tan K.Discover protein complexes in protein-protein interaction networks using parametric local modularity［J］.BMC Bioinformatics，2010，11(1):521.

［17］Olson B，Molloy K，Hendi S F，et al.Guiding probabilistic search of the protein conformational space with structural profiles［J］.Journal of Bioinformatics and Computational Biology，2012，10(3):1242005.

［18］Kanehisa M，Goto S.KEGG:Kyoto encyclopedia of genes and genomes［J］.Nucleic Acids Research，2000，28(1):27-30.

［19］Kanehisa M，Araki M，Goto S，et al.KEGG for linking genomes to life and the environment［J］.Nucleic Acids Research，2008，36(s1):D480-D484.

［20］Kanehisa M，Goto S，Sato Y，et al.KEGG for integration and interpretation of large-scale molecular data sets［J］.Nucleic Acids Research，2012，40(D1):D109-D114.

［21］Silander T，Myllymaki P.A simple approach for finding the globally optimal Bayesian network structure［C］//Proceedings of the 22nd Conference on Uncertainty in Artificial Intelligence.2006.

［22］Steck H.Learning the Bayesian network structure:Dirichlet prior versus data［C］//Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence.2008.

［23］Yook S H，Oltvai Z N，Barabási A L.Functional and topological characterization of protein interaction networks［J］.Proteomics，2004，4(4):928-942.