结肠癌相关蛋白质相互作用的网络分析及其m icroRNA、转录因子和药物预测

2014-09-14 02:15邵学谦孙雯
中国生化药物杂志 2014年8期
关键词:信息学结肠癌蛋白质

邵学谦,孙雯

(1.齐齐哈尔医学院附属第三医院普外一科,黑龙江齐齐哈尔161099;2.济南循证医药科技开发中心,山东济南250022)

结肠癌相关蛋白质相互作用的网络分析及其m icroRNA、转录因子和药物预测

邵学谦1,孙雯2

(1.齐齐哈尔医学院附属第三医院普外一科,黑龙江齐齐哈尔161099;2.济南循证医药科技开发中心,山东济南250022)

目的通过生物信息学方法分析结肠癌(colorectal cancer,CRC)相关的基因,构建其蛋白质相互作用网络,并预测结肠癌的microRNA、转录因子和相关药物。方法首先通过倍数关系值分析255个结肠癌相关的微阵列芯片样本中的表达基因,然后使用蛋白质网络数据库String构建其蛋白质相互作用网络,最后应用MSigDB 3.0分析法并结合WebGestalt在线软件,对3组数据中的表达基因进行microRNA、转录因子和药物预测。结果本研究识别了4763个与结肠癌有关的基因,并采用表达最显著的前200个基因构建了蛋白质相互作用网络。此外,本文又采用前200个基因,通过生物信息学方法预测得到了与结肠癌有关的22条microRNA、58个转录因子和9种药物。结论本研究识别了结肠癌的表达基因,构建了其蛋白质相互作用网络,并预测了其microRNA、转录因子和结肠癌有关药物,为结肠癌的诊断和治疗提供了潜在的生物标记。

结肠癌;蛋白质相互作用网络;microRNA;转录因子;药物预测

结肠癌(colorectal cancer,CRC)发生于结肠部位,是一种由结肠炎引发的消化道恶性肿瘤[1-2]。目前结肠癌作为最常见的恶性肿瘤之一,其预后效果不佳[3-5]。因此,早期发现和诊断结肠癌,对于降低病死率和提高预后水平具有重要意义。生物信息学(bioinformatics)是在生命科学的研究过程中,以计算机科学和信息技术为工具,对生物信息进行采集,处理,储存,检索和分析的科学[6-7]。生物信息学从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息,揭示大量复杂的生物数据包含的生物奥秘,是生命科学和计算机科学形成的一门交叉学科[8]。目前,生物信息学作为一门新兴学科,开始受到科研人员的广泛关注。

目前,国外关于结肠癌的分子生物学和生物信息学研究主要包括基于大量基因组数据的基因表达谱分析,关键基因和蛋白质在疾病发生发展过程中的作用等。研究发现,p14ARF是在结直肠癌中过度甲基化的p14下调基因[9];而环氧酶-2在多数结直肠癌组织中抑制表达,并且与结肠癌患者的死亡紧密相关[10]。鲍欣等[11]对microRNA-21的表达进行研究,结果表明结肠癌组织中microRNA-21的表达显著提高,且在恶性度高、临床分期晚的肿瘤组织中表达量更高。上述研究成果为结肠癌生物标记和结肠癌病因的研究提供了一种方向。然而,目前国内关于结肠癌的分子生物学和生物信息学相关研究的报道较少。因此,对结肠癌相关的基因及其表达谱进行系统的研究,对结肠癌的诊断和治疗具有重要的临床意义。本文运用生物信息学手段研究了结肠癌相关的基因和蛋白质相互作用网络,并进行了m icroRNA、转录因子和药物预测。为分析结肠癌的致病机制,确立可行的临床诊断和定向治疗方法提供了参考。

1 材料与方法

1.1 结肠癌基因表达谱数据 从高通量基因表达数据库(Gene Expression Omnibus,网址:http://www.ncbi.nlm.nih.gov/geo/)和微阵列基因表达数据库(Array Express database)下载所需的样本表达微阵列数据[12-13]。本文选取GSE4183,E-MTAB-57和GSE41258 3组数据样本,其中GSE4183[14]包括45个结肠癌患者样品和8个对照样本,E-MTAB-57[15]包括25个结肠癌患者样品和22个对照样本,GSE41258[16]包括101个结肠癌患者样品和54个对照样本。其中GSE4183数据采用Affymetrix Human Genome U133 Plus2.0 Array平台,而E-MTAB-57和GSE41258数据则采用Affymetrix Human Genome U133A平台进行检测。从数据库下载原始raw文件以及该平台探针注释信息文件,用于后续分析。

1.2 数据预处理和基因识别 下载原始CEL数据,利用RMA方法对所有样本表达数据进行预处理[17]。删除没有对应基因的探针,对于有多个探针的基因,取其均值。最终得到基因样本表达谱矩阵。

分别以3组数据的倍数关系值从小到大排序,利用基因组相关性分析(genome-wide relative significance,GWRS)求出GWRS相关系数[18]。然后计算每个基因在3组数据GWRS值的平均值,按照由大到小的顺序进行排序,取出前200条数据作为表达基因,并以此进行后续分析和预测。

1.3 蛋白质互相作用网络构建 构建蛋白质相互作用网络是研究蛋白质间相互作用,寻找对疾病的发生和发展起关键作用的蛋白质及其基因的方法。蛋白质相互作用网络可以反应各基因在功能上的相互关系。首先选取表达最显著的前200个基因,从蛋白质网络互作数据库String中获得蛋白质间相互作用信息,然后使用相关软件构建蛋白质互作网络。

1.4 MicroRNA、转录因子和药物预测 本文应用Molecular signatures database(MSigDB)3.0分析方法,通过WebGestalt在线软件对结肠癌前200条基因分别进行microRNA、转录因子和药物预测,并分析得到结肠癌相关的microRNA序列、转录因子和药物。

2 结果

2.1 基因识别 本文共找到4763个结肠癌相关的基因,前20个基因在3组数据下按照倍数关系值排序结果参见图1(仅列出NCBI官方基因简称)。

图1 结肠癌3组数据的前20个基因Fig.1 Top 20 gene signatures of three datasets of CRC

2.2 蛋白质互相作用网络构建 以表达最显著的前200个基因构建的蛋白质互相作用网络图参见图2。图中节点面积越大,代表该基因在蛋白质相互作用网络中与其他基因的关系越复杂,即该基因在结肠癌的发生和发展过程中的功能和作用越重要。

图2 结肠癌基因的蛋白质相互作用网络Fig.2 Protein-protein interaction network constructed by gene signatures of CRC

2.3 microRNA、转录因子和药物预测 通过生物信息学方法预测得到22条microRNA,58个转录因子和9种结肠癌相关药物。

microRNA预测结果(仅列出NCBI官方microRNA)参见表1,转录因子预测结果参见表2,结肠癌相关药物预测结果参见表3。

表1 结肠癌相关microRNA预测Tab.1 Prediction ofmicroRNA related to CRC

续表

表2 结肠癌相关转录因子预测Tab.2 Prediction of transcription factors related to CRC

表3 结肠癌相关药物预测Tab.3 Prediction of drug related to CRC

3 讨论

目前,结肠癌是一种常见的消化道恶性肿瘤[19-20]。结肠癌的发病率占胃肠道肿瘤的第3位,且呈逐年上升趋势[21]。在我国,中年人为结肠癌的高发人群,其发病年龄比西方国家约低10岁[22]。因此,在我国结肠癌的早期诊断和治疗显得尤为重要。

识别与疾病相关的表达基因不仅是进一步研究蛋白质相互作用网络和疾病表达方式的基础,也为直接研究基因与疾病的关系提供了可能。在本文识别的前20个表达基因中,AQP8(水通道蛋白8)是一种结肠癌相关的重要基因。已有研究证明,水通道蛋白家族(AQPs)的超表达与肿瘤疾病的发生有关。目前,AQP8已经成为一种反应结肠癌患者预后的生物标记[23]。蛋白质相互作用及相互作用网络的构建和分析是理解生命活动中细胞组织、过程和功能的基础[24]。本文通过蛋白质相互作用网络的构建,识别了多个与结肠癌发生发展相关的重要蛋白质,揭示了结肠癌相关蛋白质之间的复杂关系;另外,通过microRNA、转录因子和药物的预测,发现了结肠癌潜在的microRNA、转录因子和药物以及在结肠癌发生和发展过程中可能的基因表达方式。本研究可以由此推测结肠癌的发病机理和诊断方法,并寻找新的药物靶标,为新药研发起到积极的作用。

本文还构建了结肠癌有关的基因的蛋白质相互作用网络,并预测得到了与结肠癌有关的22条microRNA,58个转录因子和9种药物。结果中预测出的大量的基因和药物,没有报道其与结肠癌相关,这些基因,可以成为进一步的研究目标,有助于对该疾病病因更全面的了解,同时为结肠癌的诊断和治疗提供了新的方向。本文所预测的结肠癌基因表达方式可能成为结肠癌诊断和治疗的新的生物标记。另外,上述生物信息学分析方法为复杂疾病的研究提供了很好的借鉴,并为其他疾病的预测和干预提供了可能。

随着生物信息学技术的蓬勃发展,运用信息学手段对疾病的发生、发展以及诊断和治疗的水平迅速提高。目前新兴的生物信息学分析技术主要包括原始数据平台、动态网络的分析及可视化,多元数据的生物大分子相互作用的评估和预测,网络聚类分析,复杂疾病相关子网的挖掘,以及生物功能分析等方面[25]。因此,未来关于结肠癌的分析也可以由此展开,例如结肠癌微阵列数据的扩展,基因的生物代谢通路分析,相关生物功能分析等。

[1]Jess T,Rungoe C,Peyrin-Biroulet L.Risk of colorectal cancer in patients with ulcerative colitis:a meta-analysis of population-based cohort studies[J].Clin Gastroenterol H,2012,10(6):639-645.

[2]Risques RA,Lai LA,Himmetoglu C,et al.Ulcerative colitisassociated colorectal cancer arises in a field of short telomeres,senescence,and inflammation[J].Cancer research,2011,71(5):1669-1679.

[3]Murray GI,Duncan ME,O'Neil P,etal.Matrixmetalloproteinase-1 is associated with poor prognosis in colorectal cancer[J].Nature medicine,1996,2(4):461-462.

[4]Eaden JA,Abrams KR,Mayberry JF.The risk of colorectal cancer in ulcerative colitis:ameta-analysis[J].Gut,2001,48(4):526-535.

[5]Head KA,Jurenka JS.Inflammatory bowel disease Part1:ulcerative colitis--pathophysiology and conventional and alternative treatment options[J].Alternative medicine review:a journal of clinical therapeutic,2003,8(3):247-283.

[6]王可鉴,贺林,杨仑.生物信息学在药物研究和开发中的应用[J].中国药理学与毒理学杂志,2014,28(1):118-125.

[7]谢莹,韦正波.形成性评价在生物信息学教学中的应用[J].教育教学论坛,2014,5(22):147-148.

[8]徐娟.miRNA-miRNA协同调控网络:构建、疾病miRNA拓扑特征及序列和结构相似性分析[D].哈尔滨:哈尔滨医科大学.2011.

[9]Sato F,Harpaz N,Shibata D,et al.Hypermethylation of the p14(ARF)gene in ulcerative colitis-associated colorectal carcinogenesis[J].Cancer research,2002,62(4):1148-1151.

[10]Wang D,Dubois RN.The role of COX-2 in intestinal inflammation and colorectal cancer[J].Oncogene,2010,29(6):781-788.

[11]鲍欣,杨艳明,刘念,等.MiR-21在结肠癌与癌旁组织中的表达及其临床意义[J].吉林大学学报(医学版),2013,39:318-321.

[12]Barrett T,Troup DB,Wilhite SE,et al.NCBI GEO:archive for functional genomics data sets-10 years on[J].Nucleic acids research,2011,39(Database issue):D1005-1010.

[13]Parkinson H,Kapushesky M,Shojatalab M,etal.ArrayExpress--a public database of microarray experiments and gene expression profiles[J]. Nucleic acids research,2007,35(Database issue):D747-750.

[14]Gyorffy B,Molnar B,Lage H,et al.Evaluation of microarray preprocessing algorithms based on concordancewith RT-PCR in clinical samples[J].Plos one,2009,4(5):e5645.

[15]Ancona N,Maglietta R,Piepoli A,etal.On the statistical assessment of classifiers using DNA microarray data[J].BMC bioinformatics,2006,7:387.

[16]Sheffer M,Bacolod MD,Zuk O,et al.Association of survival and disease progression with chromosomal instability:a genomic exploration of colorectal cancer[J].Proceedings of the National Academy of Sciences of the United States of America,2009,106(17):7131-7136.

[17]Kim Y,Doan BQ,Duggal P,et al.Normalization of microarray expression data using within-pedigree pool and its effect on linkage analysis[J].BMC proceedings,2007,Suppl 1:S152.

[18]Liu W,Peng Y,Tobin DJ.A new 12-gene diagnostic biomarker signature ofmelanoma revealed by integrated microarray analysis[J]. PeerJ,2013,1:e49.

[19]孙敬国,蒋晓忠,姚淑文,等.Twist蛋白表达与结肠癌发生发展的关系研究[J].中国全科医学,2011,14(12):1311-1314.

[20]刘见荣,侯风刚.结肠癌治疗概况[J].辽宁中医药大学学报,2014,16(2):99-101.

[21]刘见荣,管宇,可飞,等.人结肠癌细胞中血管生成拟态与肿瘤细胞迁移和侵袭能力的关系[J].吉林大学学报(医学版),2013,39(6):1201-1205.

[22]Simoglou C,Gymnopoulou I,Babalis D,etal.Surgery of colon cancer in a district hospital[J].Hellenic journal of surgery,2012,84(1):71-75.

[23]WangW,Li Q,Yang T,et al.Expression of AQP5 and AQP8 in human colorectal carcinoma and their clinical significance[J].World J Surg Oncol2012,10:242.

[24]Zhang A.Protein interaction networks:computational analysis[M]. Cambridge:Cambridge university press,2009.

[25]陈刚.生物网络分析及其在复杂疾病研究中的应用[D].长沙:中南大学.2012.

(编校:谭玲)

Construction of protein-protein interaction network and prediction ofm icroRNA,transcription factors and drugs related to colorectal cancer

SHAO Xue-qian1,SUNWen2

(1.Department of General Surgery,Third Hospital Affiliated to Qiqihaer Medical College,Qiqihaer 161099,China;2.Evidence-Based Medicine Technology Development Center in Jinan,Jinan 250022,China)

ObjectiveTo identify gene signatures associated with colorectal cancer(CRC),construct the protein-protein interaction network,and predictmicroRNA,transcription factors and drugs related to CRC with bioinformatics technology.MethodsFirst of all,through the analysis of gene expression in 255 colorectal cancer related microarray sample of the multiple relationship values.Protein-protein interaction network was constructed based on String.MicroRNA expression profiles,transcription factors and drugs related to CRCwere predicted by MSigDB 3.0,using the online software WebGestalt.Results4763 gene signatureswere identified associated with CRC.A totalof22microRNA,58 transcription factors and 9 drugs related to CRC were predicted on the basis of top 200 gene signatures.Conclusion This study could identify gene expression of colorectal cancer,protein-protein interaction network of CRC could be setup,and somemicroRNA,transcription factors and drugs that related to this disease all screen out.These results provid some potential underlying biomarkers associated with CRC.

colorectal cancer;protein-protein interaction network;microRNA;transcription factors;drug prediction

Q7

A

1005-1678(2014)08-0102-04

2012国家医学教育发展中心基金资助课题(20120411181)

邵学谦,男,本科,主任医师,研究方向:普外科,肿瘤发病机制研究,E-mail:shxqdoctor@163.com;孙雯,男,博士,研究方向:生物基因的网络体系,E-mail:513910531@qq.com。

book=105,ebook=110

猜你喜欢
信息学结肠癌蛋白质
蛋白质自由
人工智能与蛋白质结构
鸡NRF1基因启动子区生物信息学分析
生物信息学辅助研究乳腺癌转移相关lncRNA进展
PBL教学模式在结构生物信息学教学中的应用
ESE-3在溃疡性结肠炎相关结肠癌中的意义
药用植物黄花蒿ATP合成酶电子克隆及生物信息学分析
结肠内支架联合腹腔镜结肠癌根治术在结肠癌合并急性梗阻中的短期及中期疗效分析
腹腔镜下横结肠癌全结肠系膜切除术的临床应用
七叶皂苷钠与化疗药联合对HT-29 结肠癌细胞系的作用