通过生物信息学方法筛选新的非酒精性脂肪性肝炎关键基因

2019-09-05 08:56李雪萍刘曼玲范立萍李丽莉牛春燕
山西医科大学学报 2019年8期
关键词:差异基因脱氢酶肝癌

冯 巩,贺 娜,弥 曼*,李雪萍,刘曼玲,范立萍,刘 艳,李丽莉,牛春燕

(1西安医学院全科医学研究所,西安 710021;2西安医学院第一附属医院消化内科;3宝石花长庆职工医院兴隆园医院影像科;4宝石花长庆职工医院兴隆园医院医务科;4厦门大学附属翔安医院消化内科;#共同第一作者;*通讯作者,E-mail:853002274@qq.com;#共同通讯作者,E-mail:nchy69@163.com)

非酒精性脂肪性肝病(non-alcoholic fatty liver disease,NAFLD)是一个重大公共健康问题,正在危害全世界大约10亿人口[1],NAFLD可以从单纯肝细胞脂肪变性进展为非酒精性脂肪性肝炎(non-alcoholic steatohepatitis,NASH),继而可发展至肝硬化甚至肝癌[2]或终末期肝病、肝衰竭[3]。目前,NAFLD是美国肝移植的主要适应证[4]。NASH的特征为肝细胞慢性炎症及损伤和进行性肝纤维化,发病机制尚未完全明确[5]。目前肝活检为诊断NASH的金标准,但是肝活检为有创性检查,并且存在一些风险和诊断的局限性[6]。影像学检查只能反映脂肪变程度,无法明确炎症程度。因此,无创性诊断标志物成为研究热点。

目前,研究显示与NAFLD显著相关的无创性诊断标志物为CK-18[7]。但针对NASH的无创诊断标志物,特异性和敏感性还不够高[8],故寻找新的无创诊断手段或诊断标志物成为NASH研究领域内的迫切目标。考虑到NASH尚无正式批准的治疗药物,美国食品药物管理局以及欧洲药物机构建议进一步开发针对NASH的治疗药物[9]。因此对NASH的分子发病机制进行更深入的研究,将有助于发现并确定新的调节分子(生物标志物)并开发靶向治疗措施[10]。

在过去的几十年中,微阵列技术和生物信息学分析被广泛用于筛选基因组水平上的基因改变,这有助于识别参与NASH发生和进展的差异表达基因(differentially expressed genes,DEGs)和功能通路。以往基因层面的研究,多集中在NAFLD方面,这些基因包括信号转导和转录激活因子3(signal transducer and activator of transcription,STAT3),Kruepper样因子6(Krueppel-like factor 6,KLF6),以及多种促炎细胞因子等[11]。由于三分之一的NASH患者终将死于肝脏相关疾病[12],因此,在NAFLD疾病谱中,早期识别NASH至关重要。此外,以往研究的对象以动物模型居多,且很少阐明从NASH发展至HCC的具体机制或关键基因。在本项研究中,通过GEO(Gene Expression Omnibus,GEO)数据库获取关于NASH的基因表达芯片数据,进一步通过GEO2R分析手段获得NASH和正常组织的差异基因(differentially expressed genes,DEGs)。随后,对这些DEGs进行功能富集分析,包括GO(Gene Ontology,GO)分析和KEGG(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析,同时借助于蛋白-蛋白相互作用网络图分析手段(protein-protein interaction,PPI),以寻找NASH发生和发展的潜在分子作用机制。最终,发现514个DEGs以及11个关键基因,其中3个关键基因与肝癌的生存分析密切相关,可能与NASH发展到HCC密切相关。这些基因将来有望成为NASH的准确诊断或精准治疗的生物学标志物或靶点。

1 材料与方法

1.1 入组资料(芯片数据)

GEO数据库是当今最大、最全面、公开的基因表达数据资源,包含不同分组的临床样本的多个基因的表达量水平信息,比如肿瘤组织和正常组织的基因表达差异。在数据库中寻找关于NASH和正常组织的芯片数据,并按照芯片数据中P值和矫正后的P值筛选合格的芯片,最终获得GSE17470芯片。

1.2 数据筛选标准

GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)分析方法用于寻找DEGs。GEO2R为一种在线分析工具,可用于比较两组或多组GEO数据库中的样本从而寻找DEGs。矫正后的P值被用于降低假阳性率。变化倍数(fold change,FC)反映了DEGs的变化情况。矫正后的P<0.05和|logFC|≥2被定为筛选标准。

1.3 差异基因的功能富集

通过GO富集分析可以粗略了解差异基因富集在哪些生物学功能、途径或者细胞定位。KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因和基因组百科全书)富集分析主要指的是代谢通路,对差异基因进行KEGG分析,可以了解实验条件下显著改变的代谢通路。DAVID数据库(The Database for Annotation, Visualization and Integrated Discovery,注释、可视化和集成发现数据库,https://david.ncifcrf.gov/)是一种在线生物信息数据资源,旨在提供基因或蛋白质的功能解释,P<0.05为具有统计学意义。借助于DAVID数据库可实现对基因的GO和KEGG富集分析。

1.4 蛋白互作网络以及分子模型分析

蛋白互作网络(protein protein interaction network,PPI network)分析有助于从系统的角度研究疾病分子机制、发现新药靶点等等。使用STRING(搜索相互作用基因检索的工具,Search Tool for the Retrieval of Interacting Genes,http://string-db.org)(version 10.0)工具绘制蛋白互作网络。交互作用的综合评分>0.4被认为有统计学意义。Cytoscape(version 3.4.0)是一款图形化显示网络并进行分析和编辑的软件。Cytoscape的插件分子复合体检测(MCODE)(版本1.4.2)是一种APP,用于一种基于拓扑学的给定网络进行聚类以发现紧密连接的区域。

1.5 关键基因的选择和分析

以连接得分(degree of connectivity)的分数数值作为关键基因的筛选标准。当连接得分≥20分时,被视为关键基因。OncoLnc是一种交互式探索生存相关性的工具,可用于下载与mRNAs,miRNAs,或lncRNAs(long noncoding RNAs,长链非编码RNAs)的表达数据相关的临床数据。本研究使用OncoLnc(http://syslab4.nchu.edu.tw/)进一步分析关键基因与肝癌生存分析的相关性,P<0.05视为具有统计学意义。

2 结果

2.1 差异基因筛选结果

通过GEO数据库获取关于NASH的基因表达芯片数据,并结合这些数据中P值和矫正后的P值筛选合格的基因芯片,最终获得GSE17470芯片。该芯片包含7个NASH样本以及4个正常对照样本,56 448个基因。利用GEO2R分析工具,按照矫正后的P<0.05和|logFC|≥2,进行筛选,最终获得514个DEGs。

2.2 差异基因功能富集结果

使用DAVID数据库对DEGs进行功能富集分析。其中GO分析包括生物途径(biology process,BP),分子功能(molecular function, MF)和细胞定位(cellular location, CC)3个方面内容。GO分析和KEGG分析提示,DEGs多参与代谢过程,包括三大营养物质(糖类、脂肪、蛋白质)代谢,尤其是脂质代谢,同时与氧化还原生理过程密切相关,具体见表1。

表1 差异基因功能富集结果

Table 1 Functional enrichment of differentially expressed genes

项目 描述基因数目P GO:0006069乙醇氧化71.3×10-7GO:0055114氧化还原过程364.8×10-7GO:0008152代谢过程135.9×10-4GO:0006631脂肪酸代谢过程71.3×10-3GO:0004029醛脱氢酶(NAD)的活动63.4×10-5GO:0016491氧化还原酶活性167.6×10-5hsa00071脂肪酸降解93.3×10-5hsa00010糖酵解和糖质新生101.3×10-4hsa01100代谢途径572.6×10-4hsa00380色氨酸代谢79.7×10-4hsa00350酪氨酸代谢63.2×10-3

2.3 蛋白互作网络以及分子模型分析结果

使用STRING工具分析蛋白-蛋白相互作用网络图,并进一步使用Cytoscape工具挖掘其中最具有意义的分子作用模块。蛋白-蛋白相互作用结果见图1,其中最有意义的模块见图2。

通过使用Cytoscape工具绘制蛋白-蛋白相互作用网络图,网络越密集,说明蛋白互相作用越紧密图1 NASH差异基因的蛋白-蛋白相互作用网络图Figure 1 Protein-protein interaction network map of NASH differential genes

2.4 关键基因的筛选和分析结果

按照连接得分≥20分的标准,共鉴定出11个基因,这些基因的名称、缩写以及功能见表2。在11个关键基因中,只有3个基因与肝癌的生存分析相关(见图3),分别为:过氧化氢酶(catalase,CAT)、线粒体醛脱氢酶2(mitochondrial aldehyde dehydrogenase 2,ALDH2)、醛脱氢酶8a1(aldehyde dehydrogen-ase 8 family member a1, ALDH8A1),这3个基因与HCC密切相关。因此,CAT、ALDH2、ALDH8A1可能在从NASH发展到HCC中发挥重要作用,这3个基因对于NASH所导致的HCC的机制研究具有十分重要的意义。

借助于Cytoscape工具,从PPI network中获得作用最紧密的模块,ALDH2、ALDH8A1包含在其中图2 差异表达蛋白相互作用最有意义的模块Figure 2 The most meaningful module of differential expression protein interaction

表2 11个关键基因的名称、缩写以及功能

Table 2 Names, abbreviations and functions of 11 key genes

序号基因名称全名 连接得分1VEGFA血管内皮生长因子A472FOSFos原癌基因393CAT过氧化氢酶314ALDH7A1醛脱氢酶7家族成员A1295ALDH1B1醛脱氢酶1家族B1286ALDH1A1醛脱氢酶1家族A1277ALDH2醛脱氢酶2家族268ERBB2erb-b2受体酪氨酸激酶2259ALDH1L1醛脱氢酶1家族成员L12510TF转铁蛋白2411ALDH8A1醛脱氢酶8家族A123

图3 CAT、ALDH2、ALDH8A1与肝癌的生存分析关系Figure 3 Relationships between CAT, ALDH2, ALDH8A1 and survival of liver cancers

3 讨论

在本项研究中,充分运用生物信息分析工具挖掘NASH潜在的关键基因,严格按照操作流程,对其进行分析。其中GO分析好比是将基因分门别类放入每个功能类群,GO富集分析(gene ontology analysis)分别从功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述,即对基因产物进行了简单注释。而KEGG分析则是将基因逐个具体放到代谢网络中的指定位置,在机制研究中显得尤为重要。

本研究结果所示关键差异基因均在既往文献中显示与NASH、肝纤维化、肝癌发病机制及疾病进展具有不同程度的相关性。

氧化应激被认为是NASH发病机制和进展的主要因素[13]。正常情况下肝脏线粒体和内质网在脂肪酸β-氧化中可产生大量活性氧(reactive oxygen species,ROS),由于各种抗氧化因子的参与,氧化和抗氧化处于动态平衡状态。当平衡状态被打破时,可导致肝细胞脂肪沉积,引起肝细胞损伤。具体机制可能为过多的游离脂肪酸(FAA)超载使肝细胞内的线粒体处于功能性应激状态,脂质过氧化物刺激库普弗细胞(KCS),进一步激活多条炎症通路如酪氨酸激酶信号转导及转录激活因子信号通路和磷酸肌醇-3-激酶及核因子(NF)-κB信号通路,而炎症通路的激活又可加剧肝脏胰岛素抵抗(insulin resistance),进一步损害肝细胞,促使NAFLD的发生[14]。氧化应激被认为是氧化剂和抗氧化剂之间的失衡,从而导致细胞水平的ROS全面增加[15]。

CAT为预防性抗氧化剂,可抑制脂质过氧化的启始阶段,从而使自由基产生的氢过氧化物转变为无害物质。O2-称为超氧阴离子自由基,是生物体多种生理反应中自然生成的中间产物,它是活性氧的一种,具有极强的氧化能力,属于具有毒害作用的生物氧。超氧化物歧化酶(superoxide dismutase,SOD)是机体内天然存在的超氧自由基清除因子,它通过上述反应可以把有害的超氧自由基转化为过氧化氢。尽管过氧化氢仍是对机体有害的活性氧,但体内的过氧化氢酶(CAT)和过氧化物酶(POD)会立即将其分解为完全无害的水。这样,三种酶便组成了一个完整的防氧化链条。在Yang等[15]的研究中,用高脂肪高胆固醇饮食诱导的NASH鼠模型与对照组相比,具有更低水平的CAT,当使用抗氧化药物干预后,CAT的水平明显上升。同样在Jorge等[16]的研究中,高胆固醇诱导的NASH鼠模型与对照组相比,CAT和SOD活性明显降低(P<0.001),Western blot结果也显示CAT水平下降,并且总SOD活性与CAT活性之间存在显著正相关关系(r=0.910,P<0.01),说明SOD产生的过氧化氢主要由CAT去除。在Aida等[17]的研究中,采用高胆固醇饮食的NASH鼠模型与对照组相比,同样显示CAT活性以及谷胱甘肽的水平明显下降(P<0.01)。

ALDH2在各种醛类代谢中起重要作用,参与氧化还原反应[18],如对甘油醛和乙醇醛有解毒作用,ALDH2抑制剂可增强乙醇醛的细胞毒性。在最近的一项基于人体肝脏活检病理标本的研究中,与正常和单纯性肝脂肪变组相比,NASH组的ALDH2,无论是在mRNA水平还是蛋白表达水平,均有明显下降。Mali等[19]之前的研究表明,在予以高脂饮食的糖尿病鼠模型中,ALDH2活性降低。在血清中,ALDH2对D-甘油醛有调节作用,而D-甘油醛与蛋白质结合形成有毒性的糖基化终末产物(advanced glycation end products AGEs),而NASH中往往有较高水平的AGEs[20]。Budny等[21]的研究发现,AGEs与NASH相关,因此可间接说明ALDH2与NASH相关。

ALDH8A1与ALDH2一样,同属于线粒体醛脱氢酶家族,GO分析提示它同样参与氧化还原过程,具有氧化还原酶活性。Marianna等[22]研究证实,在NASH、肝硬化、肝癌中,ALDH8A1的水平均是下调的,在肝脏中,ALDH8A1具有调节基因表达的功能,并且对维持肝脏正常功能的一些基因产生影响,如CPS1,PCK1,SLC2A2,CYP8B1,CYP4A11,ABCA8,以及ADH4。Lin等[23]认为,ALDH8A1参与肝脏的病理生理学过程,它可将9-顺式视网醇转化为9-顺式维甲酸,而9-顺式维甲酸是维甲酸X受体(RXR)在肝细胞中的配体。此外,Zhu等[24]通过生物信息分析方法以及系统转录组分析方法,分析NAFLD中酒精性代谢基因,发现ALDH2和ALDH8A1的水平也是下降的。其中ALDH8A1与视黄酸生物合成有关,ALDH2水平的下降和NAFLD肝脏中受损的线粒体功能相关[25]。

NAFLD呈逐年上升趋势,正成为HCC的主要病因[26]。NAFLD可以不经过肝硬化阶段而直接进展为HCC[27],并且NAFLD已经成为非肝硬化性肝癌最主要的病因[28],NAFLD相关性肝癌目前认为与肝纤维化程度以及PNPL3基因多态性有关[29],并且年龄大且ALT升高也被认为是NAFLD进展为肝癌的危险因素[30]。在NAFLD疾病谱中,往往NASH肝脏病变进展风险更大,因此NASH所导致的HCC需要引起极高的重视。

CAT、ALDH2、ALDH8A1不仅和NASH密切相关,而且和HCC密切相关。通过使CAT的表达沉默,将会抑制HCC的生长、增殖、侵袭和转移[31]。Ye等[32]的研究表明中国人群中ALDH2的遗传变异与肝癌易感性有关,Stephannie等[33]的研究也提示ALDH2与肝癌的发生风险有关。最近的一项研究显示,ALDH2通过调节腺苷酸激活蛋白激酶(AMP-activated protein kinase,AMPK)通路从而抑制肝癌的进展[34]。Marianna等[22]研究证实,在NASH以及肝癌中,ALDH8A1的水平均是下调的。本研究显示CAT、ALDH2、ALDH8A1可能在从NASH发展到HCC中发挥重要作用,未来对这三个基因的深入研究将进一步揭示NASH所致HCC的具体机制。

本文旨在比较NASH与正常人群之间的差异基因,这些差异基因可能参与NASH的发生以及疾病进展的病理生理过程。总共获取了514个DEGs以及11个关键基因,这些基因具有成为NASH诊断标志物或治疗新靶点的前景,尤其是CAT、ALDH2、ALDH8A1这三个基因,更有临床应用价值;均参与氧化还原反应,与NASH的发生发展密切相关;与HCC有紧密联系,影响肝癌患者的预后,甚至可能与NASH发展到HCC密切相关。然而,未来仍需更多的研究去进一步印证这些基因在NASH中的诊断作用和临床应用价值。

猜你喜欢
差异基因脱氢酶肝癌
传说中的快速解酒方法有效吗?
酒量是可以练出来的?
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
LCMT1在肝癌中的表达和预后的意义
人11β-羟基类固醇脱氢酶基因克隆与表达的实验研究
紫檀芪处理对酿酒酵母基因组表达变化的影响
乙醇脱氢酶的克隆表达及酶活优化
microRNA在肝癌发生发展及诊治中的作用
Rab27A和Rab27B在4种不同人肝癌细胞株中的表达
microRNA在肝癌诊断、治疗和预后中的作用研究进展