基于生物信息学方法对结直肠癌组织差异表达关键基因的筛选

2021-12-24 07:18冯彦超应伟李文菠李雪周国俊洪潇陈科周佳雨田奕洋冷政伟
山东医药 2021年35期
关键词:共表达信息学靶点

冯彦超 ,应伟 ,李文菠 ,李雪 ,周国俊 ,洪潇 ,陈科 ,周佳雨 2,,田奕洋 2,,冷政伟

1 川北医学院附属医院肝胆外二科,四川南充637000;2 川北医学院附属医院肿瘤干细胞研究中心;3 川北医学院临床医学院

结直肠癌(CRC)是全世界发病率排名第三的恶性肿瘤,每年导致全世界近90 万人死亡[1]。目前针对CRC 主要采用综合治疗的方法,但是晚期CRC 患者的总体生存率仍然很低。基因突变与失活在CRC 的发生发展过程中具有重要作用,所以针对CRC 的早期诊断及精准治疗可大大提高CRC 患者的生存率,但是目前CRC 的有效治疗靶点很少并且缺少简单的靶点筛选方法。生物信息学方法具有样本量大、成本低、简洁高效等优点,近几年通过生物信息学方法筛选出了很多CRC 发生发展中的关键基因。有研究通过基因表达数据库(GEO)发现,SPINK4表达下调与CRC患者预后不良相关,并认为该基因可作为CRC的一种新型生物标志物[2]。还有研究通过筛选CRC 基因表达数据发现,转录因子ZBTB18 可以促进CRC 细胞的侵袭与迁移,可能参与了 CRC 的转移[3]。2020 年 6 月—2021 年 7 月,本研究分析了CRC 组织和癌旁组织基因芯片中的基因表达情况,筛选出的差异表达基因(DEGs)即为CRC 发生发展中的关键基因,为CRC 的早期诊断及靶向治疗提供参考依据。

1 材料与方法

1.1 基因芯片数据信息 从GEO(https://www.ncbi. nlm. nih. gov/geo)中下载 3 个 CRC 芯片,即GSE71187、GSE31905、GSE35279,3个芯片中分别包括CRC 组织47、55、74 例份,癌旁组织12、7、5 例份。上述芯片均来自同一平台(GPL6480),并使用相同的探针技术以减少不同实验平台之间检测技术所引起的实验误差。

1.2 DEGs 及共表达DEGs 筛选 使用GEO 在线分析 工 具 GEO2R(https://www. ncbi. nlm. nih. gov/geo/geo2r/)对上述基因芯片进行分析,筛选并定义∣logFC∣≥2且校正P<0.05的基因为DEGs,并定义log-FC≥2 为上调 DEGs,logFC≤-2 为下调 DEGs。通过Venn 在线网站(http://bioinformatics.psb.ugent.be/webtools/Venn)绘制Venn图,筛选出共表达DEGs。

1.3 基因本体(GO)功能与KEGG 通路富集分析 通过生物学信息注释数据库(DAVID,https://david.ncifcrf.gov)对筛选出来的共表达DEGs进行生物学功能注释,种属选择Homo sapiens,得到GO功能及KEGG 通路富集分析结果。以P<0.05 且FDR<0.05 为差异有统计学意义,选择分析项目为生物过程(BP)、分子功能(MF)、细胞成分(CC)和信号通路。

1.4 核心DEGs 的筛选 将筛选出的共表达DEGs上传至STRING 在线网站(https://string-db.org),绘制蛋白—蛋白相互作用网络图(PPI)。将得到的PPI 使 用 Cytoscape3.7.2 软 件 及 MCODE 插 件 分 析后,得到PPI 中联系最为紧密的核心网络,将这些核心网络所涉及的DEGs 定义为核心DEGs。MCODE分析设置条件:度数截断值=2,节点分数截断值=0.2,K-分数=2,最大深度=100。

1.5 核心DEGs 对患者预后的影响及其在CRC 组织中的表达验证 在基因表达谱数据动态分析网页工具(GEPIA,http://gepia. cancer-pku. cn)网站中,选择总生存期(OS)为指标,癌症名称选择结肠癌和直肠癌,作出每个核心DEGs 影响OS 的生存曲线图,筛选出生存分析中P<0.05 的基因,即为预后相关基因。同时在GEPIA 网站中利用Box Plots 对预后相关基因进行表达量的验证,癌症名称选择结肠癌和直肠癌,在结肠癌和直肠癌任意一个中的表达具有统计学意义(P<0.05)即为符合要求,筛选出与GEO 中表达量一致的基因,即为CRC 发生发展中的关键基因。

2 结果

2.1 DEGs 筛选结果 从3 个基因芯片中筛选出DEGs 5 664 个,其中上调 DEGs 2 703 个、下调 DEGs 2 961 个。通过Venn 图筛选出共表达DEGs 390 个(OSID 码图1),其中上调基因207 个[差异最显著的前5位分别为基质金属蛋白酶7(MMP-7)、角蛋白23(KRT23)、二肽酶1(DPEP1)、角蛋白80(KRT80)、叉头框蛋白Q1(FOXQ1)]、下调基因183 个[差异最显著的前5 位分别为碳酸酐酶1(CA1)、胰高血糖素(GCG)、酶原颗粒蛋白 16(ZG16)、胰岛素样肽5(INSL5)、鸟苷酸环化酶激活剂2B(GUCA2B)]。

2.2 GO 功能与KEGG 通路富集分析结果 GO 功能分析结果:①BP 共涉及117 个方面,主要有碳酸氢盐运输、一碳代谢过程、氨基酸运输、细胞对肿瘤坏死因子的反应、消化、胶原蛋白分解代谢过程、细胞外基质的组织及蛋白水解作用等;②CC共涉及21个方面,主要有细胞外空间、基底膜、顶端质膜、细胞外基质、蛋白质的细胞外基质、膜的锚定构件、分泌颗粒、质膜的组成部分、浆膜等;③MF 共涉及28 个方面,主要有激素活性、碳酸酐酶活性、特殊序列DNA 结合、肝素结合、细胞外基质结构成分、氨基酸跨膜转运体活性、RNA 聚合酶Ⅱ转录因子活性等方面(表1)。KEGG 通路富集分析结果:共涉及13 个方面,主要有氮的代谢、近端小管对碳酸氢盐的重吸收、细胞色素P450与药物代谢、胰腺分泌、化学物质的致癌作用、细胞色素P450 对外源生物的代谢作用、阿米巴病、ECM 受体的相互作用、PI3K/Akt信号通路等(表2)。

表1 共表达DEGs的GO功能分析结果(按P值排序的前5位)

表2 共表达DEGs的KEGG通路富集分析结果

2.3 核心DEGs 的筛选结果 390 个共表达DEGs提交至STRING 在线网站后,没有出现在PPI网络中的DEGs 26个,剩余DEGs 364个,不同蛋白之间的作用关系线738条(OSID码图2)。PPI中联系最为紧密的核心网络共7 个,其涉及的核心DEGs 66 个,其中上调DEGs 33个、下调DEGs 33个(OSID码图3)。

2.4 核心DEGs 对患者预后的影响及表达验证结果 66 个核心DEGs 中有12 个[分泌型磷蛋白1(SPP1)、血小板反应蛋白2(THBS2)、氯化物通道附件 1(CLCA1)、接触蛋白3(CNTN3)、GCG、ZG16、癌胚抗原相关细胞黏附分子7(CEACAM7)、细胞趋化因子8(CXCL8)、蛋白质透明同源物3(DIAPH3)、酪氨酸蛋白激酶(MET)、过氧化物酶体增殖活化受体(PPARGC1A)、溶质载体家族26 成员3(SLC26A3)]对患者OS 的影响具有统计学意义(P均<0.05),见OSID 码图4。在GEPIA 和GEO 中表达量一致的核心 DEGs 共 6 个[上调 DEGs 2 个(SPP1、THBS2)、下调 DEGs 4 个(CLCA1、CNTN3、GCG、ZG16)],见OSID码图5。

3 讨论

目前认为,CRC 的发生发展涉及到生活方式、饮食习惯、肠道微生物菌群、遗传、基因等多种因素[4-6]。晚期CRC 因其容易转移复发,所以总体生存率很低。目前随着生物信息学的发展及高通量基因芯片的广泛应用,使得我们在筛选疾病发生发展中的关键基因时,又有了一个强有力的工具。本研究使用生物信息学的方法从GEO中筛选出3个大样本量的CRC 和癌旁组织芯片,并通过多个权威的生物信息学网站进行了全面而系统的筛选及分析,最终得出了CLCA1、CNTN3、GCG、ZG16、SPP1、THBS2 基因与CRC 的发生发展具有重要关系,为CRC 的临床早期诊断及治疗提供了可能的靶点。

CLCA1 可调控 Ca2+依赖的 Cl-转运,涉及通道蛋白跨膜蛋白16A(TMEM16A)及其附属分子。CLCA1 调节上皮细胞氯电流,参与黏液高分泌相关呼吸道和胃肠道疾病的发病,包括哮喘、慢性阻塞性肺疾病、囊性纤维化、肺炎、结肠直肠炎、囊性纤维化肠黏膜疾病、溃疡性结肠炎等疾病[7]。CLCA1 在多种肿瘤组织中均有表达。HU 等[8]通过组织微阵列分析和免疫组织化学方法对140 例手术切除的胰腺癌标本进行分析,并对患者进行随访,证明CLCA1 在胰腺癌组织中表达阳性,且CLCA1 低表达是胰腺癌患者无病生存率低的独立影响因素。LI等[9]研究表明,CRC 组织中 CLCA1 表达显著降低,CLCA1 表达升高可以抑制CRC 细胞的侵袭能力;此外,CLCA1可能通过抑制Wnt/β-catenin 信号通路和上皮—间质转化(EMT)过程而发挥肿瘤抑制作用。

CNTN3 是主要表达于神经系统的Contactin 家族成员之一,可能在特定神经元网络的形成和维护中发挥作用。ZHU 等[10]研究表明,CNTN3 在多形性胶质母细胞瘤中的表达显著下调,CNTN3 表达较低的患者OS 显著缩短,且CNTN3 可能与受体酪氨酸蛋白激酶(ErbB)信号通路相关。ZHOU 等[11]通过生物信息学的方法证明,CNTN3、SLC1A1、SLC16A9 对CRC 具有较高的诊断价值,但并未深入探究这3 个基因的作用机制。由此可见,CNTN3 不仅在神经系统疾病的发生中发挥重要作用,在CRC的发生发展中也具有重要作用,但目前对CRC 与CNTN3 关系的研究还比较少,且没有相关作用机制的研究。

GCG 可作用于肝细胞,促进cAMP 依赖性机制,该机制参与下调脂肪生成酶和胆固醇合成,同时上调肝脏LDL 受体和IGF-Ⅰ拮抗剂IGFBP-1 的产生。KOLB 等[12]提出,GCG/胰岛素可作为诊断新发糖尿病患者胰腺癌的潜在生物标志物。有研究通过生物信息学方法验证了GCG 在CRC 组织与癌旁组织中的表达具有差异性,并且认为GCG 可能是CRC 患者的预后标志物或治疗靶点[13-14]。目前对GCG 与各种癌症关系的研究比较少,GCG 与CRC 关系的研究多是采用生物信息学的方法,缺少基础实验与作用机制的相关研究。

ZG16具有类似Jacalin 的凝集素结构域,主要由黏液分泌细胞表达,包括肠道中的杯状细胞,而凝集素在免疫调节中具有重要作用[15]。ZG16 在人类多种肿瘤组织中均有表达。NI等[16]研究发现,ZG16表达可能与肺腺癌患者的预后相关。MENG 等[17]研究表明,ZG16 表达缺失与 CRC 高度相关,其在 CRC 的免疫反应调节中起重要作用;ZG16 与CRC 患者PDL1 表达呈负相关关系,ZG16 过表达阻断了CRC 细胞中PD-L1的表达;此外,ZG16过表达可促进NK 细胞的存活和增殖,ZG16 和PD-L1 之间的强相关性表明ZG16 可以作为一种生物标志物用于对从免疫治疗中受益的患者进行分层。

SPP1 也称为骨桥蛋白(OPN),是一种整合素结合蛋白,由巨噬细胞、内皮细胞和破骨细胞等多种细胞分泌。SPP1 参与多种生理和病理过程,与肿瘤发生和转移过程中的细胞生长、黏附和侵袭显著相关,并且在肺癌[18]、结肠癌[19]等肿瘤组织中过度表达。XU 等[20]认为,SPP1在CRC 组织中表达显著上调,且SPP1 可通过激活EMT 促进CRC 转移,这可能是CRC 患者的一个潜在治疗靶点。CHENG 等[21]研究认为,SPP1可促进CRC细胞增殖、迁移和侵袭,并通过激活 PI3K/Akt-GSK/3β-β-catenin 通路而发挥作用。

THBS2 作为THBS 家族的一员,参与多种生物学过程,如细胞凋亡、伤口愈合、血管生成和炎症反应,并表达于多种肿瘤细胞中[22]。目前,关于THBS2 在胃癌和CRC 中的研究比较多且比较深入。AO 等[23]研究表明,THBS2 在胃癌组织中高表达,可通过PI3K/Akt 信号通路促进胃癌细胞增殖、迁移。XU 等[24]研究表明,THBS2 在 CRC 组织中高表达,且THBS2/TLR4 轴有助于缺氧诱导因子 1α(HIF-1α)衍生的糖酵解,并最终促进CRC进展。

综上所述,本研究采用生物信息学的方法筛选出 CLCA1、CNTN3、GCG、ZG16、SPP1、THBS2 等6 个基因可能是CRC 发生发展中的关键基因,有望成为CRC早期诊断及治疗的新靶点。

猜你喜欢
共表达信息学靶点
UdhA和博伊丁假丝酵母xylI基因共表达对木糖醇发酵的影响
维生素D受体或是糖尿病治疗的新靶点
鸡NRF1基因启动子区生物信息学分析
高世代回交玉米矮秆种质的转录组分析
生物信息学辅助研究乳腺癌转移相关lncRNA进展
侵袭性垂体腺瘤中lncRNA-mRNA的共表达网络
肿瘤免疫治疗发现新潜在靶点
PBL教学模式在结构生物信息学教学中的应用
两种半纤维素酶在毕赤酵母中的共表达
心力衰竭的分子重构机制及其潜在的治疗靶点