MAD2L1/CAMK2A/PTTG1基因簇失调维持子宫内膜癌干性特征

2021-11-11 08:21张轶雯潘宗富
中国医学科学院学报 2021年5期
关键词:干性差异基因标志物

郑 菁,张轶雯,潘宗富

1浙江省医疗健康集团杭州医院药剂科,杭州 310022

2浙江省人民医院 杭州医学院附属人民医院药学部,杭州 310014

3浙江省内分泌腺体疾病诊治研究重点实验室,杭州 310014

子宫内膜癌(uterine corpus endometrial carcinoma,UCEC)是最常见的女性生殖系统恶性肿瘤之一,占女性恶性肿瘤的7%,发病率呈现逐年增高及年轻化趋势[1]。尽管常规临床治疗效果良好,但复发和耐药仍是目前治疗的瓶颈。越来越多的研究表明,UCEC存在一定比例的肿瘤干细胞(cancer stem cells,CSCs),并与肿瘤的发生、发展、转移、复发及耐药密切相关[2- 5]。CSCs具有正常成体干细胞相似的特性,可自我更新、无限增殖以及多向分化,同时亦保留肿瘤细胞的恶性特征。CSCs是UCEC复发及转移的潜在关键细胞群,针对性消除CSCs或抑制CSCs增殖分化可望从根源上提升治疗效果[6- 8]。因此,深入研究UCEC干性特征及调控机制将有助于揭示UCEC的发生、发展机制,并发现潜在治疗靶点。

随着人工智能及深度学习等算法的逐渐成熟与推广,肿瘤干性特征的研究也形成了新的评价方式。干性指数是Malta等[9]于2018年提出用于计算组织样本干性程度的评价模型。通过一类逻辑回归机器学习算法对包含人类干细胞及其分化的3个胚层祖细胞的数据集提取转录组和表观遗传特征集,作者获得基于mRNA表达及DNA甲基化的干性指数(mRNAsi及mDNAsi),并可用于评估CSCs的生物学过程及肿瘤失分化程度。目前,UCEC的干性特征及调控机制仍未完全明确。因此,本研究将基于UCEC转录组测序数据,通过计算不同样本mRNAsi评估UCEC与正常组织及不同病理特征肿瘤组织的干性差异,并考察mRNAsi的预后意义,进而利用高频子通路挖掘算法(high-frequency sub-pathways mining approach,HiFreSP)筛选与预后密切相关的关键子通路,最后,通过加权基因共表达网络分析与mRNAsi密切相关的基因模块及关键基因。通过上述研究,将描绘UCEC的干性特征,并挖掘调控肿瘤干性特征的关键基因,为UCEC的恶性演进分子机制研究提供新思路。

资料和方法

基因表达谱获取及注释从UCSC Xena数据库(https://xenabrowser.net/datapages/)获取癌症基因组图谱(The Cancer Genome Atlas,TCGA)来源的UCEC转录组测序数据及gencode.v22.annotation.gene.probeMap注释文件,样本包括UCEC组织537例(Ⅰ期334例,Ⅱ期50例,Ⅲ期124例,Ⅳ期29例),正常组织35例。由于数据集临床样本信息有限,尚无法明确正常组织具体来源。在R3.5.1环境下,将样本的转录组测序结果合并为1个矩阵,利用gencode.v22.annotation.gene.probeMap文件进行转录组测序数据注释,将基因名称从Ensembl ID转换为基因符号,随后采用edgeR包对转录组测序的Counts数据进行TMM标准化。

样本mRNA干性指数计算mRNA干性指数(mRNA stemness index,mRNAsi)是一种计算组织样本干性程度的评价模型,可用于评估肿瘤细胞与干细胞之间的相似程度,从而量化CSCs干性。从SYNAPSE平台获取人源干细胞mRNA数据(https://www.synapse.org/#!Synapse:syn2247799)。在R3.5.1环境下,利用gelnet、biomaRt和dplyr包,结合SYNAPSE平台的干细胞数据,通过一类逻辑回归机器学习算法构建mRNAsi预测模型(详细流程参照https://bioinformaticsfmrp.github.io/PanCanStem_Web/),并将上述标准化表达矩阵导入构建好的mRNAsi预测模型,计算各UCEC样本的mRNAsi。

差异基因分析在R3.5.1环境下,利用edgeR包分别筛选UCEC与正常组织和预后模型中mRNAsi指数高低组别(基于最佳P值分组)之间的差异基因,并取两者交集,以筛选UCEC特异变化差异基因,利用Benjamini & Hochberg方法进行多重检验矫正。筛选标准为错误发现率(false discovery rate,FDR)<0.05,|log2(FC)|≥1。

Kaplan-Meier生存分析从TCGA获取UCEC转录组测序数据及临床预后信息,并在R3.5.1环境下,利用survival包和survminer包进行Kaplan-Meier生存分析,计算mRNAsi和候选基因的最佳分组,比较患者总生存期差异,筛选具有预后意义的标志物。利用Log-Rank检验两组生存曲线差异,采用Benjamini & Hochberg方法进行多重检验矫正。

子通路预后标志物挖掘为进一步挖掘预后标志物,采用HiFreSP对差异基因进行富集及子通路识别。HiFreSP利用随机化法将通路随机划分为子集,然后通过高频打分的方法识别稳健的预后基因特征。本研究采用HiFreSP对差异基因进行富集及子通路识别,高频基因打分(HFG score)阈值设定0.25,高频通路打分(HFP score)阈值设定0.5,以获取更具鲁棒性及可移植性的预后标志物[10]。

加权共表达网络构建及关键模块分析在R3.5.1环境下,利用加权共表达网络(weighted gene co-expression network analysis,WGCNA)包构建基因共表达网络,并分析关键表达模块[11]。取TMM标准化基因表达矩阵表达值的方差前25%的基因进行共表达网络分析。为了使基因间的连通度符合幂律分布,以对数联通性和对数频率的线性拟合相关系数R2=0.9为阈值,结合pickSoftThreshold函数筛选最佳软阈值为18。利用blockwiseModules函数对基因共表达模块进行划分,并通过合并模块的最小距离计算得到模块特征值,设定切割高度阈值为0.25,模块最小基因数为30。将模块特征值与mRNAsi进行Pearson相关性分析,采用Benjamini & Hochberg方法进行多重检验矫正,以得到mRNAsi高度相关基因模块。

基因注释及功能富集在R3.5.1环境下,利用clusterProfiler包、org.Hs.eg.db包和ggplot2包,对与mRNAsi高度相关的模块进行基因本体(生物进程)及京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。筛选标准为FDR<0.05。取显著性富集的生物进程及KEGG通路前10条进行结果展示。

候选基因表达验证为验证候选基因是否在蛋白水平符合其表达趋势,将目的基因于人类蛋白图谱(https://www.proteinatlas.org)数据库中进行检索,获取相关免疫组织化学数据。

统计学处理采用R3.5.1统计软件,组间均数比较采用独立样本t检验,相关性分析采用Pearson检验,两组生存曲线差异采用Log-Rank检验,多重检验采用Benjamini & Hochberg方法矫正,P<0.05为差异有统计学意义。

结 果

UCEC干性特征及预后意义基于基因表达谱计算35例正常样本及537例UCEC组织的mRNAsi,结果显示,UCEC样本mRNAsi显著高于正常组织(t=25.095,P<0.001)(图1A);mRNAsi随着UCEC的级别增高而不断上升,差异有统计学意义(P均<0.05)(图1B);mRNAsi随肿瘤分期逐渐上调,其中Ⅳ期与Ⅰ期相比,mRNAsi上调差异有统计学意义(t=-3.177,P=0.0032)(图1C);预后分析显示,mRNAsi表达越高,UCEC患者总生存期越短(χ2=6.864,P=0.0088)(图1D)。

mRNAsi:mRNA干性指数;UCEC:子宫内膜癌mRNAsi:mRNA stemness index;UCEC:uterine corpus endometrial carcinomaA.肿瘤组织及正常组织的mRNAsi水平;B.不同级别UCEC的mRNAsi水平;C.不同肿瘤分期的mRNAsi水平;D.mRNAsi水平与UCEC患者总生存期A.the level of mRNAsi in tumor and normal tissue;B.the level of mRNAsi in UCEC of different grades;C.the level of mRNAsi in UCEC at different stages;D.the correlation between mRNAsi and overall survival of UCEC patients图1 UCEC的mRNAsi特征刻画及预后分析Fig 1 Profiling and prognosis analysis of mRNAsi in UCEC

UCEC干性相关差异基因筛选为进一步探索引起肿瘤干性高低的关键差异基因,本研究分别考察了UCEC与正常组织及肿瘤mRNAsi指数高低组别之间的差异基因,并筛选两者共有差异基因,结果显示,以FDR小于0.05、变化倍数不少于2倍为筛选条件时,UCEC与正常组织之间存在7093个差异基因(上调3269个,下调3824个),mRNAsi评分高低组别之间存在2335个差异基因(上调926个,下调1409个),两个数据集共有差异基因为570个(图2A、B)。热图结果显示,上述共有差异基因可明显区分肿瘤与正常组织,且在肿瘤样本之间,大部分基因随着mRNAsi及肿瘤级别升高而显著上调或下调(图2C)。

A.差异基因的火山图;B.UCEC干性相关差异基因筛选;C.UCEC干性相关差异基因热图A.volcanic plot of differentially expressed genes;B.the screening of stemness-associated differentially expressed genes in UCEC;C.the heatmap of stemness-associated differentially expressed genes in UCEC图2 UCEC干性相关差异基因分析Fig 2 Analysis of stemness-associated differentially expressed genes in UCEC

UCEC干性相关预后子通路识别及关键基因预后分析采用HiFreSP算法富集并识别与预后相关的子通路,结果显示,整个差异基因集中存在2条子通路与UCEC患者预后显著负相关,包括卵母细胞减数分裂的子通路及细胞周期子通路(图3A)。卵母细胞减数分裂的子通路包含MAD2L1、PLK1、CAMK2A、CCNE1、CCNE2、PTTG1、ESPL1、CDC20等8个基因。细胞周期的子通路包含SMC1B、MAD2L1、PLK1、CCNB1、CCNB2、PTTG1、ESPL1、CDC20等8个基因。两条子通路共包含11个差异基因,除CAMK2A为下调趋势,其他基因均在肿瘤组织及mRNAsi评分高的样本中显著上调(图3B)。进一步结果显示,上述11个差异基因均具有显著的预后意义,其表达越高,UCEC患者预后越差(图3C)。

A.UCEC干性相关差异基因的预后子通路筛选;B.具有显著预后意义子通路的富集基因列表;C.富集基因表达与UCEC的总生存期A.screening of prognosis-related sub-pathways enriched with stemness-associated differentially expressed genes;B.the list of enriched genes in sub-pathways with prognostic significance;C.the correlations between enriched genes and overall survival of UCEC patients图3 UCEC干性相关差异基因的预后子通路筛选及关键基因的预后意义Fig 3 The prognostic significance of stemness-associated differentially expressed genes and sub-pathways in UCEC

WGCNA筛选UCEC干性相关基因模块为进一步探索调控肿瘤干性特征的潜在机制,研究通过构建WGCNA分析基因模块与mRNAsi的相关性。选取β值18为阈值以构建稳定的无尺度网络,并获得14个基因模块(图4A、B),模块-性状分析结果显示,与mRNAsi密切相关的模块共有3个,包括青色(R=0.34)、黑色(R=-0.37)及蓝色(R=0.38)(图4C、D)。此外,研究亦考察了上述11个干性相关关键基因与3个模块的相关性,并展示相关性最高的基因。结果显示,MAD2L1与青色模块相关性为R=0.79,CAMK2A与黑色模块相关性为R=0.68,PTTG1与蓝色模块相关性为R=0.79(图4D)。

A.软阈值筛选;B.层次聚类及静态树剪枝识别基因模块;C.基因模块与mRNAsi相关性分析;D.MAD2L1、CAMK2A、PTTG1及mRNAsi与基因模块相关性A.screening of soft threshold;B.identification of gene modules by hierarchical clustering and static cut-off tree;C the correlations between gene modules and mRNAsi;D.the correlations of MAD2L1,CAMK2A,PTTG1,and mRNAsi with gene modules图4 基于加权共表达网络构建筛选与UCEC干性相关的基因模块Fig 4 Construction and screening of gene modules related to UCEC stemness based on weighted co-expression network

关键基因模块的功能注释及通路富集为明确上述3个关键基因模块的功能,研究通过基因本体(生物进程)及KEGG对模块基因进行功能注释及通路富集。结果显示,青色模块主要参与的生物进程包括mRNA加工、RNA剪接、染色体分离、共价染色质修饰、组蛋白修饰等(图5A)。黑色模块与内皮发育、肌肉收缩、肌肉系统过程、血管生成的调节、调节脉管系统发育、肾小球血管发育、肾系统血管发育、肾血管发育、内皮细胞分化及出芽式血管生成等生物进程相关(图5B)。蓝色模块主要参与信号识别颗粒依赖的共翻译、蛋白质膜靶向、蛋白靶向内质网、非编码RNA加工、核糖体生物合成、rRNA加工、核糖核蛋白复合物的生物合成、rRNA代谢过程等生物进程(图5C)。

KEGG通路富集结果显示,青色模块与RNA转运、细胞周期、剪接体、泛素介导的蛋白水解、mRNA 监测通路、内质网中的蛋白质加工等通路相关(图5D)。黑色模块与血管平滑肌收缩、环磷酸鸟苷-蛋白激酶G信号通路、黏着斑及细胞黏附分子等通路显著相关(图5E)。蓝色模块主要富集通路包括核糖体、氧化磷酸化、产热、蛋白酶体、逆行内源性大麻素信号、剪接体、RNA聚合酶、内质网中的蛋白质加工及心肌收缩(图5F)。

KEGG:京都基因与基因组百科全书KEGG:Kyoto encyclopedia of genes and genomesA~C.青色、黑色、蓝色基因模块的基因本体(生物进程)注释;D~F.青色、黑色、蓝色基因模块的KEGG通路富集A-C.gene ontology(biological process)annotation of turquoise,black,and blue gene modules;D-F.KEGG pathway enrichment of turquoise,black,and blue gene modules图5 关键基因模块的基因本体(生物进程)和KEGG通路富集分析Fig 5 Gene ontology(biological process)and the KEGG pathway enrichment of key gene modules

UCEC干性相关基因的表达验证本研究发现MAD2L1、CAMK2A、PTTG1在肿瘤与正常组织、mRNAsi评分高低、UCEC患者预后中均具有显著意义,且与干性模块高度相关,因此进一步利用人类蛋白图谱数据库验证其蛋白表达水平。结果显示,MAD2L1与PTTG1在肿瘤组织中明显上调,而CAMK2A则在肿瘤组织中下调,该结果与转录组测序结果一致(图6)。

人类蛋白图谱数据库检索MAD2L1、CAMK2A、PTTG1在UCEC及正常组织的表达The expression of MAD2L1,CAMK2A,and PTTG1 in UCEC and normal tissues retrieved from The Human Protein Atlas图6 UCEC干性相关基因的免疫组织化学表达验证Fig 6 Expression validation of UCEC stemness-associated genes by immunohistochemistry staining

讨 论

CSCs是参与肿瘤恶性进展及耐药的关键细胞亚群[12],肿瘤分化程度越低,其干细胞样特性则越显著,肿瘤侵袭性越强[13]。然而,目前UCEC干性特征的调控机制尚未明确。本研究通过TCGA数据库联合机器学习刻画了UCEC干性特征,并挖掘调控肿瘤干性特征的潜在机制。结果发现,mRNAsi在肿瘤组织中显著升高,并与肿瘤分级、肿瘤分期呈正相关,是UCEC患者的不利预后因素。本研究还进一步挖掘了导致mRNAsi产生差异的关键基因集,并通过HiFreSP算法识别发现两条关键子通路高表达可导致UCEC患者总生存期显著变短。其中,包括MAD2L1、CAMK2A及PTTG1在内的11个基因为上述子通路成员并与患者预后显著相关。WGCNA分析显示,mRNAsi与3个关键模块密切相关,同时,MAD2L1,CAMK2A及PTTG1分别与3个基因模块高度相关,并在组织样本中蛋白表达趋势与转录组测序结果一致。提示这些基因的表达失调是促进UCEC肿瘤干性特征的潜在关键机制。

目前,虽然在UCEC中已鉴定出CSCs,但多数研究在评价肿瘤干性时主要考察一些特定CSCs标志物,如CD133、ALDH1等[14],而对UCEC的干性特征缺乏全面了解。干性指数是一种新颖的评价模型,通过一类逻辑回归机器学习算法提取人类干细胞及分化各阶段的祖细胞转录组和表观遗传特征,可用于评估不同肿瘤亚型、临床特征下肿瘤干性差异以及预后意义[9]。其中,mRNAsi是基于基因表达数据计算所得的干性指数,指数越接近1,表明肿瘤细胞分化程度越低,干性特征越强。本研究通过计算UCEC样本的mRNAsi发现,UCEC肿瘤组织不仅比正常组织干性程度高,而且mRNAsi随着肿瘤的分级及肿瘤分期逐步上调,在高级别肿瘤及晚期患者中指数最高。更为重要的是,mRNAsi指数越高,则UCEC患者预后越差,表明mRNAsi是一个潜在的UCEC预后标志物。由于CSCs在肿瘤恶性演进及临床治疗的重要地位,评估肿瘤干性指数可潜在辅助疾病进程判断及临床疗效评估。

为探索导致UCEC干性特征差异的潜在机制,本研究筛选并发现肿瘤mRNAsi指数高低组别之间存在570个特异变化差异基因,这些基因与肿瘤干性特征密切相关。肿瘤干性特征的本质是多基因异常表达导致通路失调,通过维持CSCs自我更新或促使肿瘤细胞失分化而获得干细胞样特性。为研究差异基因所参与的信号通路,传统手段一般采用KEGG、基因集富集分析等手段进行通路分析。然而,信号通路往往由庞大的基因集构成,各基因的重要程度却无法区分[10]。因此,从通路中进一步挖掘关键子通路,识别其预测性,不仅可以获取具有较高预后判断能力的标志物,还可以更好阐释肿瘤恶性演进的机制。HiFreSP是基于随机策略与子通路挖掘相结合的一种新颖算法,与拉索回归及随机森林预后模型相比,HiFreSP具有更好的预后评估性能及鲁棒性[10]。为探索UCEC干性相关差异基因的生物学意义,研究采用HiFreSP算法富集并识别了卵母细胞减数分裂子通路及细胞周期子通路为UCEC患者预后的潜在标志物,进一步分析结果表明,上述子通路中多数成员为细胞周期相关基因,且均与UCEC患者总生存期呈负相关。Horning等[15]通过对前列腺癌组织进行单细胞测序发现,PTTG1、CDC20、PLK1、CCNB1等10个细胞周期相关基因在具有干细胞样特征的亚群中表达上调,且这些细胞对G2/M周期阻滞剂不敏感,提示细胞周期在维持肿瘤干性中具有重要作用。虽然已有一些研究发现卵母细胞减数分裂或细胞周期通路在子宫内膜癌中被富集[16],但本研究进一步明确了上述通路与肿瘤干性特征密切相关,可作为潜在的预后标志物。

WGCNA分析显示,3个共表达模块与mRNAsi密切相关,其中与mRNAsi正相关的模块主要与RNA转运、细胞周期、剪接体、氧化磷酸化、内质网中的蛋白质加工等通路相关,而与mRNAsi负相关的模块主要富集于环磷酸鸟苷-蛋白激酶G信号通路、黏着斑及细胞黏附分子等通路,提示肿瘤干性特征调控机制的复杂性。进一步研究发现,MAD2L1,CAMK2A及PTTG1不仅是上述子通路的成员,而且分别与3个基因模块高度相关。MAD2L1是有丝分裂纺锤体组装检查点蛋白,与细胞周期密切相关。Bidus等[17]研究发现,MAD2L1在发生淋巴结转移的子宫内膜癌组织中高表达,可作为预测淋巴结转移的指标之一。此外,MAD2L1与BUB1可联合作为UCEC的预后标志物,其表达与肿瘤分化程度、肿瘤分期相关[18]。这些研究提示MAD2L1在促进UCEC恶性进展中具有重要作用,但MAD2L1参与调控UCEC干性特征的研究鲜有报道。CAMK2A参与编码CaMKII的α亚基,目前CAMK2A在UCEC中的作用研究较少,Takai等[19]研究指出,CAMKI和CAMKII抑制剂KN- 93可显著诱导UCEC细胞发生G0/G1期阻滞,并诱导凋亡。然而本研究发现,CAMK2A在肿瘤组织及mRNAsi指数高的组别中表达显著下调,且免疫组织化学进一步验证了该结果,提示CAMK2A可能与肿瘤干性特征负相关。CAMKII作为激酶,除了自身表达水平,其酶活性、胞内定位及作用底物都将影响其生物学效应,因此,需要更充分的证据明确CAMK2A在UCEC干性特征维持中的作用。人垂体肿瘤转化基因1(由PTTG1编码)作为癌基因,在多种肿瘤中发挥促癌作用且与维持CSCs干性相关[20- 23]。在乳腺癌中,PTTG1可促进肿瘤细胞的上皮-间质转化以及维持CSCs自我更新能力及数量[24]。Feng等[25]研究显示,PTTG1表达与UCEC的TMN分期呈正相关,但与其他临床特征关系不显著。本研究通过多重筛选发现,PTTG1作为卵母细胞减数分裂子通路及细胞周期子通路共有的基因,其表达与UCEC患者预后负相关,且与干性相关基因模块具有较高的相关性,提示PTTG1在维持UCEC干性特征中具有重要作用。

综上,本研究基于机器学习算法,刻画了UCEC的干性特征,识别了干性相关的基因及预后标志物,分析了维持UCEC干性特征的潜在机制,结果发现MAD2L1、CAMK2A及PTTG1等一系列与肿瘤细胞干性密切相关的基因。后续将聚焦UCEC的干性特征,在分子、细胞、动物水平充分论证上述基因在调控肿瘤干性中的作用及机制。鉴于CSCs在肿瘤治疗中的地位逐渐被重视,研究所获结果有望为UCEC的精准治疗提供潜在标志物及候选靶点。

猜你喜欢
干性差异基因标志物
薯蓣皂苷元调控Nrf2信号通道干预大鼠干性AMD氧化应激机制的研究
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
夏季频发溺水事件,“干性溺水”是怎么回事
紫檀芪处理对酿酒酵母基因组表达变化的影响
脓毒症早期诊断标志物的回顾及研究进展
夏季游泳要提防“干性溺水”
冠状动脉疾病的生物学标志物
肿瘤标志物在消化系统肿瘤早期诊断中的应用
MR-proANP:一种新型心力衰竭诊断标志物
SSH技术在丝状真菌功能基因筛选中的应用