通过基因突变和表达谱数据鉴定肿瘤甲基化的驱动基因及其临床意义

2022-01-10 03:16许琼查琼芳秦慧刘斌吴学玲
老年医学与保健 2021年6期
关键词:甲基化基因组整体

许琼,查琼芳,秦慧,刘斌,吴学玲

上海交通大学医学院附属仁济医院呼吸科,上海200127

衰老是肿瘤发生发展的重要危险因素。除黑色素瘤外,全身其他部位的肿瘤在年龄大于70 岁的老年人中发生率都明显高于年龄小于70 岁的老年人[1],并且70%肿瘤相关的死亡都出现在年龄大于65 岁的患者中。自身合并症多、治疗药物疗效差以及治疗后不良反应多、并发症多等多种因素是老年患者诊断肿瘤后死亡率高的原因。积极探讨肿瘤在老年人中的发生机制为最终降低肿瘤的发生率和死亡率提供基础。

随年龄增加,体细胞基因突变的逐步累积,可以促进肿瘤的发生。另外随年龄增加,表观遗传学出现整体低甲基化的特点,恰好与肿瘤发生过程中基因组的甲基化水平变化一致[2],是衰老促进肿瘤发生的另一因素。因此鉴定肿瘤发生过程中驱动整体甲基化水平变化的基因,有助于理解衰老如何通过调控甲基化参与肿瘤的发生。在某些肿瘤如急性髓系白血病中,一些特定基因的突变已经证实参与调控DNA甲基化。例如DNA 甲基化酶DNMT3A(methyltransferase 3 al pha,DNMT3A)的突变在22%的成人AML 中出现[3],是髓系白血病发生的早期事件[4]。含有DNMT3AR882突变的AML 患者与野生型患者相比在182 个基因部位的甲基化水平降低[3],这可能与DNMT3AR882 突变后重头合成的 DNMT3A 活性降低相关[5]。除DNMT3A 外,IDH1 和IDH2 突变的AML 患者呈现基因组水平的高甲基化[6]。那么,在其他类型的肿瘤中是否也存在类似于DNMT3A和IDH1/IDH2 的基因,影响肿瘤细胞整体甲基化的水平,是肿瘤甲基化的潜在驱动基因,目前还不清楚。因此,本研究分析TCGA(The Cancer Genome Atlas,TCGA)中35 种肿瘤类型的450k 甲基化数据、DNA 突变数据以及RNA 表达的数据,鉴定影响肿瘤整体甲基化水平的潜在驱动基因,为研究衰老如何参与肿瘤的发生和最终降低肿瘤在老年人中的发生率及死亡率提供思路。

1 资料与方法

1.1 肿瘤数据类型 从 Broad Firehose(https: //gdac.broadinstitute.org/)下载TCGA 项目中35 种肿瘤类别、共12 317 例肿瘤样本的DNA 测序、RNA 测序以及450k 甲基化芯片的数据。这35 种肿瘤包括肾上腺皮质癌(ACC)、膀胱上皮尿路癌(BLACA)、乳腺浸润癌(BRCA)、宫颈癌(CESC)、胆管癌(CHOL)、结肠腺癌(COAD)、结直肠腺癌(COADREAD)、弥漫性大B 淋巴瘤(DLBC)、食管癌(ESCA)、神经胶质瘤(GBM)、多型性胶质母细胞瘤(GBM)、头颈鳞状细胞癌(HNSC)、肾嫌色细胞癌(KICH)、混合肾癌(KIPAN)、肾透明细胞癌(KIRC)、肾乳头细胞癌(KIRP)、急性髓系白血病(AML)、脑低分化神经胶细胞瘤(LGG)、肝细胞癌(LIHC)、肺腺癌(LUAD)、肺鳞状细胞癌(LUSC)、卵巢浆液性浆液性囊腺癌(OV)、胰腺癌(PAAD)、肾上腺嗜铬细胞瘤和副神经节瘤(PCPG)、直肠腺癌(READ)、肉瘤(SARC)、皮肤黑色素瘤(SKCM)、胃腺癌(STAD)、胃和食管癌(STES)、睾丸生殖细胞瘤(TGCT)、甲状腺癌(THCA)、胸腺瘤(THYM)、子宫内膜癌(UCEC)、子宫肉瘤(UCS) 和视网膜黑色素瘤(UVM)。

1.2 显著突变的基因和整体DNA 甲基化水平的关系肿瘤驱动基因由MutSigCV2 分析得出,用FDR<0.05选择。用所有CpG 位点甲基化的中值来代表单个样本的整体甲基化水平。以AML 为例,基于文献报道[3,7],AML 中DNMT3A 与整体甲基化的状态是已知的,DNMT3A 用作此分析方法的阳性对照。如图1A 所示,AML 样本中50%分位的DNA 甲基化水平在DNMT3A 突变组及非突变组有显著性的差异。样本的整体甲基化作为因变量(),驱动基因的突变状态作为自变量(),通过多元线性回归分析,筛选统计上显著的变量(FDR<0.05)。

1.3 基因表达和整体DNA 甲基化水平的关系 基因表达谱定量用Log2 转换,多元线性回归用于分析基因的表达水平与DNA 甲基化之间的关系。在前面分析过程中已鉴定的驱动基因先纳入多重回归模型,再把基因的表达量作为独立变量逐步加入多重回归方程中,然后用 GRAIL (Network-based Gene Prioritization Analysis)[8]方法预测筛选在功能上与DNA 甲基化相关的基因。最后,FDR<0.05 的基因纳入最后的回归分析,并定义为甲基化驱动基因。

2 结果

2.1 AML 中与基因甲基化水平相关的重要突变基因AML样本中DNMT3A 的突变与基因组整体低甲基化水平相关(图1A);IDH1 和IDH2 的突变与肿瘤细胞的高甲基化水平相关(图1B),与文献报道一致[3,6],提示分析方法的有效性。除此外,CEBPA(CCAAT enhancer binding protein alpha)的突变也与AML 基因组的整体高甲基化水平相关(图1B)。文献报道CEBPA突变后所致的高甲基化可能是AML 患者生存时间延长的原因[9]。

图1 AML 样本中与整体基因甲基化相关的突变基因

SETD2 和SMARCB1 在肾癌样本中与DNA 的高甲基化水平相关(表1)。SETD2 是甲基化转移酶,能促进H3 组蛋白36 位赖氨酸三甲基化(H3K36me3)形成。含有H3K36me2/H3K36me3 修饰的基因组,易结合DNA 甲基化转移酶DNMT3A,导致基因组5mC部位的甲基化[13]。突变尽管引起甲基化转移酶的失活,但也可导致整个基因组H3K36me3 的异位分布,从而致整体基因组水平的高甲基化,参与肾脏肿瘤的形成[14]。

图2 AML 样本中表达量与整体甲基化相关的基因

2.4 甲基化相关驱动基因与年龄的关系 进一步分析甲基化驱动基因突变率在年龄大于60 岁以及小于60 岁两组患者之间的差异,两组间有统计学差异<0.05)的基因列在表2 中。和这3个基因的突变与年龄相关,随年龄的增加突变率增加;而参与影响神经胶质瘤甲基化的基因和以及影响皮肤黑色素瘤甲基化的基因它们的突变率与年龄呈负相关。已有文献报道含有上述突变基因的神经胶质瘤患者或黑色素瘤患者,发病年龄小于不含有突变基因的患者[24-25]。

2.5 35 种肿瘤类型中表达量与DNA 甲基化相关的基因 通过前述方法,本研究鉴定了在功能上与DNA 甲基化相关,且表达量与其他35 种肿瘤甲基化水平相关的基因(FDR<0.05),将在多种肿瘤中重复出现的基因罗列在表3 中。其中一些基因对整体甲基化水平的影响已有报道,如组蛋白H3 精氨酸甲基转移酶PRMT6。在乳腺肿瘤细胞株中,它的高表达影响DNA甲基化转移酶1(DNA methyltransferase1,DNMT1)的活化因子UHRF1 在染色质的结合,导致基因组的低甲基化。在神经胶质细胞瘤中PRMT6 如何影响肿瘤细胞整体甲基化的水平需要进一步探讨。甲基胞嘧啶结合域(methylcytosine-binding domain, MBD)家族是与DNA 甲基化的表现形式相关的一组基因[26],本研究发现,MBD1 和MBD4 的高表达分别与肾脏细胞癌及甲状腺癌基因组整体低甲基水平相关。另外CBX5 的表达与肾脏肿瘤细胞及肝细胞癌细胞中的高甲基化相关,这可能与CBX5 能与DNMT1 相互作用,参与UHRF1/DNMT1 轴介导的细胞内甲基化变化相关[27]。

表3 35 种肿瘤中表达量与整体DNA 甲基化水平相关的基因

3 讨论

在本研究中,首先以AML 为参考数据,构建了挖掘肿瘤甲基化的驱动基因的生物信息学方法,而后应用此方法在TCGA 数据中,鉴定出其它34 种肿瘤中与基因甲基化水平相关的潜在驱动基因及表达相关基因。

终上所述,此研究通过多数据整合的方法,鉴定了与基因甲基化相关的潜在驱动基因,为后续在老年患者中研究表观遗传学甲基化水平的变化如何参与肿瘤发生提供基础。本研究不足之处是没能通过实验方法,在相应的肿瘤模型中对文中鉴定的甲基化驱动基因进行验证,并探讨这些基因如何参与调节整体甲基化状态。后续研究中将针对其中单个基因,在独立的疾病模型中研究突变基因对甲基化水平的影响,特别是与衰老相关的突变基因。

猜你喜欢
甲基化基因组整体
“植物界大熊猫”完整基因组图谱首次发布
甲基苯丙胺改变成瘾小鼠突触可塑性基因的甲基化修饰
牛参考基因组中发现被忽视基因
DNA甲基化与基因活性的调控
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
歌曲写作的整体构思及创新路径分析
关注整体化繁为简
设而不求整体代换
如何选择整体法与隔离法