肺腺癌代谢相关基因的识别和预后模型构建

2021-10-20 08:03李崇将贺建中周茜邹小凡
国际呼吸杂志 2021年18期
关键词:腺癌关键肺癌

李崇将 贺建中 周茜 邹小凡

吉安市中心人民医院呼吸内科343000

肺癌是全世界病死率最高的恶性肿瘤,85% 左右为非小细胞肺癌,其中肺鳞癌与肺腺癌最为常见,研究显示,肺癌5 年生存率接近13%左右,低生存率反映着早期诊断标志物的缺乏以及潜在的疾病机制不确切[1]。肺腺癌起病隐匿,早期可行手术治疗,但易复发,研究显示有超过30%的患者面临术后复发的风险[2]。除手术外,随着分子靶向药物、血管靶向药物、免疫治疗等治疗手段的应用,肺腺癌的生存期及无疾病进展生存期得到了明显改善,但始终面临着耐药及其他风险[3-4]。

研究表明,代谢组学的改变是肿瘤的重要生物学特征,肿瘤代谢异常与肿瘤的发生发展互为因果关系[5]。研究显示L 亮氨酸、肉毒碱、C16 黯氨醇、13,16,19-二十二碳三烯酸、溶血磷脂酷乙醇胶、磷脂酌胆碱在非小细胞肺癌定性诊断中具有较好的价值,其中L 亮氨酸特异性最高[6]。通过对肺腺癌患者血清代谢组学研究发现肺腺癌患者血清中有14 种代谢物出现明显差异,其中丙酮酸、丙氨酸、NAC1、乳酸、GPC和甘氨酸对比对照组有显著上升,而葡萄糖、谷氨酰胺、亮氨酸、异亮氨酸、缬氨酸、丙酮、乙酰乙酸和苏氨酸则显著下降。而在不同分期肺腺癌患者间进行比较后发现,异亮氨酸、乙酰乙酸、NAC1和乳酸的变化与肺腺癌的发展有相关性,可能是肺腺癌早期诊断和分期的潜在生物标志物[7]。尽管目前基于TCGA 数据库的肺腺癌转录组数据库的预后分析以及得到了广泛的研究,然而其与代谢过程有关的基因用于肺腺癌预后相关的数据及实验尚缺乏。预后模型的构建是注重多个基因或因子之间的共同分析,从而提高准确性。本研究拟运用生物信息学方法对肺腺癌代谢通路表达相关基因进行筛选和深入分析,旨在为肺腺癌寻找关键基因,并筛选出与代谢相关基因,构建预后模型,用于肺腺癌预后相关风险的评估。

1 资料与方法

1.1 研究对象 观察性研究。首先使用R 语言包TCGAbiolinks下载TCGA 数据库中的肺腺癌的生存数据,挑选出每个样本的生存时间、生存状态、年龄、性别、TNM 分期和阶段数据,排除非癌症死亡因素的影响去除生存时间小于30 d 的样本。去除生存时间为缺失值的样本,最后获得490个样本。性别、年龄、病理分期、生存状态等临床信息,见表1。

表1 肺腺癌临床数据统计

1.2 研究方法

1.2.1 代谢相关基因的提取和处理 从TCGA 数据库下载肺腺癌的基因表达数据:使用R 语言包下载TCGA 数据库中的肺腺癌RNAseq转录组表达数据,整合表达数据获得基因表达矩阵(FPKM)。经过整理得到19 584个蛋白编码基因的表达数据,总共594个样本,其中535个癌症样本和59个正常样本。

1.2.2 基因差异表达分析 差异表达分析使用R语言的limma 包完成,差异表达的标准设置为log2FC的绝对值大于1,P值小于0.05。差异表达基因聚类图见图1,最后鉴定到2 283个差异表达基因,其中1 392个基因下调表达,891 个基因上调表达。

图1 差异表达基因聚类热图

1.2.3 与代谢通路相关基因取交集 从KEGG 数据库下载人类KEGG 通路相关信息,使用python脚本提取和代谢相关的基因。最终得到1 646个和代谢有关的基因。代谢相关基因与步骤2中2 283个差异表达基因取交集得到201个和代谢相关的差异表达基因,其中上调表达的为94个,下调表达的为107个。

1.2.4 获得的基因GO 功能富集分析 使用R 语言clusterProfiler包利用201个基因的基因符号做GO 功能富集分析(P值设定为0.05)。

1.2.5 单因素Cox分析初步筛选预后相关基因使用R 语言包survival做单因素Cox分析,选择P值小于0.05的基因作为候选基因。使用R 语言的survminer包根据基因表达量将候选基因分为高表达和低表达组,使用K-M 方法绘制生存曲线,选择前6个基因进行展示,见图2。

图2 单因素Cox回归分析前6个基因进行展示 A:CA4表达;B:AGMAT 表达;C:FMO2表达;D:CYP24A1表达;E:INMT 表达;F:GCNT3表达

通过单因素Cox分析的筛选,总共有69个基因的P值小于0.05。保留这69 个基因用于后续分析。

2 结果

2.1 成功筛选出4个关键基因用于构建模型 使用R 语言的glmnet包利用步骤5得到的69个基因构建Lasso-Cox回归进一步筛选基因,在λ值等于0.08的条件下选择了4个关键基因用于构建多因素Cox回归模型。根据这4个关键基因的表达情况,构建多因素Cox回归模型,并构建了风险评分公式 表, 其 中 β 为 多 因 素 Cox 模 型 系 数,EXPm RNA 为基因表达量:Figure 5 lasso回归降维βi×EXPmRNAi,见表2。

表2 多因素Cox回归结果

2.2 模型预测效力 绘制受试者工作特征(ROC)曲线并计算曲线下面积。根据图3可以看出,高风险分数组患者预后明显差于低风险得分组患者(P<0.01),验证了模型的准确性。依据模型的计算结果,绘制时间依赖的生存情况的ROC曲线,其中1、2、3 年曲线下面积分别为0.640、

图3 高低风险组K-M 曲线

0.637、0.645。说明了模型中包含的基因表达量能较好的预测患者的生存情况(图4)。

图4 不同年限受试者工作特征曲线

2.3 不同临床表型与风险得分情况 通过对表1中临床样本数据分析,从图5箱线图观察风险得分在不同临床表型的分布情况可以看出,风险得分值在性别、年龄、肿瘤N 分期、肿瘤T 分期、肿瘤分级等表型中存在着明显的差异。见图5。

图5 不同临床表型与高低风险得分组样本分布情况 (n=490) A:性别;B:年龄;C:病理性M 分期;D:病理性N 分期;E:病理性T 分期;F:肿瘤等级

根据风险得分,结合关键基因表达情况及临床特征,绘制热图。对关键基因进行了GO 和KEGG 的富集分析,发现关键基因显著富集于血小板脱颗粒、补体激活,凝集素途径等功能,并与糖酵解/糖异生通路相关。根据相关性从高到低排序,对关键基因进行GSEA 富集分析,进一步探索关键基因的功能与通路,评估关键基因与其他基因的相关性。

2.4 成功构建可量化预后模型 利用风险模型结合临床特征年龄、性别、肿瘤M 分期、肿瘤N 分期、肿瘤T 分期分级构建列线图 (图6),成功构建可量化的预后模型。

图6 模型列线图

2.6 验证集数据再次确定数据及模型可靠性 为了验证模型的有效性和可重复性,通过GEO 数据库中下载了基因表达数据作为验证数据集(GSE31210)。提取验证数据集中4个关键基因的表达量数据和生存数据,根据Cox多因素回归模型计算风险分数,依据风险分数把验证数据集中的患者分为高风险和低风险组,分组阈值由R 语言的survminer包计算得出,对所得两组分别绘制K-M 曲线。从图7中可以看出高风险组的患者预后明显差于低风险组的患者 (P<0.01),使用验证数据集绘制ROC曲线验证数据集中的AUC值1年最大为0.834,这也验证了模型的有效性和可重复性。

图7 验证数据集的K-M 曲线

3 讨论

目前已经有研究证实与肺癌相关的代谢物包括:谷氨酰胺、次黄嘌呤、嘌呤、磷脂、肉碱、麦芽糖、甘油、乙醇胺谷氨酸、乳酸、色氨酸、组氨酸、赖氨酸等,不同的代谢物水平的高低对于肺癌可以有不同的影响,研究显示这些代谢产物可以作为肺癌早期诊断的生物标志物等[8]。研究显示BCAA 以及BCAA 相关转氨酶2 (BCAT2)在非小细胞肺癌中代谢活跃[9]。肿瘤起始细胞明显上升与蛋氨酸循环活跃以及MAT2A 基因的转化率有关[10]。研究显转录因子c-Maf在肿瘤控制免疫抑制巨噬细胞极化及功能方面起非常关键的作用,同时转录因子c-Maf通过促进M2巨噬细胞的极化与活化调节三羧酸循环以及三磷酸尿苷-糖代谢生物合成[11]。同时有研究显示脯氨酸分解代谢可以影响非小细胞肺癌的进展,淋巴特异性螺旋酶(LSH)特异性调节脯氨酸及其他代谢途径 (包括酸代谢),同时LSH 可以通过野生型p53基因诱导PRODH 表达,而PRODH 是非小细胞肺癌(NSCLC)的癌基因之一,研究显示在肺腺癌细胞中LSH 以及PRODH 都非常活跃[12]。

本研究通过权威数据库TCGA,KEGG 下载了肺腺癌患者代谢相关基因表达数据和相对应的临床信息,通过研究发现,在肺腺癌的发生和发展中,多个代谢相关基因表达发生了改变,这些代谢相关基因有可能在肺腺癌的发生、发展和预后中起重要作用。针对代谢相关基因表达,共得到201个基因,其中上调表达为94个,下调表达为107个。为了探究这些差异基因的表达水平和临床关系,本研究先对201个基因做GO 功能富集分析,p值设定为0.05。最后应用单因素Cox和lasso回归进一步筛选出4 个关键基因乳酸脱氢酶A (LDHA),甘油醛-3-磷酸脱氢酶 (GAPDH),重组人葡萄糖6-N-乙酰基转移酶1 (GNPNAT1),羟酰辅酶A脱 水 酶1 (HACD1)。 其 中 乳 酸 脱 氢 酶 A(LDHA),研究显示胰腺癌细胞有很高的乳酸脱氢酶A 活性,在其他癌症细胞中活性亦较高,研究同样显示乳酸脱氢酶A 对于乳腺癌的生长与侵袭有关[13-14]。研究显示人源乳酸脱氢酶A 基因参与肺癌细胞中Nrf2的转录表达调控[15]。甘油醛-3-磷酸脱氢酶是糖酵解过程中的一个酶,编码该酶的基因为管家基因,大量研究证实甘油醛-3-磷酸脱氢酶在多种肿瘤中表达上调[16]。研究显示重组人葡萄糖6-N-乙酰基转移酶1 是肺癌诊断的独立潜在基因[17]。

最后构建了列线图,运用年龄,性别,肿瘤分期,肿瘤分级以及得分进行赋值,最后对肺腺癌的预后进行预测。还通过在GEO 数据库中下载了基因表达数据作为验证数据集,使用验证数据集绘制ROC曲线验证数据集中的AUC 值最大为0.834,这也验证了模型的有效性和可重复性。

本研究采用了多种生物信息学方法,处理了大量数据并进行分析,但目前的研究仅限于运用数据库相关数据进行研究及验证,尚缺乏通过蛋白及基因芯片等实验方法进行验证,其应用价值还有待进一步完善。

经TCGA 数据库和KEGG 数据的挖掘和分析,最终获得4个关键基因用于构建风险模型,通过GEO 数据集进行验证,实验数据集和验证数据集均提示本预后模型有较好的预测能力,为肺腺癌的个体化,精准治疗及预后评估提供一定的帮助。

利益冲突 所有作者均声明不存在利益冲突

猜你喜欢
腺癌关键肺癌
miRNA在肺腺癌中的作用及机制研究进展
硝酸甘油,用对是关键
管状腺癌伴有黏液腺癌分化结直肠癌临床病理与免疫组织化学特征
云南地区多结节肺腺癌EGFR突变及其临床意义
氩氦刀冷冻治疗肺癌80例的临床观察
十二指肠腺癌88例临床特征及相关预后因素
高考考好是关键
近亲得肺癌自己早预防
北京新发恶性肿瘤 肺癌约占两成
蒋百里:“关键是中国人自己要努力”