向 琳,徐晓晨,谭君武,杜 波*
(1.湖北民族大学附属民大医院,湖北 恩施445000;2.吉林大学第一医院,吉林 长春130021)
头颈部鳞状细胞癌(head and neck squamous cell carcinoma ,HNSC)每年全球约新增75万病例,死亡约40万,严重威胁人类健康[1],这类肿瘤包括起源于口腔、口咽、下咽、喉、鼻咽、腭舌和扁桃体的癌症。这类患者的预后受多种因素的影响,预测其预后对临床工作十分重要。长链非编码RNA(long non-coding RNA,lncRNA)在HNSC的发生发展过程中发挥重要作用,影响肿瘤的生存、迁移和侵袭,可能是潜在的预后标志物[2]。既往已有lncRNA预测喉癌预后的相关研究[3],本研究利用癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中HNSC表达数据预测患者5年生存率,筛选预测预后的关键lncRNA。
1.1 HNSC患者信息
头颈部鳞状细胞癌(HNSC)患者RNA-seq数据和临床资料由TCGA网站(https://tcga-data.nci.nih.gov/tcga/)下载。临床资料包括总体生存率(overall survival,OS)、年龄、性别、肿瘤分级和AJCC分期。
1.2 HNSC样本表达谱
HNSC患者HTSeq-counts数据与GENCODE数据库资料(https://www.gencodegenes.org/human/,gencode.v22)匹配添加注释信息。使用RPKM对lncRNAs和mRNAs表达水平进行标准化。lncRNAs筛选标准:Ⅰ.转录位置不在蛋白编码区域;Ⅱ.在Gencode中存在注释信息;Ⅲ.至少在一半HNSC样本中表达;Ⅳ.平均RPKM>0.1。
1.3 差异表达分析
使用edgeR包以log2|fold change|>1 和调整后P<0.001作为阈值计算差异表达lncRNAs。
1.4 关键lncRNA筛选
在训练集中使用单因素COX分析计算差异表达lncRNAs与总体生存率(OS)之间的关系,然后使用多因素COX分析随机生存森林法筛选关键lncRNAs,风险评分(risk scores,RS)等于每个lncRNA的Coeffcient系数乘以其表达量之和,大于中位值定义为高风险,反之为低风险,以P-value <0.05表示差异有统计学意义。
1.5 生存分析
使用Kaplan-Meier曲线log-rank检验计算两组的生存差异,多因素COX分析和分层分析评估关键lncRNAs和临床特征的关系。使用受试者工作特征(receiver operating characteristic,ROC)曲线评估五年生存预测的敏感性和特异性。
1.6 功能富集
使用Spearman相关性分析筛选lncRNA-mRNA共表达的蛋白编码基因,相关系数>0.40,P<0.01表示显著相关。功能富集使用GO分析,通路富集使用KEGG分析,以P-value <0.001,Q-value<0.01作为阈值。所有分析均使用R(version 3.6.2)软件。
2.1 关键lncRNAs
通过与临床信息匹配共筛选出475例样本,随机分为训练集(n=238)和测试集(n=237),共筛选出493个满足阈值的差异表达lncRNAs。在训练集共筛选出5个关键lncRNAs与样本预后明显相关(表1),其中1个(RP11-865I6.2)为正系数,表示其高表达与短生存期相关,4个(RP11-417L19.2、RP11-567M16.1、RP11-44K6.2、FALEC)为负系数,表示其高表达与长生存期相关。
表1 HNSC训练集中5个lncRNAs与总体生存率的关系
2.2 训练集中关键lncRNAs与总体生存率
训练集中Kaplan-Meier曲线显示高风险患者(n=119)预后显著差于低风险患者(n=119)(P<0.0001,图1A)。高风险患者3年生存率38.61%、5年生存率23.59%、8年生存率0%,低风险患者3年生存率79.80%、5年生存率63.78%、8年生存率39.25%。使用ROC曲线评估5个lncRNAs预测HNSC患者预后的作用,其ROC曲线下(area under curv,AUC)面积为0.774(图1B)。单因素COX分析显示5个lncRNAs风险评分显著和患者预后相关(表2)。高风险患者死亡率显著高于低风险患者(图1C),热图显示RP11-865I6.2在高风险组上调,RP11-417L19.2、RP11-567M16.1、RP11-44K6.2和FALEC在高风险组下调(图1C)。
2.3 测试集、整集中关键lncRNAs与总体生存率
测试集中高风险患者(n=132)OS明显差于低风险患者(n=105)(P=0.0042,图2A)。整集中高风险患者(n=251)生存期明显短于低风险患者(n=224)(P<0.0001,图2B)。测试集高风险患者3年生存率51.02%、5年生存率37.93%、8年生存率15.17%;低风险患者3年生存率61.19%、5年生存率52.35%、8年生存率52.35%。整集中高风险患者3年生存率45.11%、5年生存率31.61%、8年生存率11.08%;低风险患者3年生存率72.09%、5年生存率58.66%、8年生存率47.16%。测试集和整集AUC分别为0.651(图2C)和0.712(图2D)。
表2 不同数据集COX分析结果
图1 HNSC训练集中5个lncRNAs风险评分模型预测总体生存率
2.4 关键lncRNAs的独立性分析
COX分析显示5个lncRNAs危险评分、年龄与预后相关(表2)。按中位年龄61岁将样本分为两组,结果显示在不同年龄分层中,高风险患者OS显著短于低风险患者(图3A-3C)。低风险中不同年龄组患者预后无差异(P=0.091,图3D)。
图2 HNSC测试集与整集中5个lncRNAs风险评分模型预测总体生存率
图3 5个lncRNAs在不同年龄患者的分层分析
2.5 关键lncRNAs的功能分析
共筛选出728个蛋白编码基因,GO分析显示5个关键lncRNAs相关蛋白编码基因在242个GO项中显著富集,其中BP 219项,CC 13项,MF 10项,KEGG分析显示在33个通路中显著富集。功能富集主要集中在白细胞粘附、淋巴细胞分化、淋巴和T细胞激活(图4A),通路富集主要集中在抗原处理和呈递、T细胞分化、细胞粘附分子(图4B)。
图4 5个lncRNAs的功能富集分析
长链非编码RNA(lncRNA)调节肿瘤发生、迁移和侵袭。已有众多研究发现lncRNA通过下游基因靶向调节HNSC细胞增殖与入侵[4-6],许多研究表明lncRNA可以作为癌症预后的独立预测因子[7,8]。Xiong D 等[9]的研究发现 LINC00958 和 HOXC13-AS可作为HNSC患者的诊断标志物。lncRNA是癌和其他头颈部肿瘤的重要生物标志物[10]。但是,lncRNA在预测HNSC患者预后中的作用尚不明确。
本研究中,我们利用TCGA数据库,在训练集中通过单因素和多因素COX分析构建了一个基于5-lncRNAs的风险模型,利用中位风险值将患者分为高风险组和低风险组。在测试集和全集中验证了5-lncRNAs模型,与低危患者相比,高危患者总体生存率低。将5-lncRNAs模型与临床信息相结合做分层分析,证实5-lncRNAs模型独立于临床因素,这增加了预后预测的可靠性。RP11-865I6.2上调,与患者预后呈负相关,RP11-417L19.2、RP11-567M16.1、RP11-44K6.2和FALEC下调,与患者预后呈正相关。我们的研究中,共筛选出5个lncRNAs作为预测HNSC患者预后的关键因子,据我们所知,之前没有关于这5个lncRNAs的报告,表明它们是在本研究中新发现的。Li J等[11]研究发现了10个lncRNAs,Xing L等[12]发现4个lncRNAs,Zhang Z等[13]发现3个lncRNAs,Yang B等[14]发现8个lncRNAs,这些lncRNAs均与HNSC患者预后明显相关。这可能是分析过程中数据处理方法的差异,样本量的不同,样本来源数据库的不同以及不同lncRNA之间的差异导致患者处于不同的风险水平所导致。本研究利用一个稳健的随机生存森林分析来筛选与预后相关的关键lncRNA,确定了一个5-lncRNAs风险模型,而且没有和以上研究相重复的lncRNA。我们希望更多的类似研究揭示预测HNSC患者预后的关键因子,Pan Y等[15]研究发现RP11-865I6.2、RP11-366H4.1、HOTTIP、RP11-275N1.1可作为HNSC患者的预后预测基因,这些重复较多的基因可能为进一步研究HNSC的分子机制和生物标志物提供新的靶点和理论基础,而且,采用生物信息学工具对HNSC中lncRNA进行表达分析时必须使用不同的方法对结果进行验证。我们的研究提示这个5个lncRNAs独立于临床因素。事实上,包含基因信息、临床病理分期的变量相较于单纯的TNM分期变量能更加准确的估计喉癌总体生存率[3]。既往有研究发现在中国人中lncRNA WWTR1-AS1过表达与不良预后相关[16],我们的结果中不包括上述基因,可能是由于人种的差异导致其潜在的分子机制不同。富集分析显示与5个lncRNAs相关蛋白编码基因主要集中在细胞免疫及分子粘附方面。这与以前肿瘤免疫以及细胞粘附分子的相关研究结果相似[17,18]。
本研究存在一定的局限和不足。首先,本研究主要集中在数据挖掘和分析两个方面,这些都是基于统计学方法,研究结果没有通过进一步的实验验证,没有试验分析其潜在机制,此外,我们只分析验证了TCGA数据集中5个lncRNAs的预测能力,没有其他数据库lncRNA表达数据用于进一步验证。其次,由于不同的lncRNA检测方法可能导致不同的结果,因此必须对lncRNA的检测、量化和转录活性的测定过程进行标准化。最后,lncRNA通过复杂的调控网络调节肿瘤过程,涉及到不同种类的顺式和反式调控元件,在广泛的生物过程中发挥着重要的调控作用,需要进一步的综合分析5个lncRNA在HNSC中的作用。因此,我们建议未来的研究应增加多变量预测模型以提高HNSC患者预后预测的准确性。
本研究中,我们证明了lncRNAs在HNSC患者中的预测价值,提示5个lncRNAs有助于预测临床结果,并且是独立预测HNSC患者生存率的有效预后生物标志物。