基于机器学习的肿瘤免疫治疗应答预测研究

2019-10-08 07:45张雨绮林勇
软件 2019年1期
关键词:随机森林机器学习黑色素瘤

张雨绮 林勇

摘  要: 肿瘤免疫治疗应答的预测对肿瘤治疗方案设计及治疗有着重要的意义。本文引入基于随机森林的机器学习方法,将病人黑色素瘤组织转录组RNA-seq的基因表达谱作为特征,对免疫检查点阻断治疗的结果进行预测研究。对病人的基因表达谱使用随机森林算法来构建预测模型,并与Logistic回归模型和XGBoost模型进行比较。实验结果表明,随机森林模型对免疫检查点阻断治疗的应答能够进行较准确的预测,并且较Logistic回归模型和XGBoost模型预测效果更好。

关键词: 黑色素瘤;免疫检查点阻断;机器学习;随机森林;分类预测

中图分类号: Q789    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.01.021

【Abstract】: Prediction of the response to tumor immunotherapy is of great significance to the design of tumor treatment and treatment. In this paper, random forest machine learning method is introduced, and gene expression profile of patientsmelanoma RNA-seq was taken as characteristics to predict the response to immune checkpoint blockade.Random forest algorithm was used to construct the prediction model for the gene expression profile of patients, and compared with Logistic regression analysis and XGBoost algorithm. The experimental results show that random forest model had a great prediction accuracy to the response to immune checkpoint blockade and was better than Logistic regression model and XGBoost model.

【Key words】: Melanoma; Immune checkpoint blockade; Machine learning; Random forest; Classification prediction

0  引言

近年来,肿瘤免疫治疗已经被公认为是一种安全的肿瘤治疗方法,而免疫检查点阻断(Immune Checkpoint Blockade,ICB)就是一种新型的免疫治疗方法[1]。免疫检查点是一类可以起激活或抑制作用的分子,肿瘤细胞表面的配体与免疫细胞表面的受体进行结合时,肿瘤细胞会通过免疫检查点传递抑制信号给免疫细胞,使免疫细胞失去活性,从而形成免疫逃逸[2]。ICB就是对肿瘤细胞传递出的免疫检查点进行阻断,使免疫细胞恢复活性,利用自身免疫系统来消除肿瘤细胞。它与传统的肿瘤治疗方法相比,更加容易产生疗效,尤其是在中晚期的黑色素瘤中[3-4]。虽然临床治疗中明确了ICB的可行性, 但约有70%以上的患者仍会治疗失败,而未能从中获益[5]。Ke Chen[6]等人在基于计算机预测ICB应答的研究一文中指出,研究影响ICB治疗能否成功的因素,构建ICB治疗应答的预测模型,如何有效地在ICB治疗前进行病例筛选,从而为患者设计更为适合的个性化治疗方案就显得尤为重要,文中将可预测ICB治疗效果的特征分为五大类,其中一类就是转录组水平RNA-seq特征。比如,Galon J[7]等人使用基因表达谱计算出来的特征来对结直肠癌的病人进行免疫治疗临床结果的预测,Pornpimol Charoentong[8]等人使用基因表达谱构建了一个对多种癌症免疫治疗结果进行预测打分的工具。随着近年来第二代测序技术的不断成熟和发展,以及对基因的研究越来越深入,人们发现许多疾病的发展与治疗都和基因的表达密切相关[9],根据基因表达谱对于肿瘤免疫治疗的预测亟待研究。

本文研究病人转录组水平RNA-seq数据对ICB治疗黑色素瘤效果的预测作用,引入随机森林算法来构建预测模型。随机森林算法是一种基于统计学习理论的经典机器学习算法,它将bootstrap重抽样方法和决策树算法相结合,并能在构建模型的同时对特征的重要性进行评估,具有较好的性能[10-12]。本文对病人的基因表达谱数据,使用随机森林构建ICB治疗预测模型,引入模拟数据来对模型进行评估。同时也使用了Logistic回归和XGBoost方法,来对不同算法构建出的模型进行比较。

1  基于机器学习的免疫检查点阻断治疗预测方法

本文对免疫检查点阻断治疗分类预测的整体流程包括特征筛选、特征降维、随机森林建模和实验验证四个部分,如图1所示。下面对图中的每一个流程的实现以及实验数据的处理进行详细的描述。

1.1  特征基因的筛选

在构建预测模型时,选取的特征基因越多,计算量越大。为了降低模型计算的复杂度,同时又保证预测的准确性,对特征基因的筛选起着重要的作用。本研究筛选出与免疫相关的基因。根据收集到的文献,得知免疫治疗与人体中与免疫相关的通路都有着紧密联系[13],所以本研究首先对60例病人基因表达谱的20250个基因进行了匹配筛选。从KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因與基因组百科全书数据库中收集了与免疫相关的通路,这些通路中共有619个基因。将60例病人基因表达谱中的基因与这619个免疫相关通路的基因取交集,最后得到了602个共有基因。

1.2  特征基因的降维

在初步的特征筛选之后,特征基因已经从20250个精简到了602个,但特征数量仍旧过多。本研究使用R语言中randomForest包中importance()函数来实现特征基因的降维。随机森林算法相对于其他机器学习算法的一大优势就在于它可以通过评估所有变量的重要性,从而对特征进行筛选。在建模的过程中,随机森林算法会为每个特征计算出Mean DecreaseAccuracy准确度平均降低量和MeanDecrease Gini基尼指数平均降低量两个值,这两个值都是对特征重要性的评估指标,本文筛选时主要参考的是MeanDecreaseGini。如果一個样本有K个分类,假设样本的某一个特征a有n个取值,其某一个节点取到不同样本的概率为:

基尼指数表示节点的纯度,基尼指数越大纯度越低。将变量数据打乱,基尼指数变化量的均值可以作为变量的重要程度度量。MeanDecreaseGini通过基尼指数计算每个变量对分类树每个节点上观测值的异质性的影响,从而对变量的重要性进行比较,该值越大表示该变量的重要性越大[14]。本研究通过多次迭代来对特征基因进行筛选:首先使用待筛选的基因,在R语言中构建随机森林分类模型;接着使用importance()函数来查看每个特征的MeanDecreaseGini,并根据MeanDecreaseGini进行排序,筛选出排名靠前的特征来再次建模。重复以上步骤,我们最终从602个特征基因最终筛选出16个来当作特征基因。

1.3  基于随机森林的ICB预测方法

随机森林是一个监督模型,由若干棵决策树组成,每一棵决策树的叶子节点都是具有同一种类别的数据。对每一颗输入待分类的样本数据,决策树都会根据内部选择的最优的分裂节点来生成一条从根节点到叶子节点的唯一路径,该叶子节点就是这个待分类样本的分类结果[15-16]。随机森林算法构建模型的流程如图2所示。

整个建模过程是在R语言(3.4.4)中使用randomForest包来实现的,具体的步骤如下:首先将病人数据按照80%做训练集,20%做测试集的比例随机抽取样本分成两组,每组数据包括每个样本筛选出的16个特征基因和每个样本的分类。接着将随机森林算法设置为构建分类器模式,使用训练集进行模型的构建。然后使用训练出的预测模型,来对测试集进行预测,并统计每个样本分类的概率以及分类结果。最后使用预测出的分类概率来绘制ROC便于模型之间的比较,使用预测分类正确的样本占训练集样本总数的比例,计算模型预测的准确率。

1.4  实验数据处理

本研究对象包括两组共60例病人数据,他们由互不相关且相互独立的病人组成,这些数据均是从GEO(Gene Expression Omnibus)公共数据库中收集的公共数据,数据全部经过数据库审核,合法、准确且可以直接使用。这60例病人数据,分别从GSE91061(33例)和GSE78220(27例)两组研究中收集。其中,GSE91061包括23例PD(progressive disease)无疗效病人和10例PRCR(partial response、complete response)有疗效病人;GSE78220包括12例PD病人和15例PRCR有疗效病人。病人数据包括病人ICB治疗前的黑色素瘤肿瘤组织转录组RNA-seq测序数据,以及这60例病人接受ICB治疗后的疗效情况,共计有35例PD无疗效病人与25例PRCR有明显疗效病人两种分类[5,17]。

考虑到真实的病人数据样本量较小,为了评估本研究的准确性,本研究还额外从癌症和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)数据库中收集了相似的黑色素瘤肿瘤组织的转录组RNA-seq测序数据,经过质控筛选后共收集到471例病人样本,获得了处理后的病人基因表达谱[18]。将GEO数据库收集到的两组以及TCGA数据库收集到的一组数据的基因表达谱进行了整合,三组数据共有的基因数量为20250个。因为这些病人并没有接受到ICB治疗,所以我们需要对这些病人数据进行模拟响应变量,模拟出他们经过治疗后是否有疗效。本研究模拟响应变量分为三步:

(1)根据已知响应变量的数据计算聚类中   心[19,20]。整理60例已知治疗结果的病人数据,根据病人基因表达谱FPKM(Fragments Per Kilobase Million)值,分别求出两类病人每个基因FPKM值的平均值,将每类病人所有基因的FPKM值平均值构成的高维向量,视为该类别的聚类中心。

(2)计算模拟数据的欧式距离。将收集的471例病人的基因表达谱文件进行整理,根据(1)中算出的聚类中心,使用如下公式分别计算每个病人与PD和PRCR两种类型的欧式距离:

(3)模拟响应变量。比较471个病人与PD和PRCR两种类型聚类中心的欧式距离,将该病人的响应变量模拟为欧式距离更小的类型。最终471个病人的响应变量模拟为363个PD(约77%)和108个PRCR(约23%),与实际治疗中ICB治疗大部分病人没有疗效的情况相吻合。

2  实验验证与结果分析

2.1  实验验证方法

2.2  实验结果与分析

2.2.1  真实数据结果

为了验证本文模型的有效性,将随机森林模型与将Logistic回归分析和XGBoost两种方法的分类效果进行比较。随机将60例病人样本分为48个训练集样本和12个测试机样本,分别使用随机森林、Logistic回归分析和XGBoost三种方法进行建模,重复上述方法五次,并对相同分组得到的三种模型,进行准确率和ROC曲线曲线下面积比较。三种模型的准确率的比较如表1所示,三种模型的ROC曲线及AUC的比较如图3中(a)(b)(c)(d)(e)所示,随机森林算法五次建模的ROC及平均的AUC如图3中(f) 所示。从图3和表1中可以发现,随机森林算法在

本研究中明显优于Logistic回归和XGBoost方法,随机森林算法构建出的模型预测平均准确率达到84.9%,优于XGBoost的61%和Logistic回归的60%;随机森林模型的平均ROC曲线下面积也达到0.914,明显大于XGBoost和Logistic回归。

2.2.2  模拟数据结果

为了测试本研究中随机森林模型的准确度,同时对额外收集到的471个模拟数据做了三种模型的构建与比较,构建模型时仍是使用筛选出的16个特征基因作为特征。三种模型的准确率比较如表2所示,三种模型的ROC曲线及AUC的比较如图4中(a)~(e)所示,随机森林算法五次建模的ROC及平均的AUC如图4中(f)所示。可以明显看出,随着样本量的增加,三种模型准确率之间的差距也在逐渐缩小,但是随机森林模型的预测准确率仍是略高于XGBoost和Logistic回归,达到了93.2%;同时三种模型的ROC曲线也十分接近,但是随机森林模型的ROC曲线下面积也是略大于其他两种模型,平均AUC达到了0.985,也从侧面表明了数据量越大,模型会越准确。

3  总结与展望

本文创新的使用病人的基因表达谱,基于机器学习理论中的随机森林算法,实现对ICB治疗的疗效预测。首先,提出了基于机器学习理论的随机森林算法筛选特征的方法与模型构建的过程,同时通过文献调研,缩小了待选基因的范围;其次,为了弥补数据的不足,引入了相似的病人数据,并根据与聚类中心之间的欧式距离,对响应变量进行了模拟;最后,使用了随机森林、Logistic回归和XGBoost三种方法分别对筛选出的特征基因进行训练,并通过准确率和ROC曲线来对三种模型在真实数据和模拟数据测试集上的预测效果进行比较和评估,验证了本文构建随机森林模型的准确性。ICB治疗的预测研究有助于医生在为病人设计治疗方法时,可以选择更为有效的治疗手段,也为病人的康复增加一份希望。

在研究的过程中,本人尝试使用更少的特征基因来对研究数据进行训练并预测,由于本研究的训练样本较少,继续减少特征数量反而会使模型的准确率下降。因为ICB治疗还属于比较新型的治疗方式,国内外的研究中并未有过多的数据和相关的预测研究,本研究只收集到了两组病人数据。在其中一组病人数据中发现除了本文中提及的PD和PRCR两类治疗结果外,还有第三类治疗结果SD(stable disease),但是因为数据量过少且另一组病人数据中并未提及此类,所以本文没有对SD这类病人进行研究。随着ICB治疗研究的不断深入和不断推广,会有越来越多的病人数据可供研究,在未来的研究中,我们将收集除了基因以外的特征加入模型之中,继续对三种治疗结果的分类预测进行  研究。

参考文献

[1] Stambrook PJ, Maher J, Farzaneh F. Cancer Immunotherapy: Whence and Whither[J]. Mol Cancer Res. 2017 Jun; 15(6): 635-650.

[2] 卢伸, 苏丹. 免疫检查点阻断用于肿瘤治疗的研究进展[J]. 实用肿瘤杂志. 2016; 31(1): 19-23.

[3] Topalian SL, et al. Mechanism-driven biomarkers to guide immune checkpoint blockade in cancer therapy[J]. Nat.Rev. Cancer. 2016 May; 16(5): 275-87.

[4] Liu XS, Mardis ER.Applications of immunogenomics to cancer[J]. Cell. 2017 Feb 9; 168(4): 600-612.

[5] Hugo W, Zaretsky JM, et al. Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma[J]. Cell. 2016 Mar 24; 165(1): 35-44.

Liu Q, et al. Towards In Silico Prediction of the Immune- Checkpoint Blockade Response.[J]. Trends Pharmacol Sci. 2017 Dec; 38(12): 1041-1051.

Galon J, et al. Type, density, and location of immune cells within human colorectal tumors predict clinical outcome.[J]. Science. 2006 Sep 29; 313(5795): 1960-4.

Charoentong P, et al. Pan-cancer Immunogenomic Analyses Reveal Genotype-Immunophenotype Relationships and Predictors of Response to Checkpoint Blockade. Cell Rep. 2017 Jan 3; 18(1): 248-262.

Cogdill AP, Andrews MC, Wargo JA. Hallmarks of response to immune checkpoint blockade[J]. Br J Cancer. 2017 Jun 27; 117(1): 1-7.

李慧, 李正, 佘堃. 一种基于综合不放回抽样的随机森林算法改进[J]. 计算机工程与科学. 2015;7

全雪峰. 基于奇异熵和随机森林的人脸识别[J]. 软件, 2016, 37(02): 35-38

苏志同, 汪武珺. 基于随机森林的煅烧工艺参数的研究和分析[J]. 软件, 2018, 39(4): 148-150

Li Y, et al. A Mini-Review for Cancer Immunotherapy: Molecular Understanding of PD-1/PD-L1 Pathway Translational Blockade of Immune Checkpoints[J]. Int J Mol Sci. 2016 Jul 18; 17(7). pii: E1151.

董師师, 黄哲学. 随机森林理论浅析[J]. 集成技术. 2013. 1; 2(1): 1-7.

李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报. 2013, 50(4): 1190-1197.

李玲, 李晋宏. 基于随机森林修正的加权二部图推荐算法[J]. 软件, 2018, 39(1): 110-115.

Riaz N, et al. Tumor and Microenvironment Evolution during Immunotherapy with Nivolumab[J]. Cell. 2017 Nov 2; 171(4): 934-949.e16.

Tomczak K, Czerwińska P, Wiznerowicz M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge[J]. Contemp Oncol (Pozn). 2015; 19(1A): A68-77.

吴荣强, 李晋宏. 基于聚类分析的铝电解槽阳极压降的分类[J]. 软件, 2018, 39(3): 166-169.

蒲杰方, 卢荧玲. 基于聚类算法和神经网络的客户分类模型构建[J]. 软件, 2018, 39(4): 130-136.

猜你喜欢
随机森林机器学习黑色素瘤
拱坝变形监测预报的随机森林模型及应用
原发性食管恶性黑色素瘤1例并文献复习
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
颅内黑色素瘤的研究进展
左拇指巨大黑色素瘤1例
脉络膜黑色素瘤伴视网膜脱离1例