基于多期动态增强CT 影像组学特征和多分类器分层融合模型预测肝细胞癌的微血管侵犯

2024-03-18 11:30钟伟雄梁芳蓉杨蕊梦2
南方医科大学学报 2024年2期
关键词:特征选择组学分类器

钟伟雄,梁芳蓉,杨蕊梦2,,甄 鑫

1南方医科大学生物医学工程学院,广东 广州 510515;2华南理工大学附属第二医院(广州市第一人民医院)放射科,广东 广州 510180;3华南理工大学医学院,广东 广州510006

肝细胞癌(HCC)是全球第5大常见癌症,也是癌症相关死亡的第3大原因[1]。尽管医疗技术的进步在治疗HCC方面取得了巨大成就,但HCC的预后仍然很差,肝切除术后的5年复发率为70%,肝移植后的复发率为35%[2-4]。微血管侵犯(MVI)是指门静脉、包膜内血管或内皮细胞衬覆的血管腔中出现癌细胞巢团[5,6]。有证据表明[4,7-9],MVI是肝切除术后复发和不良预后的独立预测因素。目前,病理检查是在手术或活检后确定HCC患者MVI的金标准,但这种方法在样本污染或术前穿刺活检时因瘤内异质性而无效的情况下并不可靠[10]。此外,穿刺活检可能会增加肿瘤意外出血或种植转移的风险[11]。因此,迫切需要一种准确且无创的方法来早期预测MVI。

影像组学是疾病诊断和预后预测的一种新方法,在基于CT或MRI的影像组学研究中HCC的MVI预测已取得一定的进展[12-16]。然而,大多数研究只包括多期动态增强CT(DCE-CT)或MRI的一个期相,并且目前尚无统一的最佳预测期相,例如,Yao等[17]基于DCE-CT的平扫期、动脉期、门静脉期及延迟期构建了4个独立的影像组学模型,结果表明动脉期和延迟期的预测性能要高于门静脉期;而Zhang等[18]和Ma等[14]的研究结果显示门静脉期影像组学特征表现优于动脉期与延迟期。预测性能还与所使用的分类器密切相关,不同的分类器建立在不同的数学模型上,因此在相同的分类任务中会产生不一致的性能。此外,还有其他研究发现不同特征选择方法和分类器的组合构建的模型的性能存在明显差异[19,20];与单一分类器相比,分类器的组合能产生更可靠、更准确的预测结果[21,22]。

因此,本研究创新性地提出了一种基于多准则决策的权重分配算法来实现多期相特征及多分类器的融合,并构建了基于多期DCE-CT影像组学特征和多分类器的分层融合模型用于预测HCC的MVI,最后通过与单期相单分类器的模型以及使用其他集成方式的预测模型进行比较,验证了所提出模型的有效性。

1 资料和方法

1.1 研究对象

本研究经广州市第一人民医院机构审查委员会批准,并根据回顾性研究的性质免除了知情同意的要求,收集了于2016年1月~2020年4月在广州市第一人民医院接受DCE-CT术前检查的新诊断HCC患者(伦理审批号:K-2019-079-01)。纳入标准为:经手术病理证实的HCC;术前进行了4期DCE-CT检查;完成术前实验室检查。排除标准为:接受过化疗栓塞、射频消融或经导管动脉化疗栓塞等抗癌治疗的患者;DCE-CT检查与手术之间的时间间隔超过两周。所有手术标本均由1名具有14年肝细胞癌病理诊断经验的病理学家检查,通过手术病理确认切除肿瘤的MVI状态。最后,本研究共纳入111例HCC患者(MVI阳性:57例;MVI阴性:54例,表1)。

术前DCE-CT在多台扫描仪上进行,在静脉注射造影剂后共分4个期相,包括第1期EAP,18~25 s;第2期LAP,35~40 s;第3 期PVP,50~60 s;以及第4 期EP,120~250 s。每个期相的所有图像都以DICOM格式存储,并进行了匿名处理。使用ITK-SNAP软件(http://www.itksnap.org)分别在第1~4期的CT图像上逐层进行了可见最大肿瘤边缘的勾画,这一工作由两名分别有着4年和15年的放射诊断经验的医师完成,两位放射科医师勾画VOI的一致性通过Dice相似系数进行测量。对于Dice系数大于0.9的病例,取两名医师勾画VOI的交集;对于Dice系数小于0.9的病例,两位医师通过沟通讨论以解决病变边界的差异,直至达成共识。随后使用形态学扩张算法自动将轮廓外扩到距离肿瘤边缘12 mm处,作为本次研究的VOI,而当接触到肝脏边缘、胆管或大的血管(血管内径≥2 mm)时,则触碰点处的VOI扩张停止,而其他位置的扩张照常进行。

1.2 方法概述

本文提出了一种创新的基于多期DCE-CT影像组学特征和多分类器分层融合模型。该模型不仅将从HCC患者的4个期相的DCE-CT图像的VOI中所提取的影像组学特征进行融合,还分别在每一期相内融合了7种最常用的弱分类器的决策信息。期望通过这样的方式,使得模型能够有效互补不同DCE-CT期相所提供的诊断信息,提高HCC患者MVI的预测性能,并且规避选择一个最适合分类器的过程。

整个模型包含4个主要部分:特征提取、特征选择与模型训练、分类器层面融合以及期相信息层面融合阶段(图1)。训练过程如下:提取HCC患者多期相DCECT中的影像组学特征;针对不同的基分类器,分别对每一期相提取的特征进行特征选择;然后,在4个期相中使用筛选出来的最优特征子集分别训练基分类器,挑选出最佳的特征子集与基分类器的组合用于构建模型;利用一种基于多准则决策的方法为单个分类器和单个期相分配融合权重与。测试过程与训练过程类似:从待测的患者的DCE-CT中提取在模型训练过程中所筛选出的最优特征子集中的影像组学特征;将特征输入到训练好的基分类器模型中进行预测;利用权重对每一期相中单个分类器的预测结果进行融合;利用权重对多期相信息进行融合,得到最终的预测结果。

图1 模型框架示意图Fig.1 Framework of the proposed model.

1.2.1 特征提取 本次研究从每1例HCC患者的4个DCE-CT期相(EAP、LAP、PVP和EP)中都分别提取3大类共109个候选影像组学特征,包括19个一阶统计学特征、15个形态学特征和75个纹理特征。纹理特征又包括24个灰度共生矩阵(GLCM)特征、16个灰度区域大小矩阵(GLSZM)特征、16 个灰度游程矩阵(GLRLM)特征、5个相邻灰度色差矩阵(NGTDM)特征和14个灰度相关矩阵(GLDM)特征(表2)。上述特征均在Python 3.6.2 环境下使用开源影像组学工具包Pyradiomics[23](版本:3.0.1)进行提取。

表2 提取的影像组学特征Tab.3 Extracted radiomics features

1.2.2 特征选择 对基于影像组学特征的研究来说,从医学影像感兴趣区域中提取出的特征数目往往十分巨大,甚至远多于所收集的样本数量,而且存在部分特征与下游任务不相干、特征与特征间相关性大等特征冗余问题。特征选择则是在模型训练过程中,从候选特征集中去除冗余特征,提取最优特征子集的过程。本次研究考虑了13种特征选择算法,包括5种基于信息论的特征选择方法(CMIM、DISR、JMI、MIFS和MRMR)、3种基于相似度的特征选择方法(lap_score、fisher_score 和SPEC)、3 种基于稀疏编码的特征选择方法(ll_l21、MCFS 和RFS)以及2 种基于统计学的特征选择方法(gini_index和t_score)。以上算法均由python开源库scikit-feature[24]实现。

1.2.3 模型训练 本次研究选择了7种常用的弱分类器作为基分类器,包括逻辑回归(LR)、K近邻(KNN)、线性判别分析(LDA)、支持向量机(SVM)、朴素贝叶斯分类器(GNB)、多层感知机(MLP)和决策树(DT)。上述算法均由python开源库scikit-learn[25]实现。在训练过程中,采用十折交叉验证的方式,从训练集划分出部分样本作为验证集,用于评估基分类器的预测性能,对于每一种分类器均使用上一小节中所述的不同的特征选择算法筛选出的特征子集进行一次训练,最终选择出一个在验证集上表现最优的最优特征子集用于训练分类器。

1.2.4 基于多准则决策的权重分配算法 针对基于影像组学的多期相DCE-CT在HCC患者MVI预测的具体问题,需要整合不同DCE-CT期相所提供的信息以及多个分类器的诊断结果,因此,需要在分类器层面上和期相层面上进行两轮的信息融合。为了解决这一问题,我们提出了一种基于多准则决策的权重分配算法来实现多期相特征和多分类器的融合。本文所提出的算法的主要思想是通过综合多个不同的角度评价指标为多个待评价对象分配恰当的融合权重。而在经验上的,若一个对象在更多的评价指标上表现更为优异,其分配到的权重应当会更大。基于这一原则,算法的具体流程如下:首先定义一个评价矩阵D∈Rn×m作为算法的输入,其中n为待评价对象(如多个分类器或者多个期相)的数目,m为使用的评价指标数目,评价矩阵D可以通过在模型的训练阶段中对验证集进行性能评估获得;评价矩阵D首先按列进行归一化,使得评价矩阵D的每一列之和为1;随后,根据公式:

计算得到每个待评价对象的权重ωi,其中表示位于矩阵D中第i行、第j列的元素;接着计算权重归一化因子K;最后,利用权重归一化因子K对待评价对象的权重ωi进行归一化得到最终的融合权重。针对此次研究,所提出算法中使用的评价指标为AUC、ACC、SEN、SPE。算法的伪代码如表3所示。

表3 基于多准则决策的权重分配算法伪代码Tab.3 Pseudocode of the proposed multi-criteria decision-making-based weight allocation algorithm

1.2.5 多期相和多分类器融合过程 通过上节所述的基于多准则决策的权重分配算法在训练阶段中确定了各个期相及其对应的基分类器的融合权重后,在测试阶段,依次根据公式probm=和在基分类器层面以及期相层面进行两轮决策融合,得到最终的预测概率。公式中的表示分类器c对测试样本的期相m的预测概率,表示分类器c在期相m中的多分类器融合权重,probm表示测试样本在期相m下进行分类器决策融合的预测概率,表示期相m的融合权重,prob为最终的预测概率。

1.3 模型验证和评估

1.3.1 模型验证

1.3.1.1 单一期相特征和多个期相特征融合的预测性能比较 为了探讨期相融合策略中期相的组合与数目对预测性能的影响,一方面,在使用单一期相预测的情况下,分别对4个期相只在基分类器层面进行一轮决策融合;另一方面,在使用任意2、3个期相组合和全部4个期相预测的情况下,在基分类器层面进行一轮决策融合的基础上再对期相层面进行第二轮决策融合,对他们的预测性能进行比较。因此,一共可以获得15个模型,分别表示为和(其中1、2、3、4分别表示EAP、LAP、PVP、EP)。

1.3.1.2 与单期相单分类器的预测性能比较 为了探讨分类器决策融合策略对预测性能的影响,针对所提出的模型,一方面,我们分别对4个单期相特征下基分类器与特征选择算法的组合的性能进行了比较;另一方面,我们还将基分类器与单期相特征下进行分类器决策融合后的模型进行了性能比较。

1.3.1.3 不同基分类器多样性的预测性能比较 为了探讨基分类器多样性对预测性能的影响,本实验将参与决策融合的基分类器个数从1个依次增加至7个,对比了这7种模型的预测性能。

1.3.1.4 与集成方法的预测性能比较 本研究还将所提出的模型与8种基于集成方法的分类器进行了对比,分别为AdaBoost[26]、Bagging[27]、CatBoost[28]、Extra Trees[29]、GBDT[30]、LightGBM[31]、Random Forest[32]和XGBoost[33]。具体来说,先将4个期相的特征使用拼接的策略进行融合,再经过特征选择筛选出最优特征子集后训练这些集成分类器用于预测。

1.3.2 评价指标 本次研究采用五折交叉验证的方法对所提出的方法进行评估。评价指标包括ROC 曲线、AUC、ACC、SEN、SPE,公式分别如下:

其中,TP为真阳性,TN为真阴性,FP为假阳性,FN为假阴性。

2 结果

2.1 单一期相特征和多个期相特征融合的预测性能比较

对于单期相融合结果来说,第2期(LAP)有着较高的AUC和SEN,第4期(EP)有着较高的ACC和SPE,而第1期(EAP)的预测性能稍差;对于多期相融合结果来说,融合第2期(LAP)、第3期(PVP)和第4期(EP)获得了最高的AUC、ACC和SPE,而融合全部的4个期相获得了最高的ACC和SEN(表4)。

表4 使用单期相和多期相特征决策融合的性能比较Tab.3 Comparison of the performance of models using single-phase feature decision fusion and multi-phase feature decision fusion

2.2 与单期相单分类器的预测性能比较

每个期相下最优最差的分类器与特征选择算法的组合均不相同,在期相层面进行第二轮决策融合后取得了最优的结果,其中AUC、ACC和SEN有了较大的提升,而SPE仅次于第4期的融合结果(表5)。图2分别展示了4个期相中每个基分类器的ROC曲线。

图2 多分类器分层融合模型与其4个期相中每个基分类器的ROC曲线对比分析Fig.2 ROC curves of multi-classifier hierarchical fusion model proposed in this study with each of its base classifiers in the 4 phases.A:EAP;B:LAP;C:PVP;D:EP.

表5 本研究所提出的方法与单期相单分类器结果比较Tab.3 Comparison of the results by the proposed method and those of models with a single phase and a single classifier

2.3 基分类器多样性的预测性能比较

随着基于不同数学算法的基分类器加入决策融合过程,AUC、ACC、SEN和SPE四项性能指标均呈现出升高的趋势,在7种分类器都参与融合时取得了最高的性能(表6)。

表6 使用不同数量的基分类器结果比较Tab.3 Comparison of the results by using different numbers of base classifiers

2.4 与集成方法的预测性能比较

相较于将所有期相特征简单拼接后再使用一种集成分类器进行预测的策略,本研究所提出的多期相多分类器分层融合的策略能在HCC患者MVI的预测方面取得更优越的性能(表7)。

表7 本研究所提出的方法与八种集成分类器结果比较Tab.3 Comparison of the results of the proposed method and 8 ensemble classifiers

3 讨论

本研究提出了一种基于多准则决策的权重分配算法来实现多期相特征和多分类器的融合,并基于此算法构建了基于多期DCE-CT影像组学特征和多分类器分层融合模型用于预测HCC患者的MVI。该模型不仅充分利用了DCE-CT的EAP、LAP、PVP和EP四个期相所提供的诊断信息,还合理地融合了多种基于不同数学原理的分类器的诊断结果。

既往对MVI预测的研究大多基于DCE-CT的单一(或两个)期相,尤其是门静脉期和动脉晚期,如韦武鹏等[34]使用门静脉期影像组学特征构建的LR预测模型,AUC达到了0.793;俞超等[35]利用动脉晚期影像组学特征构建的LR预测模型,AUC为0.778;瞿成名等[36]使用钆塞酸二钠增强MRI动脉期和肝胆期图像影像组学特征构建的LR预测模型,AUC为0.734;而Zhang等[18]使用了简单的特征拼接策略融合DCE-CT的EAP、LAP、PVP 和EP 四个期相的影像组学特征,发现使用单一PVP期相特征的模型性能却要优于使用多期相特征融合的模型。针对这一现象,本研究首先探讨了多个期相特征融合能否带来MVI预测性能的提升,不同于Zhang等[18]使用简单拼接的特征级融合方式,采用了决策级融合的方式融合多期相特征,实验中我们发现,将任意期相组合进行决策融合后至少在会一项性能指标上优于单一期相,大部分的组合在3项性能指标上均有所提升,少部分性能指标介于最优和最差的单一期相之间,并且多数评价指标的最高值出现在3个或者4个期相进行决策融合后,AUC最高达到了0.832,要优于上述研究中使用单一(或两个)期相特征所构建的模型。这些结果表明MVI的四期相DCE-CT中存在互相补充的诊断信息,只考虑单一期相并不能构建出一个性能优秀的预测模型。

在与单期相单分类器的预测性能比较实验中我们发现,不同期相中的最优基分类器与特征选择方法组合不尽相同,原理上最简单的KNN分类器能在第二期和第四期表现最优,且最优和最差分类器的性能之间存在一定的差距。这说明不同分类器的适用范围不同,然而大多数研究中[34-37]的MVI 预测模型只选用了逻辑回归。与本研究相似,李铭浩等[38]使用门静脉期影像组学特征构建了6 个基分类器模型,其中AUC 最低的为0.76,最高的为0.81,随后构建了基于6种集成模型的融合模型预测HCC患者的MVI,相比于使用单分类器,在验证集中将AUC从0.81提升到了0.89,但该研究只考虑了单一期相特征。Zhang等[18]利用多数投票法或权重融合法对分类器进行融合,结果表明这两种集成方法均能提升HCCMVI的预测性能,但基于ACC的权重融合法提升幅度大于最简单的多数投票法。针对这一发现,本文提出了一种基于多准则决策的权重分配算法,使用AUC、ACC、SEN和SPE四种评价指标计算融合权重。因此,使用合理的多分类器集成策略不仅能够规避选择最佳分类器的过程,还能够带来预测性能的提升。

在不同基分类器多样性的预测性能比较实验中,我们将参与融合的基分类器数目从1个依次增加至7个,参照表5所展示的结果设计本次实验,按照基分类器的性能降序排列,从最开始保留性能最好的KNN,到最后加入性能最差的DT,实验结果显示随着分类器的加入四项性能指标均呈现出升高的趋势;并且,在只使用一个分类器时相当于只在期相层面进行融合,此时性能并没有达到最高。此外,相比于李铭浩等[38]使用梯度提升决策树、随机森林等6种基于决策树的强分类器作为基分类器,本次实验使用了7种基于不同数学原理的弱分类器作为基分类器,即便他们的预测性能存在一定程度上的差距,但通过恰当的融合策略也能达到甚至优于大多数基于集成方法的强分类器的性能。这些结果说明了提高基分类器的多样性能够带来预测性能的提高,为了得到一个有效的集成模型,除了将尽可能准确的一些分类器组合起来,还应该让他们具有更高的多样性。值得注意的是,本次实验中这些基于不同数学理论的基分类器与不同的特征选择算法进行了组合,更进一步地增强了分类器之间的多样性。

与使用其他8种集成分类器的预测性能相比,本研究所提出的基于多分类器多期相分层融合策略的模型取得了更加优异的预测性能,而使用集成分类器对预测性能的提升有限:第一,这些集成分类器没有有效的多模态特征处理策略,使用简单的特征拼接策略串联四个期相的特征,出现特征数远大于样本数目的情况,多期相特征之间复杂的相关性、共线性等潜在联系没能够妥善处理,如何颖等[37]使用简单的特征拼接策略串联了动脉期、静脉期和延迟期的影像组学特征,构建了LR模型预测MVI,AUC仅达到了0.75;第二,这些集成分类器认为每个期相特征对模型的重要性是等同的,然而,研究表明存在某些期相特征对于MVI的预测会更加准确[14,17,18],因此,同等重要性这一假设并不合理,所以需要一个合理的权重分配策略去突出对预测结果贡献更大的期相特征同时弱化那些贡献相对要小的期相特征;第三,这些集成分类器大多只基于决策树这一分类器构建,本研究所提出的模型基于七种不同的分类器进行构建,有研究表明[22],基分类器多样性的提高能够带来预测性能的提升。

虽然本研究所提出的模型在HCC患者的MVI预测方面展现出了不错的潜力,但是也存在着一些局限性。首先,在基于多准则决策的权重分配算法中所使用的评价指标只考虑了4种最常用指标:AUC、ACC、SEN和SPE,但其他评价指标,例如:阳性预测值、阴性预测值、约登指数以及F1-Score等对于HCC患者的MVI预测这个具体分类任务来说其重要性仍需要作进一步的探究;第二,针对不同的临床任务在权重分配的过程中引入更多的评价指标、使用不同的性能指标组合或者只考虑这一任务在实际临床上更加关注的指标等策略能否进一步提高预测性能仍需要继续验证;第三,本文所提出的权重分配算法认为所有评价指标具有等同的重要程度,即认为4种指标对于预测HCC的MVI同等重要;第四,在基于多准则决策的权重分配算法中使用的SEN和SPE两种指标只适用于二分类问题,针对多分类问题需要引入其他评价指标,例如:马修斯相关系数;最后,本次研究所纳入的样本量较小,可能存在选择偏倚的问题,后续还需要更多的数据来进一步训练和完善本研究所提出的模型。

综上所述,本研究创新性地提出了一种基于多准则决策的权重分配算法来实现多期相特征和多分类器的融合,并基于此算法构建了基于多期DCE-CT影像组学特征和多分类器分层融合模型用于预测HCC患者的MVI,与其他模型相比,该模型能更加精准地预测HCC的MVI,在未来有望用于辅助临床医生进行医学影像诊断,以提升医生的诊断水平。

猜你喜欢
特征选择组学分类器
口腔代谢组学研究
BP-GA光照分类器在车道线识别中的应用
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
Kmeans 应用与特征选择
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
联合互信息水下目标特征选择算法
代谢组学在多囊卵巢综合征中的应用
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
基于特征选择和RRVPMCD的滚动轴承故障诊断方法