基于多序列MRI与多体系影像组学模型预测子宫颈癌淋巴结转移的研究

2021-08-04 01:56董诗洁胡晓欣顾雅佳

中国癌症杂志 2021年6期

董诗洁，胡晓欣，王葳，杨孟，岳磊，童彤，顾雅佳

复旦大学附属肿瘤医院放射诊断科，复旦大学上海医学院肿瘤学系，上海200032

子宫颈癌是妇科常见的三大恶性肿瘤之一。以往子宫颈癌高发年龄在50～55岁，目前，子宫颈癌患者已经呈现年轻化的趋势，高发年龄已降到40～45岁。子宫颈癌病因主要与人乳头瘤病毒（human papillomavirus，HPV）感染有关，早婚、早产和免疫力低下等普通人群都容易发生感染而患上子宫颈癌［1～2］。

早期子宫颈癌患者的常见症状为性接触出血，经期延长和经量增多，出现不规则的阴道出血，而一些内生型、颈管型的子宫颈癌患者直到中晚期也可能未出现明显症状。晚期子宫颈癌患者会出现尿急、尿频和邻近组织受累等表现，预后不良，并且影响着放疗野的范围。目前子宫颈癌的治疗方案主要是基于国际妇产科联盟（International Federation of Gynecology and Obstetrics，FIGO）制定的2018年子宫颈癌分期系统［3］。在2018年子宫颈癌FIGO分期系统中，首次将淋巴结转移纳入了FIGO分期系统的ⅢC期，其中盆腔淋巴结转移为ⅢC1期，主动脉淋巴结转移为ⅢC2期。若子宫颈癌患者诊断为淋巴结转移，则放化疗为首选的治疗方式，目前比较权威的是美国国立综合癌症网络（National Comprehensive Cancer Network，NCCN）指南，推荐使用CT、MRI或者PET/CT来评估子宫颈癌淋巴结转移，其中PET/CT的准确率可达75%，但是费用较高［4］。CT和MRI是目前比较常规的评估手段，但是判断淋巴结假阳性率为24%，对于小于1 cm的转移淋巴结假阳性率更是达到60%［5］。

传统的影像学诊断主要是根据形态学来进行形态特征分析，评估子宫颈癌病变，缺乏准确的组织病理学信息和分化程度的判断。针对淋巴结转移的诊断标准，通常是以淋巴结直径大小来判别是否发生转移。但是这种标准会导致特异度高和灵敏度低。随着科学技术的不断进步，人工智能和大数据分析已经成为各个领域的热点［6］。在医学影像领域，影像组学技术可通过提取医学图像中大量的特征数据信息，经过数据处理和建模后，可对子宫颈癌淋巴结转移与否进行预测分析，可为子宫颈癌的诊断提供更多的信息［7］。本文研究利用影像组学分析来确定子宫颈癌患者是否发生淋巴结转移。

1 资料和方法

1.1 研究对象

回顾性分析2015年6月—2019年9月在复旦大学附属肿瘤医院经术后病理学检查证实的子宫颈癌非淋巴结转移患者和子宫颈癌淋巴结转移患者共202例的临床资料，每例患者都符合2018年FIGO公布的最新子宫颈癌分期系统标准，子宫颈癌非淋巴结转移患者为ⅠA2～ⅡB期，子宫颈癌淋巴结转移患者为ⅢC期。所有患者在治疗前都经过MRI检查和后期进行了盆腔淋巴结清扫手术，并获得病理学检查结果，一共排除20例患者。排除标准：①术前进行过放疗或化疗。② 患有其他恶性肿瘤。③病灶过小，无法进行准确勾画，导致无法正常进行影像组学特征的提取。经过复旦大学附属肿瘤医院伦理委员会批准，并得到患者知情同意。

将符合标准的182例患者按照7∶3的比例随机分成2组。131例患者被分到训练集，51例患者被随机分到验证集。根据病理学检查结果，训练集包括72例淋巴转移患者和59无例淋巴结转移患者。

1.2 MRI扫描方法

所有患者都经过术前MRI检查。本文使用3.0T GE磁共振扫描仪（GE HD 3T），使用4通道相控阵线圈。①T2WI序列扫描方案：横断位和矢状位（TE/TR，82.9 ms/3336 ms），视野FOV 288 mm×288 mm，层厚4 mm，层间0.5 mm。采用快速自旋回波FSE序列进行扫描。② T1C+序列增强扫描方案：横断位和矢状位（TR/TE，4.5 ms/7.5 ms），视野FOV 390 mm×312 mm，层厚4 mm，层间1 mm，采用LAVA序列动态增强扫描。MRI增强对比剂采用Gd-DTPA，剂量为0.2 mmol/kg，采用高压注射器经手背静脉注入，流率为2.5 mL/s，其后以同样流率注入15 mL 0.9%NaCl溶液冲洗管内残留的Gd-DTPA。

1.3 图像采集与勾画分割

使用美国GE公司PACS中存档的常规矢状位和横断位T2WI序列图像、矢状位和横断位T1C+序列图像，将这些图像导出，格式为DICOM。由于影像组学的分析是以病灶的图像为本体，所以子宫颈癌病变区域的精准分割非常重要［8］。本文的ROI分割图像分别由具有15年资质的放射科医师手动分割，使用的分割软件为ITKSNAP，并且以nⅡ格式输出三维ROI图像。进行ROI勾画时需要注意：①勾画时应注意病灶的大小、形态和边缘等，尽量勾画肿瘤区域侵犯的边界。② 只勾画子宫颈肿瘤所侵犯的范围，不勾画子宫体、阴道、直肠等受累区域。③子宫颈癌病灶中若出现坏死和囊变等，ROI勾画时也要避免这些区域。④ 勾画ROI时要尽量避开子宫颈癌内的黏液。

1.4 医学影像组学特征提取

图1 女性患者，子宫颈鳞状细胞癌ⅡB级 Fig.1 Female patients with cervical squamous cell carcinoma of the level type ⅡB

采用Pyradiomics分别从10种图像类型和6种不同特征体系来提取每例患者的影像组学特征［9］。其中10种图像类型分别为：①原始图像类型；② 小波变换滤波器类型；③高斯-拉普拉斯滤波器类型；④ 平方滤波器类型；⑤ 平方根滤波器类型；⑥ 对数滤波器类型；⑦ 指数滤波器类型；⑧ 梯度滤波器类型；⑨ 二维局部二值模式类型；⑩ 三维局部二值模式类型。6种特征体系分别为一阶特征体系、形状特征体系、灰度共生矩阵特征体系、灰度区域大小矩阵特征体系、灰度行程矩阵特征体系和灰度相关矩阵特征体系［10］。对T2WI和T1C+序列而言，一阶特征体系提取324个特征，形状特征体系提取240个特征，灰度共生矩阵特征体系提取432个特征，灰度区域大小矩阵特征体系提取320个特征，灰度行程矩阵特征体系提取253个特征，灰度相关矩阵特征体系提取264个特征，邻域灰度差矩阵提取90个特征。对T2WI-T1C+联合序列而言，提取特征数为T2WI和T1C+序列的总和。

1.5 统计学处理

1.5.1 临床特征

在单变量分析中，Mann-WhitneyU检验用于连续变量的检验，卡方检验用于分类变量的检验，以检验临床特征和潜在预后结果的表现。获得知情同意后，从患者临床记录中获取临床资料。本文所有患者的临床特征包括年龄、妊娠次数、分娩次数、流产次数、首次性交年龄、月经状态、癌症家族史。

1.5.2 数据预处理和特征筛选

从T2WI序列、T1C+序列和两者联合序列提取的医学影像组学特征［11］，特征筛选步骤为：⑴ 去除掉数据中的无效数据，如文本信息、无效数字和空数据等，其中T2WI序列和T1C+序列去除无效数据后，分别提取了1831个特征，联合序列一共提取3659个特征。⑵ 去除无效数据后，再将数据分为训练集和测试集。⑶ 采用随机上采样、随机下采样和SMOTH方法来实现训练集的数据平衡，避免数据集中的样本比例不平衡。⑷ 数据归一化。方法包括：①Normalize to unit；② Normalize to 0-center；③Normalize to unit with 0-center。⑸ 特征选择：①多变量方差分析法（analysis of variance，ANOVA）；② 递归特征消除法（recursive feature elimination，RFE）；③Relief算法。⑹ 数据降维：使用皮尔森相关系数（Pearson correlation coefficient，PCC）降维方法，通过遍历所有影像组学特征，两两计算皮尔森相关系数，当系数大于阈值0.86时，随机去除其中一个，使得降维后的特征不具有高相似度。⑺ 分类方法：支持向量机（support vector machine，SVM）分类算法。⑻ 交叉验证：对训练数据进行拆分，分为训练集和验证集，本文选取的是五折交叉验证（5-folder）法。

1.5.3 模型比较与评估

本研究建立的3个影像组学模型分别为T2WI序列影像组学模型、T1C+序列影像组学模型和T2WI+T1C影像组学模型。所有模型采用AUC值、95% CI下AUC值、准确率、真阳性和假阳性来评估各自模型的性能，并显示不同特征的特征贡献度。

2 结果

2.1 临床资料

根据病理学检查结果将患者分成淋巴结转移组和非淋巴结转移组。在训练集和验证集中，将淋巴结转移组和非淋巴结转移组进行单变量分析，结果显示，差异均无统计学意义（P＞0.05，表1）。

表1 训练集及验证集患者的临床特征Tab.1 Clinical characteristics of patients in the training set and test set

2.2 影像组学特征聚类分析

建立模型之前，我们选取一小部分数据，其中2例子宫颈癌淋巴结转移女性患者，2例子宫颈癌非淋巴结转移女性患者和3位正常子宫颈女性。对未经过任何滤波器处理的影像组学特征值进行可视化处理，可发现各个特征之间的相关性，并且都被分到各自的一组中［12］。使用聚类和降维分析可初步观察影像组学特征，判断子宫颈癌淋巴转移的效能，结果发现，分类效果显著（图2）。

图2 影像组学特征聚类分析图 Fig.2 Radiomic image feature cluster analysis diagram

2.3 模型建立与比较

经过数据预处理和特征筛选后，在AUC和特征数的比较上，通过生成AUC值得方差，利用minimum criteria和standard error of the minimum criteria选择最优特征数，即在最高AUC值下一个标准差范围内，选择最小特征数［13］。

黑点代表当各自模型的最适合的特征个数。T2WI-T1C+联合序列模型选取这16个特征时，为最适合的特征个数，这些特征将使T2WI-T1C+联合序列模型训练线性SVM模型具有最高的AUC值。综合比较，可见采用的图像序列不同，利用影像组学方法建立的模型的预测性能也不同，基于T2WI-T1C+联合序列建立的SVM算法模型较T2WI序列建立的SVM算法模型和T1C+序列建立SVM算法模型而言，其AUC、灵敏度和特异度整体较高，模型性能也较佳（图3）。

图3 3个模型最佳特征数Fig.3 The best number of features for three models

T2WI序列模型提取了14个影像组学特征（图4），T1C+序列模型提取了16个影像组学特征（图5），T2WI-T1C+联合序列模型提取了16个影像组学特征（图6）。对各个模型的特征系数的权重取其绝对值，可以更加直观地反映排名情况。在各自序列的采用受试者工作特征（receiver operating characteristic，ROC）曲线中，T1C+序列模型的16个影像组学特征训练集AUC=0.819，测试集AUC=0.781（图7、表2）。T2WI序列模型的14个影像组学特征训练集AUC=0.810，测试集AUC=0.773。T2WI-T1C+联合序列模型提取的这16个特征用于训练线性SVM模型，具有最高的训练集AUC=0.841，测试集AUC值=0.803。在各个特征前添加了T2序列前缀T2WI和T1C+序列前缀T1C+。T2WI-T1C+联合序列模型提取的T2序列影像组学特征8个，分别为T2WI_LBP-3D_firstorder_RootMeanSquared、T2WI_Wavelet-LLH_firstorder_Skewness、T2WI_LBD-3D_glszm_LargeDependenceEmphasis、T2WI_Exponential_glszm_SizeZoneNonUniformity、T2WI_Wavelet-HHH_glszm_SmallAreaLowGrayLevelEmphasis、T2WI_Wavelet-HLH_firstorder_AbsoluteDeviation、T2WI_Log-sigma-5-0-mm-3D_firstorder_Kurtosis、T2WI_Log-sigma-3-0-mm-3D_glcm_Informal Measure of Correlation 2。在T1C+序列中提取的影像特征有8个，分别为T1C+_LBP-3D_glcm_ClusterTendency,T1C+_Exponential_glcm_DifferenceEntropy、T1C+_Wavelet-HHH_glcm_Difference Average、T1C+_Wavelet-HLH_glcm_ClusterProminence、T1C+_wavelet-LHH_firstorder_Kurtosis、T1C+_Exponential_firstorder_RobustMean、T1C+_Logsigma-3-0-mm-3D_gldm_DependenceVariance、T1C+_Wavelet-LHL_glcm_Average Intensity。

图4 T2WI模型特征系数权重Fig.4 Weight feature coefficients of the T2WI model

图5 T1C+模型特征系数权重Fig.5 Weight feature coefficients of the T1C+model

图6 T2WI-T1C+模型特征系数权重Fig.6 Weight feature coefficients of the T2WI-T1C+model

图7 3个模型的训练集和验证集ROC曲线 Fig.7 ROC curves of training set and verification set of the three models

表2 各组模型比较Tab.2 The comparison of each model group

3 讨论

本研究建立了一种术前个体化预测子宫颈癌淋巴结转移的T2WI序列模型、T1C+序列模型和T2WI-T1C+联合序列模型。在SVM算法模型下，利用minimum criteria和standard error of the minimum criteria选择最优特征数，在最高AUC值下的标准差范围内，T2WI序列模型提取了14个特征，T1C+序列模型提取了16个特征，T2WIT1C+联合序列模型提取了16个特征。在3个模型中，T2WI-T1C+联合序列模型预测淋巴结转移的训练集和验证集的准确率最高，分别为0.831和0.785，可作为无创的影像标志物辅助临床医师进行子宫颈癌淋巴结转移的预测。

对于T2WI序列模型，T2WI序列与水的含量关系密切，对水的灵敏度较高，也能反映肿瘤坏死囊变的信息［14］。提取的14个特征中，提取的一阶统计特征体系特征有7个，一阶统计特征体系与淋巴结转移的权重总系数为8.0897。纹理特征体系提取了7个特征，其中灰度区域大小矩阵体系提取了5个，与淋巴结转移的权重总系数为4.3602。灰度共生矩阵特征体系提取了2个，与淋巴结转移的权重总系数为1.5641。T2WI序列以一阶统计特征体系为主，权重总系数要大于纹理特征体系。

对于T1C+序列模型而言，与T2WI序列模型相比，AUC较高的原因可能是加入了对比剂后，肿瘤区域的异质性相关的信息更为丰富，包括囊变、坏死和钙化等，而且T1C+序列主要反映的是组织中新生血管的通透性，肿瘤级别越高，相对应的新生血管就越多，增加了血管的通透性，加重了增强程度，组织的坏死囊变显示更清晰［15］。提取的16个特征中，一阶统计特征体系特征有7个，一阶统计特征体系与淋巴结转移的权重总系数为6.5657。纹理特征体系提取了9个特征，灰度级共生矩阵体系提取了7个，与淋巴结转移的权重总系数为7.061。灰度区域大小矩阵体系提取了2个特征，与淋巴结转移的权重总系数为0.8902。T1C+序列以纹理特征体系为主，权重总系数大于一阶统计特征体系，说明增强后纹理特征更加显著。一阶统计特征体系提取的特征可能反映肿瘤坏死囊变的信息。T1C+模型中灰度共生矩阵特征体系提取的特征权重排名第一，而在T2WI序列模型中，无灰度共生矩阵体系特征，说明灰度共生矩阵体系特征可能反映新生血管的通透性。

T2WI-T1C+联合序列模型的一阶统计特征和纹理特征对子宫颈癌淋巴结转移的分类预测具有较大的价值。在提取的16个特征中，一阶统计特征有6个，其淋巴结转移权重总系数为8.1938。纹理特征体系提取了10个特征，灰度级共生矩阵提取了6个，灰度相关矩阵特征体系与淋巴结转移权重总系数为8.3413。灰度区域大小矩阵体系提取了3个，灰度区域大小矩阵体系与淋巴结转移权重总系数为3.1471。灰度区域大小矩阵体系提取了1个，灰度区域大小矩阵体系与淋巴结转移权重总系数为1.0433。在T2WI-T1C+联合序列模型中，一个特征来自于T2WI序列模型，两个特征来自于T1C+序列模型，其中LBP-3D_firstorder_RootMeanSquared特征在T2WI序列模型提取的特征中排名位居第2，在T2WI-T1C+联合序列模型提取特征中位居第1。T1C+模型的T1C+_Exponential_glcm_DifferenceEntropy、T1C+_LBP-3D_glcm_ClusterTendency特征排名分别为第2位和第3位，在T2WI-T1C+联合序列模型提取特征中排到第6位和第2位。T2WI_LBP-3D_firstorder_RootMeanSquare、T1C+_LBP-3D_glcm_ClusterTendency、T1C+_Exponential_glcm_DifferenceEntropy可能是子宫颈癌淋巴结转移预测的重要参数。LBP-3D_firstorder_RootMeanSquared特征和LBP-3D_glcm_ClusterTendency特征是三维局部二值模式滤波类型的一阶特征体系提取的均方根和聚类趋势，Exponential_glcm_DifferenceEntropy是指数滤波类型提取的差异信息熵［16］。对于T2WI-T1C+联合序列模型，其预测子宫颈癌淋巴结转移的AUC和准确率是最高的，说明多序列建立的影像组学模型有助于子宫颈癌淋巴结转移的判断，主要原因可能是多序列模型可以进行互相补充图像信息，进而可以更加全面、客观地反映肿瘤的异质性［16］。

Kan等［17］基于143例子宫颈癌患者的MRI图像，利用T2WI和DCE序列纹理特征去区分淋巴结是否转移，提取出970个放射组学特征及7个临床特征，并且在训练集中使用最小冗余最大相关方法（minimum redundancy maximum relevance，MRMR）排序特征，进而将排名前10位的放射组学特征用于训练线性SVM模型。其中放射组学特征区分淋巴结是否转移在试验组AUC为0.753，在验证组中AUC为0.754，特征主要包括灰度共生矩阵特征和灰度区域大小矩阵特征。本文除了特征提取方法与特征排序方法不同外，建立的算法模型也是SVM模型。其中本文T2WI-T1C+联合序列模型提取的特征数为3846个，T2WI-T1C+联合序列模型的试验组AUC与验证组AUC都要高，分别为0.841和0.803。由此可见，提取特征类型和数目越多，可能在一定程度上提升模型区分淋巴结是否转移的准确率。

本文研究局限在于：①本研究属于单中心研究，样本量不多。② 本文属于回顾性研究，当时的常规盆腔MRI未加入弥散序列，故我们只提取了T2WI和T1C+序列的特征。后续还可以结合更多序列特征［如弥散序列（apparent diffusion coefficient，ADC）］，可能会提取更多有价值的特征。③作为回顾性研究，在患者选择上可能存在一定偏倚。

本研究采用不同的图像序列，利用影像组学方法建立的模型预测性能也是不同的。在我们建立的3个序列模型中，T2WI-T1C+联合序列模型预测子宫颈癌淋巴结转移的效能最优，所提取的MRI影像组学特征参数对辅助临床医师进行子宫颈癌淋巴结判断具有一定的预测价值。