血清标记物检测结合智能算法在胃癌诊断中的应用*

2016-04-19 07:21张萍萍张建华尹咪咪
郑州大学学报(医学版) 2016年2期
关键词:支持向量机胃癌

张萍萍,张建华,尹咪咪

郑州大学电气工程学院 郑州 450001



血清标记物检测结合智能算法在胃癌诊断中的应用*

张萍萍,张建华#,尹咪咪

郑州大学电气工程学院 郑州 450001

关键词胃癌;血清标记物;ROC曲线;BP算法;支持向量机

摘要目的:基于智能算法建立胃癌的辅助诊断模型。方法:以经病理学确诊的156例胃癌患者为胃癌组,以150例消化道良性病变患者和健康体检者为对照组,检测其血清中11种标记物的含量,通过比较ROC曲线下面积筛选出9种血清标记物,分别应用BP算法和支持向量机算法建立胃癌的数学辅助诊断模型,并通过40例测试集评价其效果。结果:成功建立了2种不同的胃癌辅助诊断模型,其中BP算法建立的诊断模型诊断准确率、敏感性、特异性分别为82%、85%、80%,支持向量机诊断模型的诊断准确率、敏感性、特异性分别为90%、95%、85%。结论:支持向量机诊断模型的诊断准确率、敏感性及特异性相对较高,对胃癌的早期预测及诊断有重要的参考价值。

Application of serum markers combined detection with intelligence algorithm in diagnosis of gastric cancer

ZHANGPingping,ZHANGJianhua,YINMimi

SchoolofElectricalEngineering,ZhengzhouUniversity,Zhengzhou450001

Key wordsgastric cancer;serum marker;ROC curve;BP algorithm;support vector machine

AbstractAim: To establish an assistant diagnostic model of gastric cancer on the basis of intelligence algorithm and evaluate its efficiency. Methods: A total of 156 gastric cancer patients confirmed by pathology were enrolled as case group, other 150 patients with benign digestive disease or the healthy individuals were treat as control group. The level of eleven serum markers were tested, respectively, and nine of them were selected according to their area under the ROC curves.Then the mathematical assistant diagnostic models which based on the BP algorithm and support vector machine were established, meanwhile, forty test sets were run to evaluate their efficiency. Results: Two kinds of different assistant diagnostic models of gastric cancer were established, among which the accuracy, sensitivity and specificity of the model based on BP algorithm were 82%, 85%, 80%, respectively, and those of the model based on support vector machine were 90%, 95%, 85%. Conclusion: The model on the basis of support vector machine has a relatively high accuracy, sensitivity and specificity, which means that has vital reference value to the early stage prediction and diagnosis of gastric cancer.

胃癌的病死率和发病率位居全球恶性肿瘤前列,严重威胁人们的健康[1]。胃镜及病理学检查是胃癌诊断的金标准,但其属于有创检查,不能大规模应用。近年来,血清标记物检测作为一种无创检查,在临床应用上飞速发展,已被广泛应用于胃癌、肝癌、肺癌等的诊断。由于单一标记物诊断敏感性、特异性较低,临床上常检测多种血清标记物来进行诊断分析[2-3]。但是,检测的标记物越多,费用越高,如何选取最优检测组合,节省人力、物力、财力并取得最优结果,是一个迫切需要解决的问题。作者分别采用BP算法和支持向量机建立胃癌辅助诊断模型,比较模型的优劣,从而为肿瘤普查及临床医生提供一个方便的工具。

1对象与方法

1.1研究对象156例胃癌患者血清均取自2013年6月至2015年1月在郑州市中心医院住院的患者,均经手术治疗,并经病理学检查确诊;其中男98例,女58例,年龄32~75(49.7±9.8)岁。对照组血清取自同期来医院体检的56例消化道良性病变患者和94例健康体检者,其中男79例,女71例,年龄30~70(45.6±8.5)岁;均经胃肠镜、胸片、腹部B超等检查排除其他部位肿瘤。

1.2取样与血清标记物测定方法胃癌组患者均在术前3 d内取清晨空腹肘静脉血5 mL,对照组于同期空腹抽取静脉血5 mL,3 000 r/min 离心20 min,取上清液,于-20 ℃冰箱保存。

应用ELISA法测定血清AFP、NSE、CYFRA211、TSGF和CA724的水平,所用仪器为BIORAD 550型酶标仪(美国),试剂盒购自R&D Systems公司。血清CEA、CA242、CA125、CA153和CA199水平测定采用全自动电化学发光免疫分析法,仪器为瑞士罗氏公司的E170分析仪,试剂盒为其配套的试剂盒。血清CRP水平测定采用免疫透射比浊法,仪器为贝克曼库尔特AU5800全自动生化仪。操作步骤均严格按照说明书进行。

1.3统计学处理采用SPSS 19.0进行数据分析,2组间血清CEA、AFP、CA242、CA125、CA153、CA199、NSE、CYFRA211、CA724、TSGF、CRP水平的比较均采用两独立样本的t检验。之后采用MedCalc绘制ROC曲线,计算曲线下面积(area under curve,AUC)以评价各血清标记物与胃癌的相关性,从而筛选出相关性高的血清标记物以进行下一步工作。检验水准α=0.05。

1.4BP神经网络对筛选出来的血清标记物运用BP算法建立胃癌的数学诊断模型,将结果分为对照组和胃癌组,分别为0和1,随后将每个类别分为2组,重新组合数据,一组作为训练集,包括136例胃癌患者和130例消化道良性病变患者及健康体检者,另一组作为测试集,包括剩余的20例胃癌患者和20例消化道良性病变患者及健康体检者。利用MATLAB建立一个单隐层的3层BP网络模型,在训练过程中设置以下几个参数:输入层函数、输出层函数、训练函数。该研究采用的输入层到隐层转换函数为tansig;隐层到输出层参考转换函数为logsig或purelin;该研究拟采用的训练函数为trainrp和trainoss 2种。此外,该模型共有9个输入参数,故输入层节点为9。网络输出层节点数为1。因1个隐层完全可以实现任意判决分类问题,所以该研究选用1个隐层;由于目前尚未形成普遍适用的确定隐层节点数的理论,且一般认为隐层节点数大小在输入层节点数和输出层节点数之间,因此在模型训练中通过预试验进行试凑进而确定其数目,最终发现设置隐层节点为4时可以达到较好的效果。训练次数阈值为1 000,精确度为0.001。在BP网络训练时,使用不同的参数组合会达到不同的效果,该研究分别将输入层函数、输出层函数及训练函数的几个参数进行了交叉组合,采用各种组合对训练样本进行训练并得出效果最好的组合。

1.5支持向量机同时对筛选出来的血清标记物运用支持向量机算法建立胃癌的分类模型,同BP网络模型的建立过程一样,结果为对照组和胃癌组,分别为0和1,训练集为选取的136例胃癌患者和130例消化道良性病变患者及健康体检者,测试集为剩余的20例胃癌患者和20例消化道良性病变患者及健康体检者。以血清标记物特征向量作为输入向量,以结果分类为输出向量,利用支持向量机分类器建立分类模型。

2结果

2.12组血清标记物水平测定结果见表1。

表1 2组血清标记物水平比较

2.2各血清标记物的ROC曲线分析结果见图1、 2和表2。从表2可以看出,AFP与NSE的AUC最低,均小于0.7,因此选用其余9种AUC较高的血清标记物作为进一步工作的输入变量。

图1 各血清标记物的ROC曲线(1)

图2 各血清标记物的ROC曲线(2)

血清标记物CEAAFPCA242CA125CA153CA199NSECYFRA211CA724TSGFCRPAUC0.8490.6980.9180.8690.9020.8780.6420.7760.8650.9060.90695%CI0.798~0.8920.636~0.7550.877~0.9500.820~0.9090.857~0.9360.831~0.9170.578~0.7020.719~0.8270.816~0.9060.862~0.9400.862~0.940

2.3BP算法模型最终选定的参数组合为:输入层激励函数为tansig、输出层激励函数为purelin、训练函数为trainrp,隐层节点数为4,误差阈值为0.001,训练次数阈值为1 000,输出结果以0.5为阈值,输出值>0.5的模型识别为胃癌患者,输出值≤0.5的模型识别为健康人或消化道良性病变患者。仿真结果见图3。

2.4支持向量机模型将40例测试样本输入到支持向量机模型进行训练及仿真,仿真结果见图4。可以看出,支持向量机模型仿真测试结果和实际病理结果拟合程度较高,效果较理想。

○:实际结果输出;*:BP算法模型的仿真输出。图3 BP算法模型仿真测试结果

○:实际结果输出;*:支持向量机模型的仿真输出。图4 支持向量机模型仿真测试结果

2.52种模型的诊断效果比较BP算法对测试集的诊断准确率为82%,敏感性为85%,特异性为80%;而支持向量机的诊断准确率则为90%,敏感性为95%,特异性为85%。可知,支持向量机的诊断敏感性及特异性均高于BP算法。

3讨论

胃癌病死率较高,早期发现和早期治疗是降低胃癌病死率最有效的手段之一[4-5]。血清标记物检测为早期发现肿瘤并判断其良恶性提供了一种很好的辅助手段,目前已在临床得到广泛应用。其中,常用的标记物有CA199、CA724以及CEA等[6],但单项指标存在特异性低、准确率低等问题,因此常采用多种标记物联合检测以提高其诊断准确率。

CA242是一种唾液酸化的鞘糖脂抗原,有研究[7]表明胃癌患者血清CA242水平明显升高,与该研究结果一致,可作为判断胃癌的一种血清学指标。CYFRA211常作为诊断非小细胞肺癌的肿瘤标记物,该研究中发现胃癌患者血清CYFRA211水平较对照组显著升高,具有一定的临床研究价值。CRP作为一种急性时相反应蛋白,在正常情况下含量极少,但感染、炎症以及肿瘤患者的水平急剧升高,高水平的CRP往往预示着肿瘤的转移扩散[8]。TSGF能刺激细胞分泌促血管生成因子,促进胃恶性肿瘤血管的生成,具有鉴别癌与非癌的能力[9]。CA125与CA153作为常用的肿瘤标记物,在癌症患者体内的水平较正常人显著升高。该研究通过ROC曲线筛选出9种标记物(CEA、CA242、CA125、CA153、CA199、CYFRA211、CA724、TSGF、CRP)。

BP算法是一种非线性模式分类器,具有一定的泛化能力,对于未学习的样本具有很好的分类能力。但BP算法需要人为设置大量的网络训练参数,并且很容易产生局部最优解[10],而且网络隐层的层数和节点数的选择尚无理论上的指导,一般是根据经验或者通过反复试验确定,因此,网络往往存在大量的冗余性,在一定程度上也增加了网络学习的负担。支持向量机在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在很大程度上克服了“维数灾难”和“过学习”等问题[11]。支持向量机是机器学习中较为先进的学习方法,但在结合血清标记物进行癌症诊断方面的应用还很少。

BP算法和支持向量机均属于人工神经网络范畴,是几年来迅速发展的交叉学科,由于其强大的功能,已被广泛应用于信号处理、模式识别等方面,在肿瘤的识别上也得到了越来越多的肯定[12-13]。该研究筛选出的9种血清标记物是目前判别胃部肿瘤良、恶性以及预测胃癌发生最常见的指标,是目前临床医生诊断的主要依据。该研究以9种血清标记物为基础,通过对基于BP神经网络和支持向量机建立的2种诊断模型进行比较分析,结果表明基于支持向量机建立的诊断模型的诊断准确率达到90%,敏感性及特异性分别为95%、85%,均高于基于BP神经网络建立的诊断模型,更适用于临床。

支持向量机作为一种辅助诊断工具,属于计算机辅助诊断的范畴,尚不能完全代替临床医师的诊断[14-15],但在胃癌的预测诊断方面具有重要的意义。

参考文献

[1]BERTAZZA L,MOCELLIN S,MARCHET A,et al.Survivin gene levels in the peripheral blood of patients with gastric cancer independently predict survival[J].J Transl Med,2009,7:111

[2]王洋,王欢,莫佳美,等.血清肿瘤标志物在胃癌诊断中的价值[J].现代肿瘤医学,2014,22(4):883

[3]冯志军,彭玉林,张婕.血清肿瘤标记物联合检测在胃癌诊断中的应用价值[J].医药论坛杂志,2011,32(23):98

[4]景晓刚,王贵吉,裴迎新,等.胃癌患者血脂、脂蛋白、血清CEA及CA199检测[J].郑州大学学报(医学版),2011,46(3):432

[5]沈洁,冯常炜,郝炳章,等.血清中miR-21和let-7a在胃癌无创性诊断及手术效果评定中的作用[J].郑州大学学报(医学版),2012,47(5):722

[6]王俊峰,冯常炜,蒋爽.多项肿瘤标记物联合检测对胃癌的诊断价值[J].中国卫生产业,2013,9(26):116

[7]韩娟,高纯,任传路.联合检测血清中肿瘤标记物对胃癌的诊断价值[J].医药前沿,2012,2(2):222

[8]王彩玲,王俊生.血清C反应蛋白测定在晚期胃癌患者中的临床意义分析[J].中国实用医药,2014,4(11):31

[9]郑加荣,张敏,徐日,等.肿瘤标记物联合动态监测在胃癌诊断和监控治疗中的临床应用[J].中华临床医师杂志:电子版,2015,3(3):382

[10]BURDEN F,WINKLER D.Bayesian regularization of neural networks[J].Methods Mol Biol,2008,458:25

[11]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):1

[12]LEBRECHT A,BOEHM D,SCHMIDT M,et al.Surface-enhanced laser desorption/ionisation time-of-flight mass spectrometry to detect breast cancer markers in tears and serum[J].Cancer Genomics Proteomics,2009,6(2):75

[13]CARON J,MANGÉ A,GUILLOT B,et al.Highly sensitive detection of melanoma based on serum proteomic profiling[J].J Cancer Res Clin Oncol,2009,135(9):1257

[14]HARDERS SW.LUCIS:lung cancer imaging studies[J].Dan Med J,2012,59(11):B4542

[15]ELLIS MC,HESSMAN CJ,WEERASINGHE R,et al.Comparison of pulmonary nodule detection rates between preoperative CT imaging and intraoperative lung palpation[J].Am J Surg,2011,201(5):619

中图分类号R735.2

#通信作者,男,1971年9月生,副教授,博士,研究方向:生物医学信息的采集、分析及处理,E-mail:petermails@163.com

doi:10.13705/j.issn.1671-6825.2016.02.015

*国家自然科学基金青年基金资助项目813D3150;中国中医药行业科研专项基金资助项目201007001

猜你喜欢
支持向量机胃癌
碘-125粒子调控微小RNA-193b-5p抑制胃癌的增殖和侵袭
青年胃癌的临床特征
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
内镜黏膜下剥离术在早期胃癌诊疗中的应用
胃癌组织中LKB1和VEGF-C的表达及其意义