用人工神经网络建立缺血性脑卒中复发的预测模型*

2013-09-07 09:02耿德勤黄水平

中国卫生统计 2013年5期

谭英耿德勤黄水平△

谭英1耿德勤2黄水平1△

目的利用BP人工神经网络和多因素logistic回归建立缺血性脑卒中患者复发的预测模型，为临床医生提供一种简单、高效、准确的评估缺血性脑卒中患者是否复发的方法。方法应用logistic回归模型对资料进行单因素筛选，将筛选出有统计学意义的指标进行BP神经网络和多因素logistic回归分析，建立缺血性脑卒中患者复发的预测模型，并对两个模型进行比较。结果应用BP神经网络和logistic回归模型建模，对测试集样本预测，BP神经网络和logistic回归模型预测正确率分别为84.6%和81.7%，ROC曲线下面积分别为0.787和0.729，说明BP神经网络模型预测性能优于logistic回归模型。结论人工神经网络模型预测效果优于logistic回归模型。

BP神经网络 Logistic回归预测模型

*:本课题是徐州市社会发展科技计划项目(XF10C063)

1.徐州医学院公共卫生学院(221002)

2.徐州医学院附属二院

△通信作者:黄水平，E-mail:hsp@xzmc.edu.cn

近年来，缺血性脑卒中复发的研究已经逐渐成为医学界的热点。随着医疗技术的发展和人口老龄化的日益加剧，缺血性脑卒中的病死率呈下降趋势，但复发率却有所上升〔1〕。刘东等〔2〕对北京地区复发性脑卒中事件发病变化趋势研究表明，从1984年的48.30/10万上升到2000年的122.29/10万，复发率上升了153%，年平均增长7.6%，给社会和家庭带来沉重负担。由于传统的统计学方法对数据要求较高，要求数据满足给定条件方可拟合。故本研究采用人工神经网络的方法，建立缺血性脑卒中复发的预测模型，可以用于筛查缺血性脑卒中患者复发的高危人群，为更快更好的确定治疗方案和降低缺血性脑卒中的复发提供理论依据。

对象和方法

1.研究对象

选择2008－2009年在徐州医学院附属医院神经内科病房住院的缺血性脑卒中患者474例，根据严格的诊断、纳入及排除标准选择合适的病例进入本研究，进行回顾性随访调查。根据与回顾性研究相同的诊断、纳入及排除标准，选择2010年8月31日至2011年2月28日在徐州医学院附属医院神经内科病房住院的缺血性脑卒中患者115例，进行前瞻性随访调查。

2.调查内容

采用自制问卷，面对面调查方式收集资料，主要包括:性别、年龄、婚姻状况、文化程度、就诊医院级别、治疗天数、入院时体温、脉搏、收缩压、舒张压、房颤、颈动脉软斑、既往史、甘油三酯、总胆固醇、LDL、HDL、空腹血糖、血钾、血钠、血氯、尿酸、尿素氮、肌酐、血白蛋白、纤维蛋白、APO-A、APO-B、出院后康复治疗、服用阿司匹林类药物、是否服用中药、是否服用营养品、睡眠情况、是否易激动等49项指标。

3.分析方法

(1)数据库建立:调查资料用Epidata软件双份输入、逻辑校对后，建立数据库。

(2)训练和测试集选择:选择样本中回顾性调查对象作为训练集，前瞻性调查对象作为测试集，用来测试已建立的各种模型的预测精度。

(3)分别用SPSS16.0、Clementine软件建立缺血性脑卒中复发的二分类非条件logistic回归和BP神经网络的预测模型，并绘制ROC曲线。

结果

1.logistic回归结果

由于变量越多，人工神经网络训练速度越慢，甚至出现过度拟合的现象。将回顾性调查收集的474例患者作为模型的训练样本，对调查的49项指标进行单因素筛选，最终得出年龄等16项指标有统计学意义，具体结果见表1。

表1 单因素logistic回归分析结果

对上述筛选出来的变量进行多因素logistic回归分析得出年龄、舒张压、语言障碍、饮酒、阿司匹林、甘油三酯和睡眠7个影响因素，由以上7个影响因素，建立logistic回归模型，其表达式为:

logit(p)=－8.294+0.060x1+0.053x2+0.668x3+0.523x4－0.263x5+0.321x6－0.478x7，公式中(x1、x2、x3、x4、x5、x6、x7)分别年龄、舒张压、语言障碍、饮酒、阿司匹林、甘油三酯和睡眠7个因素。

2.训练集网络模型的建立及训练

将回顾性调查的病例474人作为训练集，将前瞻性调查的115名患者作为测试集。为了简化计算并防止不必要的过度拟合，对本次研究利用logistic回归对所有因素进行单因素筛选，以单因素筛选出的全部16个因素作为输入变量，即输入层神经元。分别用三种不同隐层数目的单纯BP神经网络模型建模。

本次研究根据试凑法确定隐层节点数，将第一隐层节点定义为9，二三层逐层减小分别为5和3，分别用ANN1、ANN2、ANN3表示。同时拟选取最大训练误差为0.01，初始学习率为0.3、最低学习率为0.01、最高学习率为0.3，动能项α=0.9。

(1)三种BP神经网络模型ROC曲线下面积比较

用三种BP神经网络模型的预测概率和实际结果做ROC曲线，曲线下面积分别为0.933(95%CI:0.902 ～0.964)、0.920(95%CI:0.809 ～0.942)、0.877(95%CI:0.835～0.920)，可知ANN1预测准确性高于其他两种模型。

(2)不同隐层数目模型的预测精度效度比较

各模型的预测正确率分别为94.59%、93.67%、92.83%，三种正确率之间有统计学意义(χ2=1.139，P=0.566)见表2。可知不同隐层数的BP神经网络预测正确率无统计学意义，单层BP神经网络预测一致性高于其他两种。其灵敏度、特异度以及Youden指数也均高于后两种，说明单层BP神经网络的预测效果优于其他两种模型。

ANN)1 94.6 89.0 89.8 78.8 ANN2 93.7 87.3 89.5 76.9 ANN3 92.8 83.6 89.1 72.7

增加隐层的数目不能改善BP神经网络的预测效果，甚至有可能影响模型预测的精度，同时单一隐层建模时间短，而且不易发生过度拟合现象，故选择含一个隐层的BP神经网络。根据导入影响因素对网络的影响程度，做如下顺位图(图1)。影响程度最高的前三位影响因素分别为ADL、舒张压和阿司匹林服用情况。

图1 单隐层BP神经网络影响因素顺位图

3.测试集预测结果

(1)模型预测结果的评价

将115例测试样本代入以上建立的logistic模型和ANN1，ANN1的准确率、灵敏度、特异度、约登指数均高于logistic回归模型(见表3)。

logistic)81.7 61.9 72.3 34.2 ANN1 84.6 81.0 79.3 60.3

(2)ANN1与logistic回归模型相比，其ROC曲线下面积为0.787，大于后者者得出的结果0.729，由此可知ANN1的预测判别能力高于传统的logistic回归模型。

讨论

1.BP神经网络模型在疾病预测中的应用

在医学统计预测领域，Werbos第一个利用BP算法训练神经网络进行预测并发现它的功能要优于传统的统计学方法，如Box－Jenkins方法。Hughes等用神经网络对肝脏移植术后的急性排斥反应进行预测，其结果优于传统预测方法。Ellenius等用神经网络对急性心肌梗死的发病预测，也取得了成功〔3〕。黄水平〔4〕等应用人工神经网络研究食管癌、胃癌发病及胃癌根治术患者预后的影响因素，取得了理想的结果。Pranab Dey〔5〕等建立一个人工神经网络(ANN)模型检测癌细胞学积液，应用经过充分训练的人工神经网络模型对恶性肿瘤进行鉴别诊断，取得了良好的结果。Hakan Isik〔6〕等将人工神经网络分类的方法应用于超声理疗，在确定治疗的时间，各年龄段超声理疗的价值以及超声治疗区域的选择等方面取得了成功。人工神经网络最具吸引力的特点就是它的学习能力。学习也称训练，是指在受到外界刺激(即样本集的输入)的情况下，神经网络按照一定的方式不断调整参数(连接权)，并可以将样本集的内涵以连接权矩阵的方式储存起来，使神经网络再次接受输入时，可以给出适当的输出。本研究考虑到神经元个数过多对样本量要求较高，故选择通过单因素logistic回归筛选出来的，与缺血性脑卒中复发密切相关的变量作为输入变量，利用训练集建立网络，由测试集对网络进行评价，得出BP神经网络预测正确率为84.6%，优于logistic回归模型的81.7%。ROC曲线下面积BP神经网络和logistic回归分别为0.787和0.729，说明BP神经网络预测效果较好。

2.神经网络与logistic回归的比较

BP神经网络在疾病预测方面越来越受到广大医学工作者的重视，人们经常用它与logistic回归模型进行比较。logistic回归模型的优点是简单易用，对因素单独效应的定量解释明确，可以直接得出相对危险度的近似估计，建立变量在数量上依赖关系的方法论〔7〕。神经网络模型采用的是信息论的方法，结合模拟人的思维模式，通过学习已有的样本建立网络。具有强大的解决变量间的共线性效应和交互作用的能力，对资料的分布形式无任何限制并能充分利用资料信息，容错性强。神经网络作为一个非线性的数学模型，有助于发现多个变量间未知的关系。瑞典Mi-Chael Green〔8〕用多种类型的人工神经网络和单变量、多变量logistic回归模型分别研究急性冠状动脉综合征(ACS)的危险因素并进行比较。研究认为，人工神经网络明显优于1ogistic回归模型。贺佳〔9〕等的研究认为BP人工神经网络对于数据的拟合情况要远远优于传统的COX回归和logistic回归。

本课题研究结果logistic回归预测模型ROC曲线下面积为0.729，BP神经网络预测结果ROC曲线下面积为0.787;BP神经网络和logistic回归的Youden指数为分别为60.3%和34.2%，说明BP神经网络的预测效果优于logistic回归。BP神经网络预测结果一致率、灵敏度、特异度皆高于logistic回归，说明对于缺血性脑卒中这样的致病因素多，而且各因素间关系复杂的疾病，BP神经网络模型的拟合效果优于logistic回归模型。

疾病的发病过程是一个受多因素影响的复杂过程，传统的统计方法预测疾病的发生过程往往存在很大的局限性，而BP神经网络的优点恰恰适合预测疾病的发生过程。但是本研究中建立的BP神经网络模型都是在用其它方法对数据进行初始分析的基础上进行的，变量越多网络的训练速度越慢，并且可能导致过度拟合。因此我们不能片面的认为BP神经网络就一定优于logistic回归模型，只能说明两者是互补的关系，应该将神经网络与传统统计分析结合起来应用才能够发挥其最大效力。

目前神经网络的预测能力已经得到普遍认可，但是它尚存在一些问题有待解决。首先，神经网络的建立随着参数、函数、初始值等的设置而变化，这些设置的正确性缺乏理论依据，只能依靠经验和试验来确定。其次，神经网络不能像logistic回归模型那样有一个公认的模型输入变量的准入和剔出原则;再次，各因素对因变量作用的医学解释尚不明确，其假设检验方法和可信区间等问题仍有待进一步研究。

1．经屏，张媚，张临洪．缺血性脑卒中早期复发的临床特点和危险因素预测．卒中与神经疾病，2002，9(1):35-37．

2．刘军，赵冬，王薇．北京地区1984-2000年35～74岁人群复发性脑卒中事件发病变化趋势．中华流行病学杂志，2007，28(5):437-440．

3．Sargent D J．Comparison of artificial neural networks with other statistical approaches:results from medical data sets．Cancer，2001，91(8):1636-1642．

4．李文琦，黄水平．影响胃癌根治术患者预后的临床因素分析及预测研究．现代预防医学，2011，38(17):3404-3407．

5．Dey P，Barwad A，Dey P，et al．Artificial neural network in diagnosis of metastatic carcinoma in effusion cytology．Cytometry Part B(Clinical Cytometry)，2012，82(B):107-111．

6．Isik H，Arslan S．An artificial neural network classification approach for use the ultrasound in physiotherapy．J Med Syst，2011，35(6):1333-1341．

7．杨洋．利用人工神经网络模型预测原发性高血压的研究．中国医科大学硕士论文，2010．

8．Green M，Bjork J，Forberg J，et al．Comparison between neural networks and multiple logistic regression to predict acute coronary syndrome in the emergency room．Artif Intell Med，2006，38(3):305-18．

9．贺佳，张智坚，贺宪民．肝癌术后无瘤生存期的人工神经网络预测．数理统计与管理，2002，21(4):14-16．

Building Ischemic Stroke Recurrence Prediction Model by U-sing Artificial Neural Networks

Tan Ying，Geng Deqin，Huang Shuiping．Department of Epidemiology and Healthy Statistics，XuZhou Medical College(221002)，Xuzhou

ObjectiveTo establish ischemic stroke recurrence prediction model based on BP artificial neural network，provides clinicians with a simple，efficient，accurate assessment of patients with ischemic stroke recurrence.MethodsUsing logistic regression model to univariate analysis，and filter out the significant indicators for the BP neural network and logistic regression multivariate analysis，to establish the ischemic stroke recurrence prediction model，and compared two models.ResultsEstablish the BP neural network and logistic regression model，BP neural network and logistic regression's prediction accuracy were 82.6%and 75.1%，The area under the ROC curve were 0.875 and 0.880，BP neural network model has a better prediction accuracy than the logistic regression model．Conclusion

Artificial neural network model is better than the logistic regression model in prediction effect．

BP neural network;Logistic regression;Prediction model

(责任编辑:丁海龙)

用人工神经网络建立缺血性脑卒中复发的预测模型*

对象和方法

1.研究对象

2.调查内容

3.分析方法

结 果

1.logistic回归结果

2.训练集网络模型的建立及训练

3.测试集预测结果

讨 论

1.BP神经网络模型在疾病预测中的应用

2.神经网络与logistic回归的比较

结果

讨论