基于数据挖掘的2型糖尿病风险预测模型的建立和应用

2019-05-09 11:48陈淑良常红王冬平张策
糖尿病新世界 2019年4期
关键词:感知器准确率神经网络

陈淑良 常红 王冬平 张策

[摘要] 目的 采用数据挖掘方法,考察2型糖尿病的危险因素,确定最优风险预测模型,为建立手机APP软件提供算法,为糖尿病I级预防提供风险预测支持。 方法 收集某医院2016年1月—2017年7月的糖尿病患者全数据集,共5 571例,通过与同期体检健康对照组5 571例进行对比研究,分别建立Logistic 回归模型和多层感知器神经网络模型,比较优劣,确定最终预测模型。 结果 结果显示 Logistic 回归和多层感知器神经网络模型对训练样本的预测准确率分别为89.7%、80.4%,对测试样本的预测准确率分别为89.8%、79.8%。 结论 Logistic回归模型对2型糖尿病风险预测效能较高,预测结果也更容易结合临床实际,用于风险控制手机APP软件后台编程。

[关键词] 2 型糖尿病;风险预测分析;Logistic回归模型;多层感知器神经网络模型;决策树分析模型

[中图分类号] R587.1          [文献标识码] A          [文章编号] 1672-4062(2019)02(b)-0001-03

Establishment and Application of Risk Prediction Model for Type 2 Diabetes Based on Data Mining

CHEN Shu-liang1, CHANG Hong1, WANG Dong-ping2, ZHANG Ce1

1.The Second Affiliated Hospital of Dalian Medical University, Dalian, Liaoning Province, 116027 China; 2. Zhongshan College, Dalian Medical University, Dalian, Liaoning Province, 116023 China

[Abstract] Objective To investigate the risk factors of type 2 diabetes by using data mining methods, to determine the optimal risk prediction model, to provide algorithms for establishing mobile APP software, and to provide risk prediction support for diabetes level I prevention. Methods A total of 5 571 patients with diabetes mellitus from January 2016 to July 2017 in the hospital were enrolled. A logistic regression model and a multi-layer perceptron neural network model were established by comparing with 5 571 healthy people in the same period, comparing the pros and cons, determine the final prediction model. Results The results showed that the prediction accuracy of the logistic regression and multi-layer perceptron neural network model for training samples were 89.7% and 80.4%, respectively, and the prediction accuracy for the test samples was 89.8% and 79.8%, respectively. Conclusion Logistic regression model has higher predictive effect on risk of type 2 diabetes, and the prediction results are more easily combined with clinical practice. It is used for background programming of risk control mobile APP software.

[Key words] Type 2 diabetes; Risk prediction analysis; Logistic regression model; Multilayer perceptron neural network model; Decision tree analysis model

隨着经济发展,生活水平的提高,人口不断向老龄化、城镇化方向发展,糖尿病已经成为严重危害人类健康的重大公共卫生问题,其中全世界约有3.5亿人患有2型糖尿病(T2DM)[1]。流行病学资料显示我国每年新发的2型糖尿病人数达到 680 万~740万[2],由于2型糖尿病临床确诊前有较长的潜隐期,因此,对高危人群的筛查和防治是控制2型糖尿病发病的有效途径[3]。近年来,数据挖掘方法广泛应用于医学领域,在疾病诊断、预后、风险评估等方面表现出良好的应用价值[4-6],也为临床慢性病的控制提供了有效的工具和手段[7]。在前期的文献检索过程中,发现对糖尿病及其并发症的研究较多,但各研究的样本量不多,从数百例到数千例不等,达不到数据挖掘的准确度要求[8-9]。该研究收集2016年1月—2017年7月11 142例数据,预测未知人群的2型糖尿病风险,做好慢性病的I级预防,并期望将这种数据模型软件化,制成手机APP软件,为2型糖尿病以及其他慢性疾病的I级预防提供理论依据及必要的预测工具,现报道如下。

1  资料与方法

1.1  一般资料

对医院的内分泌科住院的糖尿病患者全数据集5 571例进行分析。同时,在同期42 716名体检中心健康人数据集中随机抽取5 571名数据作为对照组,随机种子数为1 794,数据处理过程中对数据进行脱敏操作,保护患者隐私,通过医院伦理委员会审查。

纳入的糖尿病患者,诊断均符合2010版《中国2型糖尿病防治指南》[10]诊断标准:①糖尿病症状加上随机血糖检测,静脉血浆葡萄糖≥11.1 mmol/L或②空腹血糖(FPG)静脉血浆葡萄糖≥7.0 mmol/L或③葡萄糖负荷后2 h血糖≥11.1 mmol/L,症状不典型者,临床诊断必须经过另一天的重复试验所证实。

1.2  变量及定义

①文化程度分为“高学历”“低学历”;②吸烟分为 “是” “否”;③饮酒分为“是”“否”;④地区分为市区、市区外;⑤婚姻分为“已婚”‘未婚;⑥职业分为脑力为主、体力为主;⑦体质指数 (body mass index,BMI)= 体重(kg)/身高(m)2;⑧高血压:确诊为高血压者;⑨甘油三酯(TG):正常值0.4~1.81 mmol/L;⑩糖化血红蛋白:正常值≤6.5%;{11}高血脂疾病史:均符合《血脂异常防治建议》中关于高血脂的诊断标准,已被确诊为高血脂症;{12}冠心病疾病史[11]:以往被确诊为冠心病;{13}甲状腺疾病史[12]:以往被确诊为甲状腺性疾病;{14}糖尿病家族史:根据既往病例判断,直系亲属患有糖尿病。

1.3  统计方法

采用SPSS 17.0统计学软件进行数据统计分析。采用软件的随机数功能从全数据集中选取70%,作为训练样本。余下的30%作为测试样本。训练样本用于计算参数和建立Logistic回归模型和神经网络模型,测试样本用于评估预测效果。

2  结果

2.1  一般情况

该研究共纳入11 142例数据,糖尿病组男性3 124例,女性2 447例,平均年龄(62.49±0.17)岁,健康对照组男性 3 002例,女性2 569 例,平均年龄(44.75±0.19)岁[13-14]。

2.2  logistic 回归分析

模型变量筛选过程采用多因素建模筛选,按照“一般情况”(性别、年龄、文化程度、职业、民族、家庭住址、婚姻状况、吸烟情况、饮酒)“既往病史”(家族史、高血压、冠心病、甲状腺、高血脂)“檢验结果”(收缩压、舒张压、总胆固醇、低密度脂蛋白、高密度脂蛋白、甘油三酯、谷草转氨酶、谷丙转氨酶、糖化血红蛋白、BMI),将因素分为不同的模型,分别回归,将有意义的因素筛选出来进入最终的模型,得出糖尿病的最终影响因素。

Logistc回归结果,如表1,建立多因素预测方程为:

P=1/(1+e(16.089-0.09×年龄+2.687×高血压病史-1.471×冠心病病史-4.549×甲状腺病史-0.021×收缩压+0.005×谷草转氨酶+2.941×糖尿病家族史+0.129×糖化血红蛋白)。

根据所建方程对训练样本进行预测,其预测准确率为89.7%。其对测试样本的预测准确率是89.8%。

2.3  多层感知器神经网络分析

该多层感知器神经网络模型共分为2层。见图1。以2.2中筛选出的变量为自变量,以是否发生糖尿病为因变量建立多层感知器神经网络模型,其对训练样本的预测准确率为80.4%,对测试样本的预测准确率为79.8%。

3  讨论

该文研究结果表明,二个模型预测准确率均较高,Logistic回归模型得出的因素比较全面,对2型糖尿病的风险预测结果相对准确,可以较好地应用于慢病风险预测。我们结合临床实践,并考虑决策树在多类别选择时,错误可能会增长的比较快,故该次研究未采用,多层感知器神经网络模型虽然有诸多优势,但其是一个黑箱系统,至今没有明确的公式,结果不容易解释,同时其对数据预测准确率也不优于Logistic模型。数据显示,两个模型在影响因素的选择方面取得了良好的一致性,印证了对真实世界数据集预测的相符性[15-18]。

该文最终采用Logistic回归模型用于手机预测APP的编程,是目前流行病学和医学中最常用的分析方法之一。首先从该文的结果可以看出,相同条件下Logisitc模型结果准确率较高,其次其可以将建模结果公式化,相比于神经网络模型,更适用于软件编程等实际应用过程,另外, Logistic回归中的回归系数和OR值,可对模型和变量具有较好的解释性,从而量化影响因素对输出变量的影响,可应用于慢病风险预测。采用Logistic回归模型结果,可进一步编写具有自学习能力的慢病风险预测手机APP软件,利用手机APP软件,公众可把相关危险因素输入软件,即可自行简便且免费获得罹患该疾病风险的初步信息,并根据专业医生建议制定不同的防控措施,以期降低糖尿病的发病率。

[参考文献]

[1]  Nathan DM. Diabetes: advances in diagnosis and treatment[J]. JAMA, 2015, 314(10): 1052-1062.

[2]  中华医学会糖尿病学分会.新诊断2型糖尿病患者短期胰岛素强化治疗专家共识[J].中华医学杂志,2013,93(20):1524-1526.

[3]  Bhushan R, Elkind-hirsch KE, Bhushan M, et al. Improved glycemic control and reduction of cardiometabolic risk factors in subjects with type 2 diabetes and metabolic syndrome treated with exenatide in a clinical practice setting[J]. Diabetes Technol Ther, 2009, 11(6): 353-359.

[4]  吴伟,郭军巧,安淑一,等.使用思维进化算法优化的神经网络建立肾综合征出血热预测模型[J].中国卫生统计,2016,33(1):27-30.

[5]  叶华容,杨怡,林萱,等.BP神经网络在高频彩超特征诊断乳腺癌中的应用[J].中国卫生统计,2016,33(1):71-72.

[6]  Tseng WT, Chiang WF, Liu SY, et al. The application of data mining techniques to oral cancer prognosis[J]. J Med Syst, 2015, 39(5): 59-66.

[7]  Gonzalez GH, Tahsin T, Goodale BC, et al. Recent advances and emerging applications in text and data mining for biomedical discovery[J]. Brief Bioinform, 2015, 17(1): 33-42.

[8]  黄雅铃,杨晓波,龙禹,等.广西地区妊娠期糖尿病的危险因素分析及其风险预测模型的建立[J].广西医科大学学报,2017,34(6):835-838.

[9]  吕喆,陈亦棋,沈丽君,等.2型糖尿病患者糖尿病視网膜病变风险预测模型的建立和初步验证[J].中华眼底病杂志,2017,33(3).

[10]  中华医学会糖尿病学分会.中国2型糖尿病防治指南(2010年版)[J].中国实用乡村医生杂志,2011,20(6):4-5.

[11]  中华医学会心血管病学分会,中华心血管病杂志编辑委员会.非ST段抬高急性冠状动脉综合征诊断和治疗指南[J].中华心血管病杂志,2012,40(5):353-367.

[12]  党乐,胡雅婷,张永莉.多种抗体检测在甲状腺疾病诊断中的应用价值[J].中国医药导报,2016,13(18):65-68.

[13]  杨小军,张雪超,李安琪.利用Excel和Tableau实现业务工作数据化管理[J].电脑编程技巧与维护,2017(12):66-68.

[14]  陈春明,孔灵芝.中华人民共和国卫生部疾病控制司.中国成人超重和肥胖症预防控制指南[M].北京:人民卫生出版社,2006.

[15]  宋健,吴学森,张杰,等.三种统计学模型在糖尿病个体患病风险预测中的应用[J].中国卫生统计,2017(2):312-314.

[16]  赵晓华.基于大数据下2型糖尿病及并发症患者就诊信息的挖掘研究[D].广州:广州中医药大学,2016.

[17]  Leon BM, Maddox TM. Diabetes and cardiovascular disease: Epidemiology, biological mechanisms, treatment recommendations and future research[J]. World J Diabetes, 2015, 6(13): 1246-1258.

[18]  王东营,张琨,许天敏.宫颈癌患病危险因素及一级预防[J].现代肿瘤医学,2017,25(11):1827-1830.

猜你喜欢
感知器准确率神经网络
火箭贮箱喷涂机器人直接示教运动感知器设计与分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
神经网络抑制无线通信干扰探究
感知器在矿井突水水源识别中的应用
AI超市
高速公路车牌识别标识站准确率验证法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定