糖尿病联合并发症发病风险计算与预测

2022-07-19 09:41郑尔昌邹金串薛成斌张晋伟陈少阳陈强胡国鹏
关键词:置信度高风险关联

郑尔昌, 邹金串, 薛成斌, 张晋伟, 陈少阳, 陈强, 胡国鹏

(1. 华侨大学 体育与健康科学研究中心, 福建 泉州, 362021; 2. 华侨大学 旅游学院, 福建 泉州, 362021; 3. 仰恩大学 管理学院, 福建 泉州, 362014; 4. 福建省泉州市丰泽区华大街道社区卫生服务中心, 福建 泉州, 362021)

糖尿病(diabetes)作为一种慢性疾病,其发病率逐年增高.糖尿病慢性并发症是患者致死、致残的重要原因.根据世界卫生组织统计,糖尿病并发症目前已高达100多种,主要包括糖尿病肾病、糖尿病眼部并发症、糖尿病足、糖尿病心血管并发症、糖尿病性脑血管病和糖尿病神经病变等几大类.因此,寻找糖尿病并发症发病规律并根据相关指标进行并发症预警,进而辅助医疗工作者尽早诊断及预防糖尿病并发症,是当前大健康领域的研究热点之一[1].文献[2-4]分别通过回归模型、机器算法模型等评估人群糖尿病患病风险.

近年来,随着医疗设备的升级与机器学习算法的应用,部分学者将研究重点转移至糖尿病并发症的诊断预测方面,主要包括关键生理生化指标预测和机器学习算法预测两类.通过关键生理生化指标进行糖尿病并发症预测,在传统糖尿病并发症预测领域中应用较为广泛.文献[5-8]分别通过患者血清尿酸(SUA)、尿微量蛋白(MAU)水平、皮肤无创晚期糖基化终末产物等生化指标和收缩压、心率、呼吸等生理指标对糖尿病并发症进行诊断预测.统计学方法与机器学习的广泛应用进一步推动了糖尿病并发症预测研究的发展.文献[9-11]通过Cox回归分析分别对糖尿病未来5年心脑血管事件和继发性功能障碍进行预测,研究结果为糖尿病社区管理提供了一定的参考.文献[12-13]均采用了Logistic回归模型对糖尿病并发症进行预测,模型对糖尿病患者的并发症诊断具有较高的预测价值.随着机器学习各类算法不断优化,模糊综合评价法[14]、神经网络模型[15-16]及其他新兴机器学习算法[17-20]均针对性地应用于糖尿病并发症的诊断预测中,并取得较好的预测效果.

目前,通过不同研究方法对糖尿病并发症进行诊断预测,取得了较丰富的研究成果.对糖尿病并发症诊断预测的研究方法与工具也逐渐从统计学方法为主向统计学模型与机器学习算法结合使用转变,随着人工智能的发展,将会有越来越多的诊断预测工具应用于该领域的研究中.但当前研究较多聚焦于单一糖尿病并发症或常见糖尿病联合并发症,缺乏从糖尿病联合并发症发病风险角度进行研究.鉴于上述问题,本文对糖尿病联合并发症发病风险进行计算与预测.

1 数据与研究方法

1.1 数据来源

数据来源于国家人口健康科学数据中心《糖尿病并发症预警数据集》,包含解放军总医院2013-2017年的2型糖尿病住院患者数据共3 000例.数据集1,2各字段内容,分别如表1,2所示.

表1 数据集1各字段内容Tab.1 Content of each field in dataset 1

表2 数据集2各字段内容Tab.2 Content of each field in dataset 2

33项糖尿病并发症(表1中的LABEL与表2中的并发症)用于高风险联合并发症筛选.在进行数据分析之前,对原始数据各字段进行预处理,主要包括类型转换及缺失值处理,舍弃较多缺失值的指标,其他缺失值指标通过Python中sklearn模块对缺失值进行填充处理.完成数据预处理后,构建高风联合并发症发病预测模型.糖尿病并发症数据处理流程图,如图1所示.

图1 糖尿病并发症数据处理流程图Fig.1 Data processing flow chart of diabetes complications

1.2 关联规则

关联规则由频繁项集产生,因此,每个规则都满足最小支持度(Smin)与最小置信度(Cmin),即支持度和置信度需满足最小阈值.其中,关联数据项支持度为几个关联的数据项在数据集中出现的次数(num(AB))占所有的样本数在数据集中出现的次数(num(Allsamples))的比例,关联数据项{A,B}的支持度S(A,B)计算公式为

(1)

关联数据项{A,B}的置信度C(A⟹B)计算公式为

(2)

式(1),(2)中:P(AB)为数据项{A,B}在数据集(num(Allsamples)中出现的概率;P(A)为数据项{A}在数据集(num(Allsamples)中出现的概率.

通过各关联数据项的支持度与最小支持度阈值的比较,得到频繁项/项集;通过频繁项/项集中各规则的置信度与最小置信度阈值的比较,得到关联规则[19].

1.3 随机森林算法

随机森林算法是通过集成学习的思想将多棵树集成的算法,其基本单元是决策树,本质属性为机器学习领域的集成学习方法.进行分类训练时,首先,有放回地从数据集中取出数据进行训练,构建决策树,多次训练可得到多棵决策树.其次,通过对不同的树进行分类,得到不同的分类结果,将所有分类结果进行统计投票,即可得到最终的分类结果.决策树主要通过信息熵和信息增益进行特征选择,信息熵的计算公式为

(3)

式(3)中:Pi为数据集D中任意元组属于Ci的非零概率.

(4)

完成数据集和各属性的信息熵计算后,可根据信息增益确定决策树的特征选择顺序,信息增益的计算公式为

Gain(attr)=Info(D)-Infoattr(D).

(5)

将数据集中各属性的信息熵计算结果分别代入式(5)中,计算各属性的信息增益,将信息增益最大的属性作为第一特征进入决策树,并按上述步骤完成决策树剩余节点的选择.随机森林算法实现流程,如图2所示.

图2 随机森林算法实现流程Fig.2 Algorithm implementation process of random forests

随机森林算法分为训练数据、构建模型和投票3个步骤:1) 训练数据,对原始数据集进行可放回随机抽样,形成k组训练集;2) 构建模型,对每1个训练集,均从样本的n个特征随机选取m个特征,构建最优学习模型(决策树);3) 投票,输入测试数据,得到k个最优学习模型,给出分类结果,对k个分类结果进行投票,得到最终分类结果.

2 高风险联合并发症模型构建

假设数据集中存在糖尿病联合并发症{A,B,C}, 该联合并发症支持度大于支持度阈值, 为频繁项集.频繁项集的关联规则,如表3所示.表3中:C{A,B⟹C}表明若某糖尿病患者患有并发症A和B,则其同时患有并发症C的概率为55%,该概率为关联发病率(发病风险),若该频繁项集中超过1/2的关联规则置信度大于50%,且至少存在1条关联规则置信度大于置信度阈值,则认为该频繁项集中的联合并发症为高风险联合并发症.置信度阈值可根据并发症预测实际需求设置,置信度阈值越高,表明联合并发症关联发病率越高.根据关联规则置信度计算结果,将高风险联合并发症数量控制在10~15组,故置信度阈值设置为97%.

表3 频繁项集的关联规则Tab.3 Association rules for frequent itemsets

由表3可知:频繁项集{A,B,C}中可产生6条关联规则,其中,序号为1,2,3,6(共4条,占比2/3,大于1/2)的关联规则置信度大于50%,且序号为3的关联规则置信度为98%(大于97%),则糖尿病联合并发症{A,B,C}为高风险联合并发症.

通过关联规则算法对3 000例糖尿病患者33类并发症数据进行计算,查找频繁项集与关联规则,支持度阈值设置为5%,置信度阈值设置为50%(两个阈值均可根据研究需要进行设置,支持度阈值越大,表明该联合并发症关联发病率越高;置信度阈值越大,表明该联合并发症发病概率越高).通过关联规则计算符合上述参数阈值的并发症依存关系,关联规则计算的关联发病率,如表4所示.

表4 关联规则计算的关联发病率Tab.4 Related incidence rate computed by association rules

续表Continue table

续表Continue table

续表Continue table

表4中:各关联规则置信度为该关联规则中的关联发病率,以序号132的关联规则为例,若糖尿病患者患有高血压,则有57.23%的概率同时患有动脉粥样硬化;若糖尿病患者患有动脉粥样硬化,则有75.89%的概率同时患有高血压.

算法结果符合动脉粥样硬化和高血压发病的病理学基础,因此,可参照该关联发病率计算结果,根据糖尿病患者患有并发症情况及时筛查是否同时患有其他并发症,达到尽早诊断治疗的预警目标.

根据高风险联合并发症筛选规则,结合表4中各关联规则置信度,筛选出12组符合条件的联合并发症.高风险联合并发症,如表5所示.

表5 高风险联合并发症Tab.5 High-risk combined complications

建立上述12组高风险联合并发症的发病预测模型,查找各联合并发症关键影响因素(生化指标),可为联合并发症的诊断预测提供参考.12组高风险联合并发症和当前临床研究结论保持一致,如动脉粥样硬化是心血管疾病、慢性肾病等多种疾病的病理学基础,而和其组合的5组联合并发症中,也多为心血管疾病等;第8组高风险联合并发症也得到当前研究的不断证实.

3 发病预测模型的构建

3.1 随机森林模型的构建

以联合并发症是否发病作为类标签,构建由100棵决策树组成的随机森林,每棵决策树分别对分类结果进行投票,最终获得票数最多的结果为随机森林最终分类结果,并输出该联合并发症生化指标重要性排序,12组高风险联合并发症均按照上述流程完成各自随机森林模型的构建.

将除糖尿病并发症数据外其他指标数据作为影响因素,高风险联合并发症共同发病结果作为最终分类结果纳入模型中(若同时患有该组合所有并发症,则类标号为1,否则为0),即可得到该糖尿病患者是否患有该类型联合并发症的预测结果.

采用十折交叉验证法判断随机森林模型的分类预测精度,即将原始糖尿病数据集随机分为10等份,其中,9份作为训练集,用于训练随机森林模型;剩余1份作为测试集,用于测试随机森林模型的分类精度,并进行10次迭代,训练期间,每1份数据集都作为测试集对随机森林模型的分类预测精度进行测试.随机森林模型训练过程中,根据数据集中各分类中不同数据量对不同分类赋予不同权重,确保数据均衡.

根据上述方法对数据建模,随机森林模型中重要性排名前10的生化指标,如表6所示.

表6 随机森林模型中重要性排名前10的生化指标Tab.6 Top 10 important biochemical indexes in random forest model

若表6中重要性排名靠前的生化指标值异常,则对其他重要性排名靠前指标进行检测.通过随机森林模型预测该患者是否会患该联合并发症,若随机森林模型判断该患者会患该联合并发症,则需做进一步详细检查,从而确诊该联合并发症是否发病;若随机森林模型判断该患者不会患该联合并发症,则结合关联发病率计算结果,判断其患有其他并发症的风险,并加以预防.模型预测分析过程,如图3所示.

图3 随机森林模型预测分析过程Fig.3 Predictive analysis process of random forest model

3.2 预测效果分析

采用高风险联合并发症发病预测的精度和受试者工作(ROC)曲线,对模型的预测效果进行评估,随机森林模型对各高风险联合并发症十折交叉验证法的分类精度,如表7所示.

表7 各高风险联合并发症十折交叉验证法的分类精度Tab.7 Classification accuracy of high-risk combined complication in ten fold cross validation method

续表Continue table

由表7可知:随机森林模型对各高风险联合并发症的分类精度大部分超过0.900 0,对各高风险联合并发症的分类平均精度均在0.800 0以上.

通过ROC曲线对模型进行评估时,ROC曲线下面积(AUC)越接近于1,则随机森林模型正确分类正预测的能力越强,假阳性的概率越低.12组高风险联合并发症的ROC曲线,如图4所示.图4中:η1为假阳性率;η2为真阳性率;AUC(n)为n折交叉验证法的曲线下面积;Mean为AUC的平均值;Luck为对角线.

(a) 第1组 (b) 第2组 (c) 第3组

(d) 第4组 (e) 第5组 (f) 第6组

(g) 第7组 (h) 第8组 (i) 第9组

(j) 第10组 (k) 第11组 (l) 第12组图4 12组高风险联合并发症的ROC曲线Fig.4 ROC curves of 12 groups high-risk combined complications

由图4可知:曲线基本位于45°线的左上方,表明经十折交叉验证法验证后,各高风险联合并发症发病预测模型的AUC均大于0.50,AUC均值均大于0.67,故大部分高风险联合并发症发病预测模型具有较好的发病预测效果.联合并发症的生化指标重要性排名可为疾病的诊断和风险预测提供重要参考.

为进一步验证各高风险联合并发症发病预测模型在糖尿病患者发病预测应用的有效性,随机选取120例糖尿病患者数据(联合并发症患者数据在各联合并发症数据中随机选取,非联合并发症患者数据在非联合并发症数据中随机选取),按照并发症分为12组,每组包含10组数据,均为5组未患病数据与5组患病数据,将数据分别输入12组对应的高风险联合并发症发病预测模型中进行发病预测,随机森林模型对糖尿病患者并发症预测结果,如表8所示.

表8 随机森林模型对糖尿病患者并发症预测结果Tab.8 Prediction results of random forest model of diabetic complications

续表Continue table

由表8可知:12组高风险联合并发症发病预测模型对并发症发病预测效果较好,只有2例患者未成功预测发病风险,其他118例患者患病/未患病均正确预测,某种程度上可作为糖尿病联合并发症的预诊断参考.

4 结论

1) 十折交叉验证法和ROC曲线对模型的评估结果表明,基于随机森林模型的高风险联合并发症发病预测模型具有较好的分类预测精度和分类效果.

2) 高血压、视网膜病变、动脉粥样硬化、肾病等是糖尿病并发症中关联发病率较高且是联合发病风险最高的并发症种类,其患有某两种并发症后其他并发症关联发病率超过97%,提示上述糖尿病患者及早诊断及预防.

3) 不同高风险联合并发症发病预测模型的分类平均精度均在0.800 0以上,部分模型的AUC在0.900 0以上,但仍有部分模型的AUC未达到0.70,需要在后续的研究中进一步探索,以提升模型的预测效果.

猜你喜欢
置信度高风险关联
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
上海市高风险移动放射源在线监控系统设计及应用
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
高风险富水隧道施工技术经济分析
“一带一路”递进,关联民生更紧
正负关联规则两级置信度阈值设置方法
奇趣搭配
高风险测试对英语学习的反拨效应研究
智趣