基于决策树算法构建缺血性卒中复发的预测模型

2020-06-05 11:05曾雪元宫伟国胡云峰任吉祥
吉林中医药 2020年4期
关键词:决策树证候缺血性

曾雪元,宫伟国,胡云峰,任吉祥

(1.长春中医药大学,长春 130117;2.松原市前郭县中医院,吉林 松原 131100;3.长春中医药大学附属医院,长春 130021)

缺血性卒中是最常见的卒中类型。2016 年全球25岁以上人群罹患卒中的风险为24.9%,其中缺血卒中风险为18.3%[1]。2007 年至2012 年间,卒中的年复发率从17.7%下降至6.7%[2]。尽管如此,仍然有一些不足,2017 年一项横断面调查研究显示,我国的卒中疾病负担呈现从北到南的梯度下降趋势。我国东北地区的发病率(365/10 万)和病死率(159/10 万)最高[3]。根据2015 年全球疾病负担研究,超过90%的卒中是因可调节的危险因素所致[4]。因此控制危险因素,找出危险人群进行干预可有效降低卒中负担。

目前国际上利用危险因素制作的心血管评分工具很多,在国外比较著名的有Framingham 评分工具[5]。2016 年我国发布了用于心血管病10 年风险和终生风险评估的China-PAR 模型[6]。针对缺血性卒中的复发风险评估与预测工具只有《Essen 卒中风险评分量表》[7]等少数预测工具,功能及使用范围局限[8]。中医辨证论治与西医辨病相结合是目前中医药界较普遍的临床模式,将西医病因与中医四诊信息或证候学信息相结合可构建疾病预测模型,但应用中医证候诊断和证候要素构建慢病风险预测模型的研究较少。本研究在使用决策树模型时,纳入中医证候学方面的信息作为观察指标,验证其对缺血性卒中复发是否有预测价值。

1 资料与方法

1.1 资料来源 选取2014 年1 月1 日-2015 年12 月31 日“长春中医药大学附属医院中风病慢病防治管理信息协作平台”中以缺血性卒中为第一诊断的住院患者3 322 例信息,以既往史有无缺血性卒中将入选病例分为新发组1 542 例和复发组1 780 例。本研究所采用的数据主要有人口学信息(表1)、证候信息学(表2)、既往史和家族病史(表3)、生活方式(表4)。证候学信息主要包括证候诊断和证候要素判定。证候诊断采用《中医临床诊疗方案及临床路径》(2012年版),证候要素判定采用《缺血性中风证候要素诊断量表》。

1.2 方法 将筛选出的患者信息建立一个数据集,使用随机抽样将数据集分成训练集和测试集,其中训练集占70%,测试集占30%。选用CART 算法建立预测模型。使用混淆矩阵及受试者工作特征曲线(ROC)对模型进行评价。

1.2.1 统计学分析本文使用Rstudio(Version 1.1.463)进行统计分析,使用“rpart 包”构造缺血性卒中复发风险决策树模型。首先使用“rpart 函数”生成决策树,在完整树的基础上根据复杂度参数(CP)选择最优的树,使用“prune 函数”对树进行修剪。

表1 人口学信息

表2 证候信息学

表3 既往史和家族病史

1.2.2 决策树算法简介决策树是强大直观的分类器,它利用树形结构对特征和潜在结果之间的关系建立模型。常见的决策树算法有C5.0 算法、CART 算法以及卡方自动交互检测(CHAID)等。本文使用的是CART算法,该算法是最初由LeoBreiman 等在1984 年提出的一种数据挖掘和预测算法[9]。

2 结果

2.1 决策树模型构造出的决策树(见图1)共5 层,共筛选出8 个解释变量,分别为家族冠心病史,家庭关怀,既往高血压病史,性别,受教育程度,家庭收入,中医证候学,既往糖尿病史。

表4 生活方式

图1 缺血性卒中复发风险决策树模型

从树的顶端开始,如果条件成立则从左枝往下,否侧从右枝往下。当观测点到达终端节点时,分类结束。从树的顶端,我们可以看见第一层为家族冠心病史,说明家族冠心病史是缺血性卒中复发风险影响最大的变量,在无家族冠心病史的人群中筛选出的重要变量依次为家庭关怀、高血压与性别。在这组人员中,性别为男性、受教育程度低以及家庭月收入为3 000 元以上的人群复发风险高。在有家族冠心病史的人群中,有糖尿病和证候特征为痰热内闭、痰热腑实、痰蒙清窍、阴虚风动和风痰阻络的患者复发风险较高。

2.2 决策树模型评价本文采用混淆矩阵及受试者工作特征曲线(ROC)对模型进行了评价。混淆矩阵结果见表5,该预测模型的精确度为81%,F 值为0.83。ROC(图2)曲线下面积为0.865(95%CI:0.843~0.886)。说明该模型的预测效果良好。

表5 混淆矩阵表及统计量

图2 缺血性卒中复发预警的决策树模型ROC 图

3 讨论

随着大数据时代的到来,多学科交叉合作,数据挖掘和机器学习在医学领域的应用越来越广泛。卒中的病因较为复杂,多种危险因素共存,决策树算法几乎适用于任何类型的数据建模,可以处理变量间的交互作用。此外树型结构与临床思维十分接近,即先抓主要影响因素,后抓次要影响因素,为预测提供合理的分析手段。史琦等[10]通过决策树模型在证型—理化指标对应模式的数据挖掘中具备一定的优势。刘建平等[11]研究发现分类树模型不仅能有效地拟合发病风险的预测模型,还能有效地筛检变量间的交互作用效应。

缺血性卒中常见的危险因素分为可干预因素和不可干预因素两大类,危险因素数目越多则卒中复发的危险性越大。目前《指南》[12]中提及的可干预的危险因素主要包括高血压、糖尿病、血脂异常、心脏病、颈动脉易损斑块高同型半胱氨酸血症等。不可干预因素主要有性别、年龄和家族史。以往的观念除传统危险因素外,不良生活方式和患者及家属缺乏相关的卒中知识水平也与缺血性卒中的复发有密切关系。因此本研究在进行决策树模型构建时除用到传统危险因素外,还纳入了家庭关怀、饮食方式、体育锻炼以及中医证候学内容。本模型共筛选出8 个解释变量,这些危险因素与目前的指南大致相符,还提供了一些有意义的信息。在本研究中无家族冠心病史、家庭关怀程度不够、既往无高血压病史人群有较高的复发风险,这反映了相关人群对缺血性卒中的相关知识水平不够,对心血管疾病不够重视,在临床中应重视这一人群,针对这一人群进行宣讲和干预。

在本研究中证候诊断也可以用于缺血性卒中复发预测模型,近年来中医临床及科研团队基于病证结合模式进行了一系列研究。李新龙等[13]通过Cox 比例风险回归模型发现多部位梗死、入院至发病第14 天痰证的显现是患者复发的独立危险因素,急性期口服汤药治疗为保护因素。韩学医[14]运用生存分析-Cox 回归分析—向前逐步回归法构建回归方程发现痰湿质是缺血性中风复发的重要危险因素。

综上所述,本研究建立的缺血性卒中复发预测决策树模型有较好的预测能力,证候诊断对于卒中复发也有一定的预测价值。

猜你喜欢
决策树证候缺血性
肥胖中医证候动物模型研究进展
针灸在缺血性视神经病变应用
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
缺血性脑卒中恢复期的中蒙医康复治疗
基于模糊关联规则和决策树的图像自动标注
仙鹿活骨丸治疗股骨头缺血性坏死的实验研究
昆明地区儿童OSAHS中医证候聚类分析
内皮祖细胞在缺血性脑卒中诊治中的研究进展
基于肺癌CT的决策树模型在肺癌诊断中的应用