吕晓燕,郭 威,崔宇琛
1.山西医科大学,山西 030001;2.吉林大学口腔医学院
糖尿病是一种威胁人类生命与健康的常见慢性病,因其病机制复杂,发病病因仍未明确[1],因此发病率居高不下。据国际糖尿病联盟(International Diabetes Federation,IDF)调查,全球罹患糖尿病的成年人高达4.63 亿例,而我国患病人数占到其中的1/4[2],且保持增长态势。基于此,本研究旨在通过对UCI 糖尿病数据集中数据的学习,对糖尿病的潜在影响因素进行探索,以期对糖尿病发病因素进行干预。在此基础上,建立糖尿病风险预测模型,做到疾病的早发现,这对于“治未病”、促进全民大健康也具有重要的现实意义[3-4]。
1.1 研究对象 以UCI 数据库中768 条糖尿病筛查记录为研究对象,数据集中各指标及属性见表1。
表1 糖尿病数据特征及含义
1.2 研究方法
1.2.1 数据预处理 利用SPSS 22 软件,对糖尿病数据集中数据特征进行分析(见表2)。根据医学知识,X2、X3、X4、X6、X7取值为0 不合常规。
表2 统计量描述
进一步对数据进行可视化分析,发现X3、X6、X4、X7取值存在明显异常,见图1。对以上“问题”数据及缺失数据,采用删除法和平均值填补法等进行数据清理。
图1 异常值分析
1.2.2 统计学方法 按是否患有糖尿病,将糖尿病数据集中数据分为两组,定量资料用均数±标准差(±s)表示,采用两独立样本t检验,找出对分类结果有影响的指标;基于此,利用10-Fold 交叉验证法,在SPSS 中确立最优Logistic 回归模型,应用受试者工作特征(ROC)曲线下面积(AUC)与Python 建立的KNN 模型进行性能比较。
2.1 糖尿病发病影响因素的单因素分析 对数据集中的数据按是否患有糖尿病分为两组,对各指标进行单因素分析,结果见表3。
表3 糖尿病发病影响因素的单因素分析
2.2 糖尿病发病影响因素的Logistic 回归分析 以单因素分析具有统计学差异的年龄、BMI 等7 项糖尿病相关指标为自变量,分类结果Y为因变量,经多因素Logistic 回归分析,确定BMI(X2)、怀孕次数(X5)、血浆葡萄糖含量(X6)与糖尿病遗传因素(X8)为糖尿病高危影响因素(P<0.05),见表4。
表4 糖尿病发病影响因素的Logistic 回归分析
对回归模型系数进行检验,χ2=277.43,P<0.05,建立的回归方程有统计学意义。
2.3 糖尿病风险模型评价 利用本研究建立的模型进行糖尿病分类诊断,AUC 为0.879。为了进一步验证模型的分类性能,与Python 构建的KNN 算法模型进行了比较,结果见图2。KNN 模型用于分类预测,AUC 为0.641,分类性能明显低于Logistic 回归模型。采用SPSS 中H-L 对构建的回归模型经拟合优度检验,该预测模型具有较好的拟合效果(P=0.415)。
图2 糖尿病Logistic 回归预测(与KNN 预测模型分类性能比较)
3.1 糖尿病遗传因素与糖尿病的关系 研究表明,遗传因素是糖尿病的高危诱因,这与已有的临床研究结果[5-7]一致。这就提示医护人员应密切关注有糖尿病家族史的人员的糖尿病诱发因素,通过健康指导和临床干预进行控制,降低患病风险。
3.2 妊娠次数与糖尿病的关系 研究表明,多次妊娠是糖尿病发病的高危因素,这在已有的研究[8-10]中也得到证实。因此,对妊娠期妇女,应密切关注其血糖的变化,必要时给予临床干预,如补充维生素D 等[11],降低妊娠期糖尿病发病风险。
3.3 肥胖与糖尿病的关系 研究表明,BMI 高是糖尿病的高危诱因。这是因为BMI 高的人极易产生高胰岛素血症,从而使胰岛素降糖作用受阻,引发糖尿病。因此,预防糖尿病,需注意健康饮食,积极控制体重[12]。
3.4 血浆葡萄糖含量与糖尿病的关系 血糖过高是糖尿病的高危诱因。这是因为摄食过多的糖类时,身体内就会持续产生胰岛素,以提高对糖类的吸收。久而久之,人体内的胰腺功能将会下降,导致人体血糖浓度升高,从而导致高血糖[13]。这也警示人们日常少食高糖食品。对于高血糖人群,需要通过服药或其他干预措施,积极降糖,使其血糖维持在正常水平。
遗传因素、妊娠次数、BMI、血浆葡萄糖含量是糖尿病发病的重要影响因素。年龄、三头肌皮褶厚度、胰岛素水平虽与糖尿病有关,但非重要影响因素。但也有文献研究认为年龄是糖尿病的高危影响因素[14-15],这点在本研究中并未得到证实,需要今后进一步探索。