基于数据挖掘技术对2型糖尿病肾病进展的影响因素分析

2021-05-06 07:36余萍刘欢李刚四川省医学科学院四川省人民医院药学部成都6007四川省交通运输厅公路局医院成都673
中南药学 2021年4期
关键词:降糖数据挖掘进展

余萍,刘欢,李刚*(.四川省医学科学院·四川省人民医院药学部,成都 6007;.四川省交通运输厅公路局医院,成都 673)

我国2 型糖尿病(T2DM)患者血糖达标率仅为47.7%[1],导致我国约20%~40%的糖尿病患者合并糖尿病肾病[2],糖尿病已成为慢性肾疾病和终末期肾病进展的主要原因[3]。对T2DM 肾病进展的影响因素进行全面分析,针对性地加强重要影响因素的自我管理,是提高血糖控制率、延缓糖尿病肾病进展的重要手段[4]。由于糖尿病肾病患者年龄、病程、降糖方案未调整时间等个体差异大,降糖药物种类多、用药方案复杂,影响因素变量多,不易分析,且多种影响因素间可能存在交互作用,传统基于概率论与数理统计的方法难以甄别关键因素。本研究通过数据挖掘技术结合数理统计,研究影响T2DM 肾病进展的重要因素以及重要因素之间的关系,并建立糖尿病肾病进展的预测模型,为T2DM患者的个体化管理提供证据支持,为糖尿病肾病影响因素全面分析和预测研究的模式提供新思路。

1 材料与方法

1.1 数据来源

本研究为患者长期使用降糖药物控制血糖的T2DM 肾病进展的真实世界研究,研究数据为2010年1月-2015年12月在四川省人民医院住院并经明确诊断的T2DM,超过1年未监测血糖也未改变过用药方案的166例T2DM 患者的数据。剔除了重复住院者、肝脏功能不全者、在住院日期起12 个月内访问过任何医疗机构(药店除外)的患者、非化学药物治疗T2DM 者(包括未接受治疗者,接受过减肥手术、针灸、中药等治疗的患者)。由两名研究者独立完成病例筛选及提取数据,保障数据的准确性、完整性、一致性,并隐藏患者的姓名、电话号码、家庭住址等隐私信息,保障患者数据安全。每个病例包括患者基本信息(性别、年龄、遗传史、病程等)、用药行为(包括用药数量、种类、降糖方案未调整时间等)、血糖控制情况及肾功能等主要内容。

1.2 数据挖掘预处理

结合医药专业知识对原始数据进行填充、归约、清洗,将用于构建模型的数据转换为统一格式。阅读病历根据医药专业知识填充缺失值,设定缺失值范围,根据矩阵算法填充最可能的值缺失值;根据肾小球滤过率(eGFR)对慢性肾脏病(CKD)分期[5]并对肾功能分级;根据2017ADA[6]不同糖化水平联用药物的标准对糖化血红蛋白分级;根据2016 中国成人血脂异常防治指南[7]对血脂异常分级;考虑糖尿病发病进展情况[4],结合年龄分布聚类分析对年龄进行分段;结合疾病进展对糖尿病病程和降糖方案未调整时间分段,精简、优化数据;药物分类根据药学先验知识对药物进行有效合并、新建字段和特征聚类;通过归约数据,提高挖掘效率。选取特征数据,使用特征选择模型发现存在数据质量问题的特征项,过滤噪声。

1.3 数据挖掘软件和统计软件

使用IBM 公司的SPSS Modeler 18.0 作为数据挖掘工具,使用SAS 9.21 软件进行统计。

1.4 数据挖掘步骤

数据挖掘技术(data mining,DM)是从大量的、不完全的、随机的、有噪声的数据信息之中挖掘出潜在有价值的信息的一个过程[8]。本研究按照跨行业数据挖掘标准(CRISP-DM)进行,包括准备数据;对收集的数据进行数据预处理;利用特征筛选模型排除如单个类别大于95%或缺失值大于50%的字段;使用分区工具将数据分为训练集(70%)、测试集(15%)、验证集(15%),有效评估模型的性能;利用自动建模筛选出最优的几个模型,综合考虑整体准确性、曲线下面积和使用字段数进行模型筛选;影响因素最终使用CART、SVM、贝叶斯网络、QUEST、类神经网络5 种挖掘模型分别建模,然后调整模型参数,采用倾向性评分控制混杂因素、均衡各对比组间各特征变量的可比性[9],通过boosting 学习增强准确度,bagging学习增强稳定性,组合系列模型提高总体准确率,以达到最佳预测模型(见图1)。所得到的预测结果可为前瞻性研究及临床实际工作提供方向与思路。

图1 T2DM 肾病进展的影响因素数据挖掘流程图Fig 1 Data mining flow chart of influencing factors for the progression of T2DM nephropathy

2 结果

2.1 基本信息

使用SAS 统计软件对发生T2DM 肾病组(病例组)与未发生组(对照组)的性别、遗传史进行卡方检验,并对年龄、糖尿病病程、降糖方案未调整时间、糖化血红蛋白、血脂异常进行Cochran-Armitage趋势检验。性别、年龄分段、糖尿病病程分段、遗传史、降糖方案未调整时间分段、血脂异常、糖化血红蛋白分段、不同药物与肾功能分级分布情况见表1。

表1 肾功能分级分布Tab 1 Grading of renal function

2.2 数据挖掘挖掘结果

2.2.1 影响不良反应是否发生的重要因素 使用CART、SVM、贝叶斯网络、QUEST、类神经网络5 种挖掘模型的整体准确性较好(训练集100%、测试集71.43%、验证集68.75%),曲线下面积(训练集100%、测试集82.5%、验证集76.6%),并对模型性能进行ROC 评估[10],ROC 性能优良(见图2),可见模型结果可靠。影响T2DM 肾病进展的重要因素前5 位分别为降糖方案未调整时间、注射类降糖药种数、糖尿病病程、口服+注射联用降糖药物、口服降糖药种数,重要性分别为0.27、0.25、0.19、0.11、0.07(见图3)。降糖方案未调整时间、糖尿病病程、药物因素重要性较大,与T2DM 进展关系密切。故接下来对这3个因素进行深入挖掘。

图2 T2DM 肾病进展的影响因素预测模型ROC 性能评估Fig 2 ROC performance evaluation of the predicting model of influencing factors for the progression of T2DM nephropathy

图3 T2DM 肾病进展的影响因素预测变量重要性图Fig 3 Significance chart of influencing factors and predictors of the progression of T2DM nephropathy

2.2.2 降糖方案未调整时间与T2DM 肾病进展的关系 降糖方案未调整时间越长,T2DM 患有并发症的数量越多;病程愈久,T2DM 患有并发症的数量愈多。降糖方案未调整时间≥3年的T2DM 患者中,3 ~5年病程的并发症数量高于6 ~10年病程(见图4)。

图4 降糖方案未调整时间、病程与T2DM 并发症数的热力图Fig 4 Thermal chart of unadjusted time of regimen,course of disease and number of T2DM complications

降糖方案未调整时间在2~3年对在病程3~5年的患者发生T2DM 肾病影响显著,提示病程≥3年患者若2年以上未调整用药方案,血糖控制率仅为12.90%,应加强血糖、血脂监测,必要时及时就医调整用药方案,以防血糖控制不佳造成糖尿病肾病的发生。患者若未调整降糖方案时间<2年,病程>5年开始发生T2DM 肾病可能性显著提高,提示对于糖尿病病程>5年的患者来说,尽管未调整降糖方案时间<2年,但其亦开始出现控制不佳的情况,血糖控制率为18.68%,也应加强血糖等监测,强化血糖控制(见图5)。

图5 降糖方案未调整时间、病程与T2DM 肾病是否发生的气泡图Fig 5 Bubble diagram of unadjusted time,course of disease and occurrence of T2DM nephropathy

降糖方案未调整时间对T2DM 肾病程度仅在糖尿病病程3 ~5年,2年以上未调整用药方案时影响较大,其余时间影响较小(见图6)。

图6 降糖方案未调整时间、病程与T2DM 肾病进展程度的气泡图Fig 6 Bubble diagram of unadjusted time of regimen,course and progression of T2DM kidney disease

2.2.3 影响T2DM 肾病是否发生的重要药物因素 T2DM 肾病进展的药物因素预测模型整体准确性较好(训练集84.07%、测试集76.19%、验证集65.62%),药物因素中按重要性前5 位分别为降糖药物总数、二甲双胍、赖脯胰岛素(优泌乐)、西格列汀(捷诺维)、甘精胰岛素(来得时),重要性分别为0.25、0.15、0.15、0.10、0.05(见图7)。

图7 T2DM 肾病进展的药物因素强度分析图Fig 7 Drug-factor intensity in the progression of T2DM nephropathy

3 讨论

如何使用适当的数据挖掘技术对T2DM 复杂的临床数据进行深度分析,查找影响T2DM 肾病发生、进展的重要因素及因素之间的相互作用,是糖尿病个体化、精细化管理的难点问题。临床数据可靠性、数据规范化、数据挖掘模型的选择和算法的优化对数据挖掘的准确性有重要影响。本研究利用数据挖掘技术结合数理统计,并融合医药专业知识对数据进行填充、归约、清洗,保证数据的真实性、准确性、一致性,并通过调试模型参数,有效提高挖掘探测的精确性和模型性能。

降糖方案未调整时间对T2DM 肾病程度仅在糖尿病病程3 ~5年且2年以上未调整用药方案时段影响较大,其余时间影响较小。可能是病程≥3年且2年以上未调整用药方案的患者血糖控制率不佳,发生糖尿病肾病的可能较大,这个时间段是发生T2DM 肾病的关键时期。一旦发展成T2DM 肾病,用药方案未及时调整,易发展到T2DM 肾病严重状态。

降糖药物种数影响较大的原因一方面很可能与临床未根据糖尿病疾病程度选择合并药物种数有关,根据2017ADA 指南[6],糖化血红蛋白在>9%时开始联用药物,>10%时才开始联合胰岛素治疗。从另一方面来看,在合并用药时,未按照药物代谢动力学特点对其剂量进行适当调整亦是一个重要原因。如二甲双胍是T2DM 治疗的基础药物,使用频繁,虽然二甲双胍本身无肾脏毒性,但肾功能受损时可能在体内蓄积,应及时调整用药[11]。西格列汀是二肽基肽酶Ⅳ(DPP-4)抑制剂,2013 IDF老年2 型糖尿病防治全球指南指出DPP-4 抑制剂可作为一线治疗药物[12],西格列汀87%经肾脏排泄,肾损伤时需调整用药剂量[13]。赖脯胰岛素属于超短效胰岛素,即使在肾功能差别很大的T2DM 患者中,药代动力学基本保持不变[14],可在肾病患者中使用[15]。甘精胰岛素属于特慢长效胰岛素,可用于晚期糖尿病肾病患者的治疗[16]。此外,从研究结果来看,虽然注射降糖药物和T2DM 肾病关联,但可能是使用注射降糖药物时T2DM 患者一般疾病程度较重,已经患有T2DM 肾病。

4 结论

利用数据挖掘技术结合数理统计,融合医药专业知识研究了影响T2DM 肾病进展的重要影响因素,探讨患者用药行为、病程、药物等因素与T2DM 肾病进展之间的关系。降糖方案未调整时间与糖尿病病程是T2DM 肾病发生发展的重要影响因素。病程≥3年且2年以上未调整用药方案的患者,血糖控制率很可能不佳;糖尿病病程>5年且未调整方案时间<2年的患者血糖亦开始控制不佳,应加强血糖等的监测,针对性地对T2DM 患者强化血糖控制,进行精准化管理,延缓T2DM 肾病的发生发展。本研究为T2DM 肾病的个体化管理提供了证据支持;为T2DM 肾病进展的影响因素和预测分析的模式提供了新思路:按照CRISP-DM 进行糖尿病精细化管理模式的探索。但本研究也存在一定局限性,限于客观条件,研究仅采集了2010-2015年的病例资料,数据较为陈旧,但糖尿病与肾功能受损的基本规律大致一致,仍具有一定的参考意义。此外,T2DM数据挖掘的预测模型有待临床实践进一步验证,同时结合饮食、运动等生活方式对T2DM 患者用法用量精确化的个体化管理预测的数据挖掘是一个需要探索的重点领域。

猜你喜欢
降糖数据挖掘进展
Micro-SPECT/CT应用进展
探讨人工智能与数据挖掘发展趋势
快乐降糖“穴”起来
大叶榄仁叶化学成分及其降糖活性
HPLC法同时测定降糖甲片中9种成分
降糖“益友”知多少
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
寄生胎的诊治进展
我国土壤污染防治进展