三种风险预测模型预测钢铁工人颈动脉粥样硬化的效能比较

2022-03-23 13:04王娇娇陈圆煜郑子薇杨永忠陈哲李超王海东武建辉王国立
中国全科医学 2022年11期
关键词:胆固醇噪声预测

王娇娇,陈圆煜,郑子薇,杨永忠,陈哲,李超,王海东,武建辉,王国立

颈动脉粥样硬化(carotid atherosclerosis,CAS)是一种以内膜大、中动脉增厚为特征的病理改变[1],是心脑血管疾病的诱因[2],其高发病率和致残率不同程度地影响着人类健康[3]。钢铁工人作为钢铁企业的主力军,长期暴露于粉尘、高温、噪声等危险因素并面临职业紧张和倒班的压力,CAS发生率也随之增加[4]。

目前,机器学习已广泛应用于医学预测模型,支持向量机(Support Vector Machine,SVM)、BP神经网络(Back Propagation Neural Network,BPNN)与随机森林(Random Forest,RF)模型是机器学习中的3项重要技术,其中SVM模型的学习和泛化能力比较强,常应用于文本识别、车辆交通、医疗检测等领域;BPNN模型在预测和函数逼近方面具有明显的优势;RF模型凭借计算效率高、训练速度快而对各行各业的数据分析均能起到推动作用;三者均能够从海量数据中快速挖掘出有效信息,但对于不同的数据类型三者的应用效果不同。目前关于3种模型预测钢铁工人CAS效能方面的比较还鲜有报道。本研究采用SVM、BPNN和RF模型构建钢铁工人CAS的风险预测模型,并比较三者的预测性能,以期为这一群体的健康保护与促进以及CAS的预防提供指导。

1 对象与方法

1.1 研究对象 选取2017年3—6月在唐山市弘慈医院进行体检和健康监测的4 568例钢铁工人。纳入标准:在岗,且工龄≥1年。排除标准:接触过有害影响因素者(现在不倒班、不接触高温作业、噪声作业),变量信息缺失者。本研究经华北理工大学伦理委员会审核通过(审批号为15006),研究对象均知情同意。

1.2 资料收集 所有团队成员经统一培训后,按照本团队编写的《健康评估检查表》进行调查,调查内容包括:(1)人口学特征:性别、年龄、体质指数(BMI)、文化程度、婚姻状况;(2)个人的行为生活习惯与方式:吸烟(指连续或累计吸烟6个月以上,并且每天至少吸烟1支[5])、饮酒〔无论酒水类型(白酒、啤酒、葡萄酒等),≥2次/周,乙醇摄入量≥50 g/次,连续饮用≥1年[5]〕;(3)个人病史:高血压、糖尿病、CAS家族史;(4)职业史:倒班、高温作业、噪声作业。

1.3 实验室检查 经研究对象同意后,由医院采集其晨起空腹静脉血,使用迈瑞全自动生化分析仪(BS-800)进行血生化检查(胆固醇、三酰甘油、同型半胱氨酸),采集晨尿进行尿酸分析。高胆固醇标准:总胆固醇≥6.2 mmol/L,高三酰甘油标准:三酰甘油≥2.3 mmol/L,高同型半胱氨酸标准:同型半胱氨酸≥15 μmmol/L,高尿酸血症标准:男≥420 μmmol/L;女≥ 360 μmmol/L。

1.4 CAS的诊断 由同一超声专业医师使用便携式彩色多普勒超声系统进行诊断,诊断标准:左右侧颈总动脉、颈内动脉、颈外动脉内膜中层厚度(IMT)≥1.0 mm为增厚,IMT≥1.3 mm为斑块;发现以上任一种情况者即为CAS[6]。

1.5 质量控制 所有团队成员通过统一培训后,一对一指导研究对象填写《健康评估检查表》,双人核对录入数据库,对所用仪器进行严格校正。

1.6 统计学方法 采用SPSS 22.0软件进行统计学分析。符合正态分布的计量资料以(±s)表示,两组间比较采用成组t检验,多组间比较采用方差分析;非正态分布的计量资料以M(P25,P75)表示,组间比较采用非参数检验。计数资料以相对数表示,组间比较采用χ2检验。采用非条件多因素Logistic回归分析探讨钢铁工人发生CAS的影响因素。检验水准α=0.05(双侧)。

1.7 建立模型 运用SPSS Modeler 18.0导入输入变量后,在原始数据下SVM、BPNN和RF 3种模型具有较低的灵敏度,但具有较高的特异度,故在建立模型前借助R3.6.1中的ROSE包来平衡数据。3种模型均按7∶3的比例将样本数据分为训练集和测试集。训练集用于建立模型,测试集用于验证模型。SVM模型是由ε-DVR和径向基核函数共同构建的;BPNN模型以ai(i=1,2,3…N)数据作为输入神经元,B则作为输出神经元,构建三层BPNN;RF模型按照bootstrap取样,组成训练集,用未抽取的样本进行预测,评价其效能。

1.8 模型效能指标 从真实性〔灵敏度、特异度、约登指数、阳性似然比、阴性似然比、受试者工作特征(ROC)曲线下面积(AUC)〕、可靠性(准确率、Kappa值)、预测值(阳性预测值、阴性预测值)3个方面评价模型预测效能。使用Medcalc软件绘制ROC曲线,计算AUC及其95%CI。

2 结果

2.1 基本情况 4 568例研究对象中男4 185例,女383例;平均年龄(44.6±7.8)岁;检出CAS患者1 264例,检出率为27.67%。

2.2 不同特征钢铁工人CAS发生率比较 是否饮酒、高胆固醇、高尿酸血症、CAS家族史、高温作业、噪声作业、倒班的钢铁工人CAS发生率比较,差异有统计学意义(P<0.05);不同性别、年龄、BMI、文化程度、婚姻状况及是否高血压、糖尿病、高三酰甘油、高同型半胱氨酸的钢铁工人CAS发生率比较,差异无统计学意义(P>0.05),见表1。

表1 不同特征钢铁工人CAS发生率比较〔n(%)〕Table 1 Comparison of carotid atherosclerosis prevalence among steelworkers with different characteristics

2.3 钢铁工人发生CAS影响因素的非条件多因素Logistic回归分析 以是否发生CAS(赋值:否=1,是=2)作为因变量,以表1中差异有统计学意义的饮酒(赋值:否=1,是=2)、CAS家族史(赋值:否=1,是=2)、倒班(赋值:否=1,是=2)、高温作业(赋值:否=1,是=2)、噪声作业(赋值:否=1,是=2)、高胆固醇(赋值:否=1,是=2)、高尿酸血症(赋值:否=1,是=2)为自变量,进行非条件多因素Logistic回归分析(向前法),结果显示CAS家族史、高温作业、噪声作业、高胆固醇是钢铁工人发生CAS的影响因素(P<0.05),见表2。

表2 CAS影响因素的非条件多因素Logistic回归分析Table 2 Unconditioned multivariate Logistic regression analysis of factors associated with carotid atherosclerosis in steelworkers

2.4 输入变量的选择 结合非条件多因素Logistic回归分析结果,查阅相关文献[7-8],确定性别、年龄、BMI、吸烟、饮酒、高血压、糖尿病、CAS家族史、倒班、高温作业、噪声作业、高胆固醇、高三酰甘油、高同型半胱氨酸、高尿酸血症、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)和睡眠障碍18个变量为输入变量。

2.5 3种CAS风险预测模型的预测效能比较 采用欠采样的方法,CAS和非CAS的例数由原先的1 264、3 304例(平衡前)采样为1 264、1 264例(平衡后)。

训练集显示:在真实性上,RF模型的特异度、约登指数、阳性似然比高于SVM和BPNN模型;在可靠性上,RF模型的准确率和Kappa值均高于其余两种模型;RF模型的阳性预测值最高,而SVM模型的阴性预测值在3种模型中最高,见表3。3种模型灵敏度、特异度、准确率和AUC两两比较,差异有统计学意义(P<0.05),见表4、图1。

表3 3种模型的预测效能比较Table 3 Comparison of performance of SVM-,BPNN- and RF-based models in predicting the risk of carotid atherosclerosis in steelworkers

图1 3种模型训练集(A)和测试集(B)ROC曲线图Figure 1 ROC analysis of SVM-,BPNN- and RF-based models in predicting the risk of carotid atherosclerosis in steelworkers in the training set (left)and the test set (right)

表4 3种模型预测效能在训练集和测试集的比较Table 4 Comparison of the performance of SVM-,BPNN- and RF-based models in predicting the risk of carotid atherosclerosis in steelworkers in the training set and the test set

测试集显示:在真实性上,SVM模型的特异度、约登指数、灵敏度、AUC高于其余两种模型,阴性似然比最低;从可靠性和预测值来看,SVM模型准确率、Kappa值、阳性预测值和阴性预测值高于其余两种模型,见表3。SVM模型灵敏度、准确率和AUC与其余两种模型比较,差异有统计学意义(P<0.05),见表4、图1。

3 讨论

本研究对4 568例钢铁工人进行调查,共检出1 264例CAS患者,CAS检出率是27.67%,高于一般人群(22.06%~25.57%)[9-10],但是与重庆中老年钢铁工人(37.6%)[11]相比偏低,与其他报道相比也较低,如辽宁省农村地区人群CAS检出率42.1%[12],东北40岁以上的成年人为42.1%[13]。原因可能为:一方面年龄构成不同,姚利和[14]、SONG等[15]研究表明年龄增大是CAS的危险因素;另一方面健康工人效应也是造成CAS检出率较低的一个重要原因[16]。

通过非条件多因素Logistic回归分析发现,噪声作业、高温作业、高胆固醇、CAS家族史为CAS的有效预测因素,既往研究表明总胆固醇水平和CAS家族史均为CAS的影响因素[17-19]。本研究结果显示,高温作业和噪声作业为CAS的影响因素。张童等[20]研究表明钢铁工人在高温环境中维生素C的情况较差导致血尿酸升高,进而导致心血管疾病;CUI等[21]提出随着累积高温暴露的增加,钢铁工人患高血压的风险增加。王海东[19]研究表明钢铁工人在工作中面临的累积噪声暴露量会作用于钢铁工人的近端病因,从而间接增加颈动脉内膜中膜厚度。已有研究显示,高温环境和噪声水平之间存在交互作用,当钢铁工人同时暴露于高温和噪声时其高血压的发病风险会上升[22]。倒班作业产生的时差、睡眠中断、食物消耗的变化会导致人体的昼夜节律失调和紊乱,进而导致患高血压、糖尿病等疾病的发生风险增加。而高血压和其他上述疾病与CAS的发生密切相关[19]。利用CAS的危险因素来预测CAS危险度,对于CAS的预防和早期筛查具有重要意义。

在选择输入变量时,不仅要考虑在非条件多因素Logistic回归分析中有意义的变量,还要考虑已有研究发现的有意义的变量,以方便找出CAS的预测因素。对于传统分类算法,在建立预测模型之前,通过统计处理将不平衡数据转化为平衡数据,最大限度地提升了所使用模型的预测能力,避免了模型的分类准确性降低,以及分类结果不理想。

本研究结果显示,SVM、BPNN和RF 3种模型训练集对比测试集的准确率为83.81 vs 85.70、79.27 vs 75.46、86.60 vs 73.37,可以发现RF模型的训练能力最强,但是其测试能力弱于SVM模型。出现这种情况原因可能为:模型自身具有一定的随机性,并且受训练次数、学习率大小、参数设置及网络规模等影响[23];RF模型的泛化误差比较大;另外在机器学习中,如果学习机在训练样本上的学习能力过强将会产生一些消极影响[24],比如本研究中RF模型的训练能力过强,会产生过拟合问题。近年来,SVM模型在疾病预测方面的应用越来越多,在解决小样本、非线性问题上具有较好的推广和泛化能力。例如田占霄等[25]提出SVM模型对精神分裂症识别具有一定的判别作用;杨志燕等[26]表明SVM模型为预测急性百草枯中毒患者的预后提供了一种新方法。AUC是分类器好坏的性能指标,本研究结果显示SVM模型在训练集中的AUC与RF模型没有太大的差异(0.84 vs 0.86),表明SVM模型在训练集和测试集中均表现出了较强的预测效果,进一步推断出SVM模型综合实力最强,是预测钢铁工人CAS发生风险最好的模型。

在本研究中,输入的变量中部分差异无统计学意义,这可能影响了模型的预测效果。因此,以后的研究应着重探讨影响CAS和非CAS差异较大的因素,使本研究提出的SVM模型能够提供更好的预测效果。另外,还应进一步完善现有算法,并考虑多种算法结合运用,以提高预测钢铁工人CAS准确率,为实现钢铁工人CAS的早期预防提供依据,进而提升其生活质量。

综上所述,噪声作业、高温作业、高胆固醇、CAS家族史可能对钢铁工CAS的发病有一定的预测价值;SVM模型预测钢铁工人发生CAS的效果最佳。

作者贡献:王娇娇进行研究的设计与实施、数据的收集、撰写论文并对文章整体负责;陈圆煜、郑子薇、杨永忠、陈哲、李超、王海东进行研究的实施、评估、资料收集;武建辉、王国立进行质量控制、稿件的初步修改与校对,对文章整体负责。

本文无利益冲突。

猜你喜欢
胆固醇噪声预测
舰船通信中的噪声消除研究
无可预测
谈谈胆固醇
降低胆固醇的药物(上)
降低胆固醇的药物(下)
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
汽车制造企业噪声综合治理实践
胆固醇稍高可以不吃药吗等7题…