逻辑回归与关联分析膳食习惯对慢性代谢疾病的影响

2021-03-10 09:20王金虹张晓薇马斌
电子技术与软件工程 2021年20期
关键词:项集置信度关联

王金虹 张晓薇 马斌

(山西中医药大学 山西省太原市 030024)

1 引言

2019年国务院发布《关于实施健康中国行动的意见》指出高盐、高油、高糖摄入等不合理膳食行为是影响人群健康的主要危险因素,会导致肥胖、糖尿病、高血压、脑卒中、冠心病等疾病的发生发展。《意见》还提出通过合理膳食行动,到2022年和2030年,成人肥胖增长率持续减缓,成人脂肪供能比下降到32%和30%。研究表明北方地区总体糖尿病患病率高于全国平均以及南方,尤其是北方农村地区,糖尿病增长率特别突出。成年人的脂肪肝发病率也逐年增加,40 岁以上的男性脂肪肝发病率大于30%[1-2]。

近年来许多学者都围绕我国及各地区居民生活习惯、居住环境等健康影响因素及常见病、慢性病开展了流行病学调研及前瞻性研究。研究地区涉及有全国范围、陕西、北京、云南、新疆、江苏、河南、吉林等[4-10],山西省研究相对欠缺。研究主要采用统计方法,只有个别采用遗传算法与粗糙集等从算法角度进行分析。本研究采用逻辑回归与关联算法对山西人口尤其是农村人口生活习惯特别是膳食习惯对代谢疾病的影响分析,以网络在线调研和现场随机调研的方式进行广泛调查,再通过数据挖掘算法深入分析膳食习惯与慢性病的关联关系,为我省慢病为慢性病的公共卫生干预方法提供相关依据。

2 研究框架与研究方法

2.1 研究思路与框架

研究在查阅文献资料的基础上,结合山西当地地域特点及居民生活习惯,进行问卷设计,经过预调查处理,再依托问卷星平台向我省11 个地区居民进行线上问卷调研,而后对收回的数据进行冗余记录、缺失数据及规范化标准化预处理。为了提高分析的可行性和准确性,首先对影响常见慢性代谢疾病(如糖尿病、高血压、高脂血症等)的主要有效特征进行提取,而后对提取到的各疾病的主要有效特征进行关联分析,从而找出影响常见慢性代谢疾病的因素及影响作用。本研究的研究思路与框架如图1所示。

图1:研究思路与框架图

2.2 研究方法

2.2.1 问卷设计与调查

研究在参考国务院发布的《关于实施健康中国行动的意见》《“健康中国2030”规划纲要》和《饮食质量改变与总死亡率和死因别死亡率之间的关系》等文献资料的基础上,参照公共卫生科学数据中心、国家人口健康科学数据中心、中国健康与营养调查(CHNS)等数据库,结合实际,设计了包含个人基本情况、饮食习惯、其他生活习惯及健康认识等四个方面共有127 个问题的调研问卷,涉及到性别、年龄、民族、文化水平、经济状况等个人基本情况,也包含有高血压,糖尿病等疾病史以及食物摄入频率、饮食习惯和生活方式等内容。问卷主要采用选择题方式作答,有单选题、多选题两种。经过问卷的预预调查,将题目中的35 个单选题目以矩阵单选题目方式改进,最后形成了88 个在线问题。之后通过问卷星平台,向我省11 个地区居民进行线上调研,同时到我省多家医院体检中心和内分泌科进行随机流行病调查,共收集了2801 份调查问卷。

2.2.2 数据预处理

对收回的2801 份调查问卷进行了冗余记录的删除、多选题向单选题的拆分转换,而后运用算法对缺失属性值进行处理、将数据格式转换,最后形成了包含2699 条记录、281 个属性的有效数据表。

缺失数据处理:问卷调查受人为因素影响,存在数据填写不完全问题,研究采用拉格朗日插值法对缺失数据进行了填充。插值法是利用函数f(x)在某区间中若干点的函数值,作出适当的特定函数,在这些点上取己知值,在区间的其他点上用这特定函数的值作为函数f(x)的近似值来补充缺失值[13]。

一般地,对于平面上已知的任意互不相同的n 个点,可以找到一个n-1 次多项式,使此多项式曲线过这n 个点。将n 个点的坐标代入多项式函数,可求得拉格朗日多项式,如公式(1)所示:

将缺失的函数值对应的点x 代入插值多项式得到缺失值的近似值L(x)。

2.2.3 数据分析

(1)有效特征提取。经过数据预处理得到的数据表为2699×281,其中包含糖尿病、高血压、高血脂等慢性代谢疾病,为了找出影响代谢疾病的影响因素,首先利用逻辑回归算法对这些慢性代谢疾病的有效特征进行了提取。

回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构形体及进行预测的一种有效工具。逻辑回归是利用逻辑函数、建立在与自变量之间的线性回归模型,将因变量的取值范围控制在0 和1 之间,表示取值为1 的概率[13]。逻辑回归方程如公式(2)所示:

β0:在没有自变量,即x1,x2,…,xp全部取0,y=1 与y=0 发生概率之比的自然对数;

β1:某自变量xi变化时,即xi=1 与xi=0 相比,y=1 优势比的对数值。

研究采用python 语言利用Scikit-Learn 对数据进行逻辑回归分析,对影响常见慢性代谢疾病的特征数据进行了提取。首先利用Scikit-Learn 的feature_selection 库中的F 检验给出各个特征的F 值和p 值,再使用稳定性选择方法中的随机逻辑回归进行特征筛选,然后利用筛选后的特征建立逻辑回归模型,输出平均正确率。

(2)关联分析。居民生活方式对其慢性代谢疾病的影响是有规律可循的,这些规律隐藏在大量的生活数据中,如果能够快速找出这些规律,对于指导居民健康生活具有很大作用,研究通过关联分析法分析影响常见慢性代谢疾病的因素关系[14]。

①关联规则的一般形式。

项集A、B 同时发生的概率称为关联规则的支持度(也称相对支持度),如公式(3)所示。

项集A 发生,则项集B 发生的概率为关联规则的置信度,如公式(4)所示。

②最小支持度和最小置信度。

最小支持度是用户或专家定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性;最小置信度是用户或专家定义的衡量置信度的一个阈值,表示关联规则的最低可靠性,同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。

③项集。

项集是项的集合。包含k 个项的项集成为k 项集。项集的出现频率是所有包含项集的事务计数,又称作绝对支持度或支持度计数。如果项集I 的相对支持度满足预定义的最小支持度阈值,则I 是频繁项集。把频繁k 项集记作k。

④支持度计数。

项集A 的支持度计数是事务数据中包含项集A 的事务个数,简称项集的频率或计数。

已知项集的支持度计数,则规则A⇒B 的支持度和置信度的推导计数如公式(5)、(6)所示。

所以,只要知道所有事务计数、项集A、B 和项集A ∩ B 的支持度计数,就可以导出对应的关联规则A⇒B 和B⇒A,并可以检查该规则是否是强规则。

研究采用python 语言实现Apriori 算法,对影响各慢性代谢疾病的有效特征进行了关联分析,研究设定最小支持度和最小置信度,首先通过连接和剪枝两步的相互融合,找出事务集中所有支持度大于等于给定最小支持度阈值的频繁项集,然后从最大频繁项集中选择同时满足预定的最小置信度阈值的规则,得到所需的强关联规则。

3 分析结果

经过预处理生成包含2699 条记录、281 个属性的数据表,而后对各表中的数据进行了从文本向数字的数据类型转换,将所有数值转换为“0”、“1”标准数据,“1”表示该属性值存在与出现,“0”表示不存在。

3.1 有效特征提取

研究采用python 语言利用Scikit-Learn 对数据进行逻辑回归分析,对影响常见慢性代谢疾病的特征数据进行了提取。

3.1.1 糖尿病的有效特征

将糖尿病及相关属性合并作为因变量,其他属性作为自变量,经过逻辑回归运算,平均正确率大于0.85 的糖尿病有效特征如表1所示。

表1:糖尿病有效特征

3.1.2 高血压的有效特征

将高血压及相关属性合并作为因变量,其他属性作为自变量,经过逻辑回归运算,平均正确率大于0.93 的高血压有效特征如表2所示。

表2:高血压有效特征

3.1.3 高脂血症的有效特征

将高脂血症及相关属性合并作为因变量,其他属性作为自变量,经过逻辑回归运算,平均正确率大于0.92 的高脂血症有效特征如表3所示。

表3:高脂血症有效特征

3.1.4 脂肪肝的有效特征

将脂肪肝及相关属性合并作为因变量,其他属性作为自变量,经过逻辑回归运算,平均正确率大于0.90 的脂肪肝有效特征如表4所示。

表4:脂肪肝有效特征

3.2 有效特征的关联分析

研究采用Apriori 算法思想,通过python 程序,在前期分析的基础上,对影响常见慢性代谢疾病有效特征进行了关联分析。最小支持度为0.6,最小置信度为0.8 下糖尿病有效特征关联分析结果如表5所示。

表5:糖尿病有效特征的关联分析

最小支持度为0.6,最小置信度为0.7 下高血压有效特征关联分析结果如表6所示。

表6:高血压有效特征的关联分析

最小支持度为0.6,最小置信度为0.8 下高血压有效特征关联分析结果如表7所示。

表7:高脂血症有效特征的关联分析

4 讨论

慢性代谢性疾病是全世界面临的最大挑战,是人类的第一杀手,已成为我国居民的主要致贫原因和第一死亡原因,是一种生活方式疾病,长期饮食的四高:高热(量)、高糖、高盐、高脂及生活的两低:活动不足、睡眠不足等不健康生活方式是疾病发生、发展的主要危险因素,不合理的膳食是中国人疾病发生和死亡的最主要因素[15]。项目主要研究了山西省居民膳食习惯对代谢疾病的影响。

研究结果显示,影响糖尿病的有效特征主要有年龄、血压状况、血脂状况、早餐饮食情况、午餐晚餐米面摄入情况等21 个特征;影响高血压的主要有年龄、血脂状况、脂肪肝状况、冠心病患病情况、外出吃饭情况等13 个特征;影响高脂血症的主要有年龄、BMI 体重、脂肪肝状况、血压状况、午餐晚餐米面摄入情况、在家做饭吃饭情况等20 个特征;影响脂肪肝的主要有体重、血压状况、在家做饭吃情况等13 个特征。从有效特征提取结果来看,糖尿病、高血压、高血脂症互为有效特征,互相影响;年龄、外出吃饭或者点外卖还是经常在家吃饭是影响常见慢性代谢疾病的主要因素;吸烟、饮酒也是重要有效特征;BMI 体重是高脂血症及脂肪肝的重要影响因素。可见,随着年龄增长,患慢性代谢疾病的风险将增加;需要有效控制体重;习惯性在外就餐或外卖点餐存在油盐过度消费,以及膳食结构不合理问题[15],无法有效控制饮食中热量、糖、盐及脂肪的摄入量。研究表明,高盐摄入能够增加高血压的发病风险,反式脂肪酸摄入过多可导致心血管疾病死亡风险升高,过多摄入含糖饮料可增加肥胖发生风险及2 型糖尿病的发病风险[15]。碳酸饮料也是影响慢性代谢性疾病的重要因素,研究表明,城市人群游离糖摄入有42.1%来自于含糖饮料和乳饮品[15]。

从关联分析结果可以看出,正常血压及血脂能够有效保持血糖正常,以饮用水的方式补充水分、不喝碳酸饮料、很少外出吃饭、米面搭配均衡等是保持血糖正常的良好生活习惯。血脂正常能够有效保持血压正常,经常跑步锻炼、自己做饭、正常作息等都是保持血压正常的良好生活习惯。另外工作一天后无心悸、胸闷并伴随头晕症状一般说明血压正常。正常血压能够有效保持血脂正常,不喝饮品类零食、米面搭配均衡、经常自己做饭、走路锻炼等是保持血脂正常的良好生活习惯。可见,保持身体健康就要做到饮食均衡、低糖低脂低油低盐摄入等健康膳食模式,也要多参加户外活动,适当运动可以减少或延缓体重增加过多风险,健康生活方式可以降低心血管疾病、高血压、2 型糖尿病等慢性疾病的发生风险[15]。

5 结语

本研究基于逻辑回归和关联算法,利用python 语言分析了山西膳食习惯对中医代谢疾病的影响,分析提取了影响糖尿病、高血压、高脂血症及脂肪肝等常见慢性代谢性疾病的特征数据,分析了影响糖尿病、高血压及高血脂症常见慢性代谢性疾病的饮食及生活习惯,总结了合理膳食、适量运动、戒烟限酒、保持良好作息规律等健康生活方式,为我省慢性病的公共卫生干预方法提供一定的依据与参考。

猜你喜欢
项集置信度关联
硼铝复合材料硼含量置信度临界安全分析研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
正负关联规则两级置信度阈值设置方法
奇趣搭配
智趣
置信度条件下轴承寿命的可靠度分析
一种频繁核心项集的快速挖掘算法
多假设用于同一结论时综合置信度计算的新方法✴
一种新的改进Apriori算法*