基于CHAID模型的现代人肥胖状况及其成因分析

2020-06-23 02:20李银刘丽芬卢利敏
高师理科学刊 2020年5期
关键词:决策树显著性变量

李银,刘丽芬,卢利敏

(韶关学院 1. 教育学部,2. 数学与统计学院,广东 韶关 512005)

近年来,肥胖危机在我国迅速蔓延,已逐渐成为全球性的健康问题.肥胖人群是一类特殊的群体,肥胖是人体体内脂肪积聚过多导致的现象,不仅影响形体美,更重要的是肥胖人群比正常体质量人群更容易患病,如高血压和糖尿病等[1-6].本文针对韶关市浈江区现代人的肥胖现状,运用决策树方法对韶关市浈江区人员的肥胖现状及其成因进行分析,并利用多元Logistic回归模型和主成分分析法对决策树CHAID模型得出的结果进行检验,为相关决策者制定干预方案提供参考.

1 调查指标选取

世界卫生组织(WHO)一般用身体质量指数(BMI)来对肥胖或超重进行定义,用体质量(kg)数除以身高(m)平方得出的数字,是目前国际上常用的衡量人体胖瘦程度的一个标准.适合中国成年人的肥胖标准为:身体质量指数小于18.5为轻体重,大于等于18.5小于24为健康体重,大于等于24为超重,大于等于28为肥胖.身体质量指数按 B MI ≤ 18.5,18.5 ≤ BMI< 24,24 ≤ BMI< 28, B MI ≥ 28这4个等级水平依次赋值为1,2,3,4.本文在已有研究[7-10]的基础上,得到调查问卷指标(见表1).

表1 调查问卷指标

2 数据的获取与处理

通过问卷星进行网上发放问卷和现场发放现场回收的方式,收集韶关市浈江区居民肥胖状况的相关数据,回收有效问卷196份.问卷采用国际通用的Likert五等级评分法,从“没有”到“总是”按程度不同分为5个选项,依次赋1~5分.正向条目评分与原始分相同,反向条目评分等于6减原始评分.性别与职业因素、年龄因素、代谢因素、睡眠因素、遗传因素、心理因素、运动因素和饮食习惯8个一级指标的得分之和为总分,得分越高对应的肥胖状况应该越严重.

将原始得分换算为转换分数,计算公式为

性别与职业因素理论最高得分为12,理论最低得分为3,因此性别与职业因素的转化分数为

3 肥胖现状及其成因分析的决策树CHAID模型[1]

决策树CHAID模型是利用卡方自动交互检测法快速、有效地挖掘出主要的影响因素,它不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的限制.本文运用决策树方法,建立CHAID模型.

利用性别与职业因素、年龄因素、代谢因素、睡眠因素、遗传因素、心理因素、运动因素和饮食习惯共8个变量共同建立一个决策树CHAID模型来预测肥胖状态的影响因素.

根据建立的决策树CHAID模型,运用SPSS软件对模型进行求解,具体部分操作:选择菜单分析——分类——决策树,打开对话框,将相关变量选入到变量栏中,再进行相关操作,得到最终的自变量为性别与职业因素得分、运动得分和代谢得分.

决策树模型见图1.决策树共分为2层,第1层判断依据是性别与职业因素,第2层判断依据是运动因素和代谢因素.

图1 决策树模型

进行模型风险评估,结果见表2.

表2 风险评估

由表2可以看出,风险评估值为0.388,表示该模型预测判别个案错误率为0.388,模型拟合效果较好.

决策树CHAID模型的分类判别效果见表3(其中:1为轻体重,2为健康体重,3为肥胖/超重).

表3 分类预测效果

由表3可以看出,决策树CHAID模型对大概61.2%的个体进行了正确的判别.由此看来,该模型是比较合理的.

综合分析可知,影响肥胖状况的首要因素是性别与职业,另外运动和代谢也是需要考虑的因素.

4 模型的检验

为了避免只采用决策树CHAID模型方法得出的结论不具备较强的说服力,采用多元Logistic回归模型和主成分分析法对决策树CHAID模型进行检验.

4.1 多元Logistic回归模型[1]

设身体质量指数 BMI的等级为y,性别与职业因素为x1,年龄因素为x2,运动因素为x3,遗传因素为x4,心理因素为x5,睡眠因素为x6,代谢因素为x7,饮食习惯为x8.

建立现代人肥胖状况影响因素的实证模型

其中:μ为随机扰动项,反映无法观察到的其它因素.

由于被解释变量身体质量指数的选项有多个且有序,故采取多元Logistic回归模型

其中:j为现代人肥胖程度的4个等级,j=1,2,3,4;μj为分界点;α为截距项;βi为偏回归系数;为分类j及其以下类别的累积概率,即

采用SPSS进行多元Logistic回归估计,得到初始模型,再根据似然比检验结果将不显著的变量逐个剔除,直到模型中的变量全部都为较显著的变量.

对多元Logistic回归模型进行显著性检验,结果见表4.

表4 模型拟合信息

由表4可以看出,显著性水平的值明显小于0.05,所以多元Logistic回归模型是显著的.

检验模型的伪2R,3种伪决定系数考克斯-斯奈尔系数、内戈尔科系数和麦克法登系数分别为0.481,0.570,0.353.

对多元Logistic回归模型进行似然比检验,结果见表5.

表5 含8个自变量多元Logistic回归模型的似然比检验

就显著性水平来看,显著性水平大于0.05的因素对肥胖状态并没有显著的影响,因此可以剔除显著性水平大于0.05的因素.根据表5,首先剔除最不显著的饮食因素,再次建立回归模型,以此类推,直至不存在不显著变量,依次分别剔除了饮食因素、年龄因素、代谢因素和遗传因素.

在依次剔除饮食因素、年龄因素、代谢因素和遗传因素后,对只包含自变量性别与职业因素、运动因素、睡眠因素和心理因素的多元Logistic回归模型进行似然比检验,结果见表6.

表6 含4个自变量多元Logistic回归模型的似然比检验

由表6可以看出,所有变量的显著性水平都小于0.05,因此有理由认为此时所有的变量对肥胖状态都有显著的影响.

综合该模型分析可以认为,肥胖状态的主要影响因素是性别与职业因素、运动因素、睡眠因素和心理因素.

4.2 主成分模型

主成分分析是采用一种数学降维的方法,设法将原来众多具有一定相关性的变量,重新组合成一组新的相互无关的综合变量代替原来的变量.利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复.主成分分析所需样本数据较多,比较适合本文的研究.

主成分分析(PCA)方法的基本步骤为:

Step1对原始数据进行标准化处理,得到样本观测数据矩阵

Step2计算样本相关系数矩阵

Step3计算相关系数矩阵R的特征值λ1,λ2,λ3,λ4,λ5,λ6,λ7,λ8和相应的特征向量.

Step4选择重要的主成分,并写出主成分的表达式.主成分个数的选取主要根据主成分的累计贡献率来决定,一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息.

根据建立的主成分分析模型,运用Matlab软件对模型进行求解.

运用Matlab软件计算相关系数矩阵及相关系数阵的特征值,计算结果为

前7个特征值之和所占比例(累计贡献率)达到92.88%,因此去掉第8个主成分.7个保留的特征值对应的7个特征向量分别为

因此取前7个主成分,分别为

对数据直接作线性回归,得到经验回归方程

作主成分回归分析,得到回归方程

化为标准化变量的回归方程为

综合分析可以认为,影响肥胖状况的首要因素是性别与职业因素,其次是运动因素和饮食因素.

通过主成分模型提示人们,如果平时压力较大,不经常运动且饮食习惯较为不正常者,则肥胖的可能性较大.通过该模型,让健康人群(非患病等特殊人群)中任一人填写该问卷,可以预测该人的肥胖状况,且准确率较高.

综合分析结果,建议肥胖人群应该做到:(1)适当地增加运动.人体能量的消耗主要是通过基础代谢、肌肉运动和食物的生热效应进行的.正常情况下,人的基础代谢较为稳定,肌肉运动是人体能量额外消耗的主要方式,通过运动可以达到减肥的效果.(2)多吃蔬菜水果和五谷杂粮,保持饮食均衡,这样有利于促进新陈代谢.(3)保持愉快的心情,调整好心态,不要焦虑,适当地释放压力.

5 结束语

对于某一健康人群,通过该人的某些数据,利用本文模型可以预测该人的肥胖状况并且准确率较高.且模型对于研究高校大学生亚健康状况,现代人亚健康状况及其成因分析,现代人肥胖状况及其成因分析等都具有一定的借鉴作用和参考价值.

猜你喜欢
决策树显著性变量
抓住不变量解题
本刊对论文中有关统计学表达的要求
也谈分离变量
一种针对不均衡数据集的SVM决策树算法
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
决策树和随机森林方法在管理决策中的应用
论商标固有显著性的认定
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用