基于决策树模型的幼儿超重关键因素研究

2020-04-10 02:52吕文娣赵广高付近梅孙顺利陈晶何梓豪黄婷胡超陈晨
成都体育学院学报 2020年1期
关键词:决策树变量问卷

吕文娣 ,赵广高 ,付近梅,孙顺利,陈晶,何梓豪,黄婷,胡超,陈晨

幼儿身体健康一直是家庭社会关注的焦点问题。近年来,全球的超重肥胖发生率剧增,超重与肥胖好发群体已逐渐由成年人波及到幼儿,幼儿超重与肥胖发生率在全球范围内呈明显上升趋势[1]。研究证实,超重与肥胖不仅影响幼儿的身体健康,还会影响幼儿的心理健康[2-3]。更有研究表明,幼儿时期的超重与肥胖甚至会影响成年后的身体形态以及生活质量[4]。因此,探讨引起幼儿超重与肥胖的关键性因素与解决途径,对幼儿个人成长及其未来的身体和心理健康有着十分重要的意义。

现有研究成果显示,幼儿超重肥胖与身体活动[5-7]、出生身体形态[8-9]、喂养方式[2,4,10]、父母身体形态与家庭情况[10-15]等均有密切关系。影响幼儿超重肥胖的因素众多,如何甄别该群体及其不同类型亚组的关键性影响因素是相关研究的重点和难点。决策树作为数据挖掘中的一种重要分类技术,可以对多种类型的变量进行分析、检验、筛选。它能够针对目标变量对样本进行最优分割,按照检验的显著性进行自动判断分类[13]。决策树的分支(即拆分)是使用不同的决策规则组成的,可划分出有不同特征的亚组并判断其关键性影响因素。与其他方法如logistic 回归相比,决策树的优势体现为:能够对不同类型亚组进行诊断;能以树形图为表现形式直观显示分析过程[14];不受共线性影响,能够处理多类型变量输出的问题[15]。

近年来,幼儿疾病与健康领域已开始出现应用决策树方法的相关研究成果。如Gazzinelli 等应用决策树模型,分析导致儿童二次感染血吸虫病的关键性影响因素,为巴西贫困地区的曼氏血吸虫病疾病的防治提供了重要依据[16]。其他学者同样利用决策树在幼儿肺炎、结核病、牙周炎、手足口病等领域开展了诸多研究[17-20]。在当今的大数据时代,已有相关学者证实了决策树在分析体质水平数据方面应用的可行性[21]。遗憾的是,目前尚无学者利用决策树针对幼儿体质健康与超重肥胖问题进行研究。

基于此,本研究针对幼儿出生信息、育儿方式、静坐行为、身体活动、父母身体形态及锻炼行为和家庭情况等相关影响因素,运用决策树算法构建幼儿超重影响因素模型,探讨引起幼儿超重的关键性因素,为后续针对性的幼儿健康促进工作提供参考依据。

1 研究对象与方法

1.1 研究对象

采用整群分层随机抽样方法,在南昌市6 区3县中每个区县按照人口的比例抽取2~3 所幼儿园,共计23 所幼儿园,共募集3~6 岁幼儿5 870 名,平均年龄(4.05±0.86)岁。募集的所有受试对象均身体健康,无运动性障碍。所有受试对象经家长同意参与本研究并签署知情同意书,于2017 年10 月19 日至11 月29 日期间完成测量,测量期间保持日常生活习惯。

测量结束后,剔除未完成体质健康测试者、问卷未填写完整或存在问卷选项填写无效者,将剩余1 963 名全程有效参与的幼儿作为用于本研究数据统计分析的受试对象(表1)。

表1 受试对象的基本信息Table 1 The basic information of subjects

1.2 测量指标与方法

采用国家国民体质监测指定器材测量幼儿身高、体重,身高精确至0.1 cm,体重精确至0.1 kg。按照《国民体质测定标准手册(幼儿部分)》中的评分标准进行幼儿超重评价,评分等级按数据结果从小到大划分为5 个等级,1~5 等级分别对应标准中的消瘦(1 分)、低体重(3 分)、正常(5 分)、超重(3分)、肥胖(1 分)。本研究的胖瘦特征共分为超重与肥胖(4~5 等级)与非超重(1~3 等级)2 个类型。

1.3 问卷调查

根据研究需要,通过梳理国内、外相关文献[2,3,10-15,22-24],找出所查文献中所出现频率≥2次的影响因素,将这些影响因素纳入并制作专家问卷,使用德尔菲法,综合上海体育学院、成都体育学院、南昌大学、江西省体育科学研究所、江西省体育局幼儿园11 名专家老师的意见,对影响因素进行筛选,形成《幼儿超重关键性影响因素研究问卷》。问卷内容包括相关问题共计36 个,分为幼儿出生信息、育儿方式、静坐行为、身体活动、父母身体形态及锻炼行为和家庭情况6 个相关一级指标;一级指标下划分36 个二级指标(表2)。问卷经5 位幼儿健康方面的专家对效度进行评分,问卷平均得分为96.40 分。采用重测法对问卷的信度进行检验,选取幼儿150 名进行重复调查,时间间隔为2 周,使用组内相关系数法进行检验,可靠性系数为0.89,该系数表明调查问卷信度处于较高水平,符合社会学调查要求。

在江西省体育科学研究所、南昌市体育局与受试对象所在幼儿园的协助下,向幼儿家长发放调查问卷,由家长带回填写并次日回收。整个调查过程发放问卷5 870 份,问卷回收5 870 份(回收率100%)。回收后的问卷由专业数据录入公司进行处理,把问卷调查结果使用EpiData 软件录入数据库,并进行双输录入和逻辑查错,剔除问卷未填写完整或存在问卷选项填写无效者,处理后对有效问卷数进行统计,有效问卷1 963 份(有效率33.44%)。

表2 调查问卷具体内容及变量赋值Table 2 Specific content and variable assignment in the questionnaire

续表2

续表2

1.4 数据处理

借助SPSS 22.0 统计软件,将幼儿数据信息与问卷信息进行匹配整合,剔除无效数据。采用软件IBM SPSS modeler 创建决策树模型(参数拟设置为:树结构最大深度为5,幼儿超重影响因素节点最小个案数100,子节点最小个案数50,Gini 系数的最小变化值为0.000 1),采用10 层交叉验证模型的识别准确率。

采用IBM SPSS modeler 软件作为数据挖掘工具,它包含了多种算法模型,其中决策树算法模型有C5.0、QUEST、C&R 和CHAID 等。其中C5.0 算法要求所有的目标字段必须为分类字段。QUEST算法所创建节点可提供用于构建决策树的二元分类法,所有创建的分割节点均为二元节点;C&R 算法推理过程完全依据属性变量的取值特点,输出(目标)字段可以为数值型也可以为字符型;CHAID输出字段特别适合分类变量,当处理连续变量时会自动分为10 段处理可产生多分枝的决策树,从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程,依据目标变量实现对输入变量众多水平划分。结合幼儿测试及问卷结果,大样本、多指标、连续变量与分类变量同时存在的特点,通过实际创建以及比较相关模型准确性以及划分节点的合理性后,最终选用最为优化的CHAID 模型,建立相关模型数据流程。

2 结果与分析

2.1 决策树模型构建

通过IBM SPSS modeler 软件对模型的分析,创建CHAID 模型,超重与肥胖幼儿标记为O,非超重的幼儿标记为N,并对分类变量进行赋值,其余变量类型的最佳分界点由决策树模型进行识别和拆分,模型构建过程中进行树的修剪以自动控制树的生长。生成的决策树共5 层、42 个节点(图1)。

决策树模型的树形图结果显示,树形结构的第1 层是按照幼儿室外身体活动时间来拆分节点的,提示室外身体活动时间是幼儿超重与肥胖的最重要影响因素。树形图显示:幼儿室外身体活动时间≤2(即60 min)的幼儿群体超重率(12.85%)高于室外身体活动时间≥3(即2 h)(2.09%),室外身体活动时间≤1(30 min)的幼儿群体超重率为20.00%,远高于其他群体。

在第2 层叶节点中,依据父、母亲BMI 以及父亲收入来拆分节点。父、母亲BMI 的节点最多,最为复杂,母亲BMI 叶节点的信息最多。母亲BMI 处于正常范围时,影响幼儿超重的主要因素为幼儿室内身体活动时间,当时间>50 min/d 时,看电视的时间成为了影响幼儿超重的主要因素。在众多因素中,幼儿身体活动与静坐行为在第3、4、5 层重复出现,表明身体活动及静坐行为与幼儿超重关系密切。

第3 层叶节点中,幼儿身体活动的第2 个影响因素出现,相对于室外身体活动,室内重要性略低。在幼儿室内身体活动时间>50 min/d 的幼儿群体中,筛选出来最主要的影响因素是看电视时间,时间>240 min/w 的幼儿群体超重率(22.99%)约为时间≤240 min(9.59%)幼儿群体的2.3 倍。该层决策树显示父亲的受教育程度与幼儿喂养方式为幼儿超重的重要影响因素。父亲的受教育程度≤2(即职业高中/中专/技校高中或中专及以下学历)的幼儿群体,其超重率(46.51%)高于父亲受教育程度>2(即普通高中及以上学历)的幼儿群体的超重率(20.62%)。模型中喂养方式≥2(“3”混合喂养方式)的超重率(16.64%)高于喂养方式2(人工喂养方式)(0.96%)、高于喂养方式1(母乳喂养方式)(9.61%),且喂养方式在第5 层重复出现。结果提示幼儿超重与父母情况及喂养方式有一定关联性。

第4 层叶节点中,父亲BMI、父亲收入重复出现。除第2 层出现外,在第3 层叶节点中父亲受教育程度>2 的群体中,影响幼儿超重与肥胖的首要影响因素也为父亲BMI。仅从本研究结果出发,父亲BMI 与个人情况对幼儿超重与肥胖的影响高于母亲。

图1 幼儿超重决策树CHAID 模型Figure 1 The CHAID decision tree model for preschool children overweight

2.2 关键性影响因素排序

通过IBM SPSS modeler 软件生成的CHAID 模型,根据变量所在节点位置进行变量重要性排序,越靠近根节点的变量,对目标变量影响越大。同一层中的节点变量比较P值以及X2,P值越小,对目标变量影响越大;P值相等时,比较X2[25]。在非终端节点处,考虑节点变量的样本量,当节点样本量小于10 时,则将该变量剔除出重要变量。文中所创建的决策树共有5 层,依据以上规则对各变量的重要性进行排序,共筛选出8 个对幼儿超重有重要意义的变量,排序依次为室外身体活动时间、父亲BMI、母亲BMI、父亲收入、室内身体活动时间、父亲受教育程度、喂养方式、看电视时间。

2.3 决策树模型评价

使用10 层交叉验证模型来识别准确率,模型的准确率为85.23%,说明模型效果较好。

3 讨论

本文所采用决策树算法此前已应用于幼儿疾病与其他相关风险的研究。决策树算法是一种逼近离散函数值的典型分类方法,对数据进行处理,利用归纳算法生成可读的规则,构造精度高、规模小的决策树。决策树模型除了可以快速、有效的识别影响幼儿超重的主要因素外,还可以通过树形图展现不同变量间的关系。本研究所建决策树模型的准确率为85.23%,说明该模型对幼儿超重的关键性影响因素筛选效果较好。在决策树模型中,目标变量是按照统计检验所得的X2值大小依次拆分,其基于统计学意义的拆分点较人为拆分点具有科学合理性[25]。决策树中位于主要枝干的解释变量对目标变量影响较大,随着分支的细化,影响逐渐减小,所以决策树模型可以揭示各变量对模型的重要性。本研究筛选出与幼儿超重密切相关的8 个变量,提示幼儿身体活动、父母身体形态、家庭情况、育儿方式以及静坐行为对幼儿超重的发生率影响较大。

身体活动与静坐行为对幼儿身体发育有很大影响,适量身体活动有益于幼儿个体发育这一理论已经得到了相关学者的证明[26-27]。相关学者通过纵向研究证实了幼儿身体活动与身体形态之间具有一定的关系[28],身体活动是影响幼儿超重的因素,其中室外身体活动是重要因素[29]。在本研究的决策树模型中,室外身体活动时间作为第一个分类节点对幼儿超重率影响最大,提示身体活动对预防幼儿超重有着关键作用。本研究显示,每天活动时间高于2 h 的幼儿人群里,超重人数所占比例仅为2.09%,每天活动时间低于30 min 时,超重幼儿的比例高达20.00%,提示室外活动时间的长短是影响幼儿健康状态的关键因素。本研究共筛选出2 个与身体活动有关的因素,身体活动对幼儿超重的影响与国外研究结果一致[27]。

看电视是一种常见的静坐行为。决策树所筛选出的看电视时间和幼儿超重关系密切,与相关文献研究结果一致,长时间静坐行为增加了儿童超重的发生率,看电视时间每天超过2 h,儿童成年后超重率增加到17%[30]。儿童每天视屏时间超过2 h,患超重肥胖的风险增加25%~38%[31]。本研究显示,每周看电视时间高于240 min 的幼儿超重率(22.99%)远高于看电视时间低于240 min 的幼儿(9.59%)。

父母情况与家庭情况对幼儿超重也有重要的影响[6,31],亲生父、母亲BMI、父亲收入以及受教育程度都与幼儿超重的发生率密切关联。有研究发现,父、母超重肥胖会增加儿童超重肥胖的发生率,幼儿肥胖与其父母肥胖呈正相关[32],同时还存在性别差异,父亲超重肥胖比母亲对幼儿的影响更大[33-34]。在决策树模型中,父亲BMI、母亲BMI 作为第2 层分支变量,父亲BMI 在第4 层重复出现,提示父亲BMI 与幼儿超重相关性更强且高于母亲,与前人研究结果相一致[34]。研究结果提示,应针对家长健康知识的薄弱环节进行健康教育,从家庭环境中出发,来间接影响幼儿的超重肥胖率。

幼儿的成长离不开父母的经济支持,父母经济水平与幼儿超重肥胖有一定关系[35]。在第2 层决策树显示当父亲收入>2(即5 000元以上工资)幼儿超重发生率(11.29%)远低于父亲收入≤2(即5 000元及以下工资)的发生率(34.21%),这与相关的研究结果一致[36-37],即家长收入高的幼儿超重肥胖发生率相对较低。

关于父母受教育程度与幼儿超重肥胖间的关系,目前存在一些争议。本调查显示,父亲受教育程度越高,其幼儿超重发生率越低,父亲受教育程度>2(即普通高中及以上学历)幼儿超重发生率(20.62%)远低于父亲受教育程度≤2(即职业高中/中专/技校高中或中专及以下学历)的发生率(46.51%),其他学者的相关研究也证实其相关性[37]。但是之前也有调查表明,父母文化程度对其子女是否肥胖的影响不大[38]。因此,父母受教育程度是否可作为幼儿超重的主要影响因素还需进一步深入研究。其他研究发现喂养方式也是影响幼儿超重的原因之一[39],早期母乳喂养的幼儿肥胖的概率小于人工喂养的概率[40]。本文决策树显示,早期采用混合喂养的幼儿超重率高于人工以及母乳喂养的幼儿。

本研究首次将决策树算法引入到幼儿超重肥胖研究领域,用于构建结构简单、分类准确的幼儿超重影响因素模型。克服单一因素研究的局限性,从整体性出发探讨幼儿超重的社会学归因,并对各因素进行分类、汇总与分析等。目前中国幼儿超重肥胖影响因素的实证研究尚处于起步阶段,本研究虽严格按照设计的测量与模型构造进行,但仍存在一定的局限性:(1)在本研究所使用的问卷中存在较大数量缺失,导致最终有效样本数量锐减;(2)为了让本研究的结果反映出最准确实际测量结果,对相关指标变量做出了最大程度的保留,导致决策树模型的准确性相对下降。但本研究已尽可能做出最符合实际测量与问卷结果的决策树模型,得出较为准确的幼儿超重关键性影响因素。

4 结论

通过决策树模型,科学有效地筛选出了8 个幼儿超重关键性影响因素,按其重要性排序依次为:室外身体活动时间、父亲BMI、母亲BMI、父亲收入、室内身体活动时间、父亲受教育程度、喂养方式、看电视时间。其中有3 个因素(室外身体活动时间、室内身体活动时间、看电视时间)和幼儿身体活动及静坐行为有关,体现缺乏身体活动在影响幼儿超重中的关键作用。本研究对于决策树方法的应用可为后续相关研究提供参考,对于幼儿超重及体质健康影响因素研究体系的完善也有着重要意义。

猜你喜欢
决策树变量问卷
聚焦双变量“存在性或任意性”问题
简述一种基于C4.5的随机决策树集成分类算法设计
决策树学习的剪枝方法
问卷大调查
分离变量法:常见的通性通法
问卷你做主
决策树在施工项目管理中的应用
不可忽视变量的离散与连续
变中抓“不变量”等7则