基于改进K—Means的大学生体质健康评价细分模型研究

2018-01-19 11:35姚曦
软件导刊 2018年10期
关键词:体质健康聚类大学生

姚曦

摘要:为提高大学生体质健康数据利用率,通过聚类分析对数据进行分组,为大学生体质分层次教学提供决策支持。在K均值聚类算法基础上,分别从K值选取与初始点选取两方面进行算法改进。实验结果表明,改进的K均值聚类算法效率更高,分组结果更加合理且易于解释,可为学校制订智能化运动处方提供有效参考。

关键词:大学生;体质健康;聚类;K均值算法

DOIDOI:10.11907/rjdk.181806

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2018)010-0055-05

英文摘要Abstract:In order to improve the physical health data utilization rate of college students, the data were grouped by cluster analysis, and the decision support was provided for college students′ physique stratification teaching. On the basis of k-means clustering algorithm, the algorithm is improved based on the selection of K value and the selection of initial point. The experimental results show that the improved k-means clustering algorithm is more efficient, grouping results are more reasonable and easier to explain, it provides effective reference for schools to carry out the intelligent exercise prescription.

英文關键词Key Words:college students; physical health; clustering; K-Means

0 引言

为贯彻落实“健康第一”的指导思想,国家于2007年、2014年修订完善了《国家学生体质健康标准》[1],要求每年在小学、初中、高中、大学的各年级全面开展学生体质健康标准测试工作[2],同时,学校将体质健康等级纳入学生整体素质考核中。各级学校收集整理体质健康数据后,统一上报国家学生体质健康标准数据管理与分析系统。但学校收集的大量体质健康数据,只为完成每年的测试和上报任务,没有得到有效利用。

学者对学生体质健康标准进行了诸多研究。洪海潇、苏连勇[3]按照区域性别分类,筛选出天津市大学生1995年、2000年、2005年、2010年的身高、体重指标,通过BMI指数确定近15年来天津市大学生身体脂肪相对水平发展态势。罗奇[4]、叶飞[5]运用体质健康管理指标体系,开发了大学生个性化体质健康管理系统。覃寅寅[6]对学生体质健康数据进行了归纳整理,提出了学生体质健康档案分析系统。以上研究关注了学生体质健康数据的系统化与档案构建,但数据挖掘涉及较少。

美国“总统挑战”计划和健身计划(FITNESSGRAM)[7-11]在美国普遍实施,其对体质数据进行科学分析,对各体质群体生成报告并提出科学的运动建议,有效促进了全民体质健康发展。综上,对体质健康数据进行挖掘分析,进而构建准确、有效的学生体质健康细分模型具有重要意义。

1 研究目的

本文采用聚类分析技术[12-14]对学生体质健康数据进行挖掘,提出改进的聚类算法以提高聚类性能和准确度。根据改进的聚类算法构建大学生体质健康细分模型,并以该模型对数据进行评价,针对每个聚类分组提出健康运动处方,达到拓展体质健康管理理论应用领域,优化学校体育教学工作的目的。

2 研究对象与方法

以某学院2015-2017年大一、大二、大三的体质健康测试数据为研究对象,以学年为单位分年级抽取数据进行聚类分析。在校学生每年进行一次体质测试,每位学生共收集18项数据,其中基本数据10项:年级、班级编号、班级名称、学籍号、民族、姓名、性别、出生日期、身份证号、家庭住址。8项体质测试数据:身高(度量单位为cm)、体重(度量单位为kg)、肺活量、50m跑、立定跳远、坐位体前屈、800m跑或1 000m跑(女生测800m跑、男生测1 000m跑)、一分钟仰卧起坐或引体向上(女生测一分钟仰卧起坐、男生测引体向上)。所有体质测试数据均使用 Microsoft Excel进行存储,而后使用R语言对数据进行标准化处理,最后选取反映身体素质指标的5项数据(50m跑、立定跳远、坐位体前屈、800m跑或1 000m跑、一分钟仰卧起坐或引体向上)进行聚类挖掘。

本文选用R语言[15]作为数据分析的软件平台。R语言是一种面向统计分析和数据挖掘的共享软件平台,前身是1976年美国贝尔实验室开发的S语言。R语言擅长统计计算和绘图,是一套开源的数据分析解决方案,可运行在Windows、Linux、Mac OS X多操作系统上。

3 K-Means聚类

本文采用k-Means[16-17]聚类算法进行算法改进。K-Means是一种分割性的聚类算法,算法易于实现,具有相当高的效率,算法流程如图1所示。首先,从聚类数据中随机选取K个对象作为初始点,也称为质心,对应K个类;然后计算其余各个对象与K个初始点的距离,将其分配给与之最近距离的初始点,形成初始的聚类分组。分配完后,重新计算每个类的平均值作为新的质心,根据就近原则重新进行聚类分组,直至聚类质心不再改变或迭代次数达到要求。由于初始聚类是在随机选取质心的基础上产生的,无法确保所得的K个类就是客观存在的“自然小类”,所以K-Means算法需要多次重复。

从图3可以看出,K值从3-6类变化时,WSSE值有一个明显的下降趋势,即点的斜率变大。6类以后,下降速度放慢,说明聚成6类对数据是一个很好的拟合,再次验证了最佳聚类个数选6。并不是每个聚类的拐点都能这样找到,因此WSSE只作为辅助验证。

4.2 初始点选取改进

初始点选取对算法的收敛速度和稳定性产生很大影响。K-Means聚类算法如无指定初始点,将由系统从数据中随机抽取K个对象作为初始点。

本研究采用选择距离尽可能远的改进方法。首先随机选择一个对象作为第一个初始点,其次选择距离该对象最远的对象作为第二个初始点,而后选择距离前两个对象的距离之和最大的对象作为第三个初始点,以此类推。按照同样的原则直至选出K个初始点,选取流程如图4所示。

研究结果显示,相较于K-Means算法,改进的K-Means算法聚类在聚类效果与聚类解释上都更加优越。在参与聚类分析各个属性上,簇间差异明显且各个分组容易解释,总体聚类效果良好。

5 结语

本文以大学生体质健康数据为研究对象,基于K-Means算法提出了改进的K-Means算法,详述了改进的方法。以某学院2015年大一学生体质健康测试数据为例,对两种算法进行了评估比较,证实改进的K-Means算法在技术可行性与优越性上更佳,以此为基础构建大学生体质健康评价细分级模型,为建立行之有效的高校体育教学体系提供了科学的数据支持。

参考文献:

[1] 教育部.国家学生体质健康标准[S]. GB/T 20027-2014.

[2] 教育部.关于印发《学生体质健康监测评价办法》等三个文件的通知 [Z]. 教体艺[2014]3号,2014.

[3] 洪海潇,苏连勇.天津市大学生 BMI 指数的15年动态分析[J].首都体育学院学报,2014,26(3):279-283.

[4] 罗奇.大学生体质健康管理的研究与应用[D].武汉:华中师范大学,2011.

[5] 叶飞.四川省职业技术学院学生体质监控系统的设计与实现[D].成都:电子科技大学,2011.

[6] 覃寅寅, 徐翔鸿. 学生体质健康档案(SPH)分析系统的构建[J].北京体育大学学报,2011,34(5):69-72.

[7] 李红娟,王正珍.美国青少年体质测定系统的演进[J].北京体育大学学报,2013,36 (10):51-88.

[8] 张艳超.中美学生体质测量与评价实证研究[D].南京:南京师范大学,2014.

[9] 石晓峰,王飞. SOM 和PCA对体质健康数据的模式识别及可视化分析——以学生体质地域特征为视角[J].天津体育学院学报,2015,30(4):282-287.

[10] 何江川,杨放.中国南方少数民族学生体质特征聚类与因子结构分析[J].中国组织工程研究,2012,16(2):362-366.

[11] ARDOY D,FERN NDEZ-RODR GUEZ J,JIMNEZ-PAV N D,et al. A physical education trial improves adolescents′ cognitive performance and academic achievement:the EDUFIT study [J]. Scandinavian Journal of Medicine & Science in Sports,2014,24(1): 52-61.

[12] TAN P N,STEINBACH M,KUMAR V.数据挖掘导论[M].北京:人民邮电出版社,2011:305-347.

[13] 王光宏,蒋平.数据挖掘综述[J].同济大学学报,2010,23(2):109-113.

[14] 王剛.数据挖掘聚类算法研究综述[J].科技导报, 2010,23(8)17:20.

[15] ROBERT I.KABACOFF.R语言实战[M].北京:人民邮电出版社,2016:4-18.

[16] BAI L,LIANG J Y,SUI C.Fast global k-means clustering based on local geometrical Information[J].Information Sciences,2013(245):168-180.

[17] 黄解军,潘和平.数据挖掘技术的应用研究[J].计算机工程与应用,2013,19(4):49-53.

[18] HAN J W,KANMBER M, PEI J.数据挖掘概念与技术[M].北京:机械工业出版社,2012:315-319.

[19] WU M L,CHANG C H,LIU R Z.Integrating content-based filtering with collaborative filtering using co-clustering with augmented matrices[J].Expert Systems with Applications,2014,50(6):2754-2761.

[20] TREEATTANAPITAK K,JARUSKULCHAI C.Exponential Fuzzy C-Means for collaborative filtering[J].Journal of Computer Science Technology,2012(3):567-576.

(责任编辑:杜能钢)

猜你喜欢
体质健康聚类大学生
带父求学的大学生
基于DBSACN聚类算法的XML文档聚类
大学生之歌
基于高斯混合聚类的阵列干涉SAR三维成像
影响中小学生体质健康的要素库及权重分析
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例
让大学生梦想成真
他把孤儿院办成大学生摇篮