决策树算法下的大学生公共体育教学与评价分析

2020-11-13 03:38王玉国宋忠田
微型电脑应用 2020年10期
关键词:数据挖掘体育教学

王玉国 宋忠田

摘要:针对当前大学公共体育教学质量评价中缺乏科学、有效的评价手段,导致教学效率低下,教学内容枯燥的问题,需要对教育教学质量评价指标进行数据挖掘和分析,提升体育教学课程管理质量和效率。基于决策树技术进行数据的分类,提取体育课程中的数据特征和关系,结合ID3算法,通过信息增益检验决策树各级节点上数据的特征属性,建立树形分支,由各分支实例子集递归方式来建立决策树下一级节点和分支,指导该子集实例被划分为某一个类别,寻找影响大学体育课堂教学质量因素。教学内容在教学质量评价中占主导地位,直接影响教学质量的评价结果,采用决策树能为体育教学课程管理提供有价值的数据支持,有效提高体育教学课程管理质量和效率。

关键词:体育教学;决策树算法;数据挖掘

中图分类号:G641

文献标志码:A

AnalysisonPublicPhysicalEducationTeachingandEvaluationof

CollegeStudentsunderDecisionTreeAlgorithm

WANGYuguo,SONGZhongtian

(DepartmentofPhysicalEducationandSports,AksuVocationalandTechnicalCollege,Aksu843000,China)

Abstract:Inviewofthelackofscientificandeffectivemeansintheevaluationofpublicphysicaleducationteachingqualityincollegesanduniversities,theteachingefficiencyislowandtheteachingcontentisboring.Throughthedataminingandanalysisoftheevaluationindexofeducationandteachingquality,thedataclassificationbasedondecisiontreetechnologyiscarriedout,andthedatafeaturesandrelationsinphysicaleducationcurriculumareextracted.CombinedwithID3algorithm,thecharacteristicattributesofdataonalllevelsofthedecisiontreearetestedbyinformationgain,branchesareestablished,andthelowerlevelnodesandbranchesofthedecisiontreeareestablishedbytherecurrencemodeofeachbranchinstancesubset.Thesecanguidetodividetheinstanceofthesubsetintoacertaincategoryinordertofindtheinfluenceonthephysicaleducationcourseoftheuniversity.Theexampleshowsthatthedecisiontreecanprovidevaluabledatasupportforphysicaleducationcurriculummanagementandeffectivelyimprovethequalityandefficiencyofphysicaleducationteachingcurriculummanagement.

Keywords:physicaleducation;decisiontreealgorithm;datamining

0引言

高校公共体育实践教学是学习体育知识和掌握技能的有效方式,能有效增强学生体质,提高学生身体素质。随着高校教育体质改革的实施,公共体育教学观念、教学内容和手段都在不断发生改变[12]。因此,对高校体育课堂教学进行评价,了解影响体育课堂教学质量影响因素,从而有针对性的进行教学改良,提升课堂教学水平,具有重要意义。数据挖掘作为当前热门的研究领域,通过在大量数据中来提取未知的、潜在的、有应用价值的信息,来为个行业的发展和决策提供重要的参考依据[3]。决策树算法作为数据挖掘中的一个重要技术手段,融合了机器学习、数据统计、智能数据库、神经网络等技术,通过算法对相关影响因素的潜在数据进行进行挖掘,为教育管理和决策提供现代教学评价数据库理想模型[46]。如通过考虑各影响体育教学的因素来构建决策树,实现对影响指标的综合评价,并有针对性性的给出提升教学质量的解决方案[7];如基于ID3决策树的商务英语实践成效评价,进行考试成绩的管理和分析,由此针对性的提出课程内容改进和教学内容评估等,有效推进教学质量评价管理,提升教学质量[8]。基于此,本文通过将决策树引入大学公共体育教学评价中,对教学质量评价指标进行有效挖掘,发现其中的不合理性并进行改进,实现教学质量和管理水平的提升。

1决策树技术基本原理

1.1数据挖掘

数据挖掘是从海量数据中提取或挖掘识别有效的、新颖的、潜在的信息和知识的过程。它利用数据库关系系统查询、检索功能,结合统计分析处理,得出可供决策参考的统计分析数据[7]。决策树技术作为数据挖掘方法中一种常见的信息论方法,通过对数据进行分类,以达到预测的目的。

决策树是一棵有向、无环树,决策树由决策节点、分支和叶子组成[9]。树上的每一个内部节点均表示一个测试点,树的分支对应一个测试输出,树叶节点则为一個代表类分布。在通过决策树进行数据分类过程中,首先需要对获得的数据训练集进行分析测试,根据获得的数据类别建立待解决问题的数据分类模型,然后根据建立的决策树对未知数据分类。作为一类贪心算法,决策树数据挖掘是一种自顶向下的递归算法,有决策树的根节点开始,根据获得的样本数量对集中属性逐一测试,并通过属性类别对数据训练集分类,获得若干字训练集,其中每个子训练集作为一个非叶节点,进行递归循环执行,直到满足设定条件后,形成树的叶子节点,终止计算[10]。在建立决策树的过程中,由于数据集中存在噪声的干扰[11],因此,形成的分枝反映出训练集中存在的异常情况,容易造成数据的拟合过度问题,因此就需要对构建的决策树进行修剪,去掉存在的异常分支,保证分类结果的准确性。

对于决策树每个节点,每个决策节点表征一个问题或决策,对应待分类对象属性,每一个叶子代表可能存在的分类结果。沿决策树由上而下遍历,通过对每个结点进行测试,将各节点上的测试输出结果构成不同分支,最后由某一途径传输到一个叶子节点。在这个过程中可利用若干变量来判定所属类别。目前用于决策树技术的算法主要为ID3算法以及C4.5算法[12]。由于C4.5算法在缺省状态下存在缺陷,因此本文选择采用ID3算法进行数据的分类和预测。

1.2ID3算法流程

ID3算法作为决策树算法中最典型的算法,通过信息增益检验决策树各级节点上数据的特征属性,选择信息增益最大属性作为样本划分测试属性,根据属性不同值建立分支,由各分支实例子集递归方式来建立决策树下一级节点和分支,指导该子集实例被划分为某一个类别。

在ID3算法中,

设S为训练集,s为样本数,假设类Ci(i=1,2,…,m)存在m个不同值,其中类Ci的样本数为si。对于一个给定样本分类所要求的期望信息为:

I(s1,s2,…,sm)=-(p1log2(p1)+(p2log2(p2)+

…+(pmlog2(pm))

上式中:pi=si/s为样本属于Ci的概率。

设属性A中存在v个不同值{a1,a2,…,av},对S训练集,利用属性A将其划分为v个子集

{S1,S2,…,Sv},其中Sj的样本在A中存在相同值aj。若选择A作为测试属性,则分类子集包括S节点中形成的多个分枝。设sij为Sj中类Ci样本数。将A划分的子集期望信息熵为:

E(A)=∑vi=1sij+…+smjSI(sij,…,smj)

其中sij+…+smjS作为第j个权值,则获得A属性上分支的编码信息为:

Gain(A)=I(s1,s2,…sm)-E(A)

算法中选择最高信息增益的属性给定S测试属性,根据测试属性创建节点并进行属性标记,并由属性只构建分枝进行样本划分[13]。

1.3树的修剪

在决策树创建过程中,由于训练集中噪声的存在,在训练数据中存在异常现象的分支,为生成一棵易于理解的决策树,就需要对包好噪声分支的决策树进行修剪,解决一些分支过分适应的问题[14]。目前比较常见的剪枝方式主要分为先剪枝和后剪制技术[15]。先剪枝方式是在建立决策树过程中,对于存在异常的分支,直接停止建立子节点,从而不形成异常分支。后剪枝方式则是在建立决策树后,根据建树条件,去掉其中存在的部分异常分支,并利用叶节点重新建立新的决策树。

本文中根据体育教学评价数据分类特性,采用基于最小错误原则的后剪枝法,即在完全生成决策树后,将多余部分的分支剪掉,并利用叶节点获得新的决策树[16]。因此,通过建立决策树对任意实例进行判定,挖掘过程如图1所示。

通过决策树算法对信息增益特征属性进行检验,获得增益最大值形成决策树节点,保证决策树结点最小的前提下具备最高的例子识别准确率。根据特征取值不同构建分支,对分支实例子集进行递归处理,建立决策树结点和分支,直到某一子集中的所有例子均为相同子集。

2决策树算法应用

2.1数据采集

以某体育大学在校师生为对象,分别在学期末进行问卷调查,针对影响体育教学质量因素分析。体育教学评价是解释体育教学的价值,因此,选定的评价指标应力求反映体育課堂教学状态和效果。由于教学质量是教学过程的中心环节,因此以课堂教学为例,进行决策树分析,将教学质量评价指标按照教学内容、教学手段、教学效果和教学态度等分为五个项目。假设K1:教学态度;K2:教学内容;K3:教学方式;K4:教学效果;K5:教学结果五个训练样本数据,组织体育学院6位一线体育教师和4位硕士导师共10人进行任课教学效果评价。将评价等级分为5级,分别为:A:优秀(90100);B:良好(8090);C:中等(7080);D:合格(6070);E:不合格(<60);获得10个教师的教学质量评价如表1所示。

通过表1所示的评价结果,利用ID3算法构成决策树,部分程序代码如下:

Print(‘Starttrainning)

Tree=train(train_features,train_labels,list(range(feature_len)))

Time_3=time.time()

Print(‘trainingcost%fsecond%(time_3—time_2))

Print(‘Startpredicting)

Tets_predict=predicting(test_features,tree)time_4=time.time()

Print(‘predictingcost%fsecond%(time_4—time_3))

根据表1中获得的教师教学质量评价结果和建立的决策树,确定样本期望信息熵为:

I(S)=-110log2110-

610log2610-

310log2310=1.25775996

对于教学态度K1,存在有Values(K1)=(A,B,C),SA={6,8},SA=2,

SB={1,2,3,5,9,10},SB=6,SC={4,7},SC=2,计算获得教学态度K1

条件期望信息为:

E(SA)=-12log212-

12log212=1.0;

E(SB)=-16log216-

56log256=0.64336;

E(Sc)=-12log212-

12log212=1.0,可得到:

E(K1)=210E(SA)+610E(SB)+210E(SC)=0.757845

确定K1信息增熵为:Gain(K1)=I(S)-E(K1)=0.5034435同理可得到其他属性的信息熵分别为:

Gain(K2)=I(S)-E(K2)=0.6067457;Gain(K3)=0.4765867;

Gain(K4)=0.4315636。

比较样本的信息熵有:Gain(K2)>Gain(K1)>Gain(K3)>Gain(K4)。可以看出,样本中教学内容K2属性信息增益具有做大值,因此选择教学内容K2作为根节点测试属性,在每个值根节点创建分支,并基于ID3从根节点进行进一步细分。若根节点到当前节点路径包含了所有样本的全部属性,或属于同一训练样本层,则算法完成,根据教学内容K2测试属性建立的决策树形图,如图2所示。

2.2决策结果

根据建立的决策树可以看出,从决策树根部到叶的每一个路径对应一组属性测试的合取,整个决策树表示合取的析取。从决策树中提取表征描述决策树的知识,并采用ifthen语句作为分类规则,其中每一条根节点至叶节点的路径均对应着一个唯一的决策规则,根据建立的决策树型,获得决策树结果的部分代码,如图3所示。

确定知识的表述形式为:

if(K2=A),thenK5=优秀;

if(K2=B),thenK5=良好;

if(K2=C∧K1=C),thenK5=中等;

if(K2=C∧K1=B∧K3=B),thenK5=良好;

if(K2=C∧K1=B∧K3=C),thenK5=中等;

根据分析可知,教学内容K2在教师教学中占主导地位,若教学内容为优秀时,获得的教学质量评价为优秀,若教学内容为良好时,则教学质量评价结果为良好因此对教学质量的评价中,教学内容作为主要的考虑因素,同时兼顾教学方式、教学态度等其他样本。当教学内容为中等,而教学态度为中等时,获得的教学质量评价结果为中等;当教学内容为中等,而教学态度良好,教学方式为良好或中等时,得到的教学质量评价结果为中等。

3总结

大学公共体育教学质量评价是提升课堂教学质量的有效方式。决策树技术应用于教学质量的評价,通过对调查数据的挖掘分析,进行数据的分类,提取体育课程中的数据特征和关系,并结合ID3算法,通过信息增益检验决策树各级节点上数据的特征属性,选择信息增益最大属性作为样本划分测试属性,根据属性不同值建立分支,由各分支实例子集递归方式来建立决策树下一级节点和分支,指导该子集实例被划分为某一个类别,寻找影响大学体育课堂教学质量因素,为体育教学课程管理提供有价值的数据支持,提高体育教学课程管理质量和效率。

参考文献

[1]武善锋,陆霞.基于决策树算法的体育课程分析与管理系统设计[J].现代电子技术,2019,42(3):131133.

[2]郭鹏,蔡骋.基于聚类和关联算法的学生成绩挖掘与分析[J].计算机工程与应用,2019,55(17):169179.

[3]张树滑.基于ID3算法的大学生成绩数据挖掘与体能分析系统设计[J].现代电子技术,2019,42(5):104106.

[4]林秀科,沈良忠.基于决策树的学生成绩对毕业影响分析[J].电脑知识与技术,2017,13(35):1516.

[5]张馨娇.基于数据挖掘技术的学生体育成绩管理系统的设计[J].自动化与仪器仪表,2017(10):223224.

[6]吴剡青,韩佳宏,金渊涛,等.基于大数据挖掘的警校大学生公务员成功考取预测模型研究——以中央司法警官学院为例[J].电脑知识与技术,2017,13(12):194195.

[7]吴元庆.基于数据挖掘的体育教学信息系统的研究与设计[J].自动化与仪器仪表,2017(3):7778.

[8]孙莉.基于C4.5算法的大学阳光体育系统设计与实现[J].自动化技术与应用,2019,38(7):2832.

[9]祝莉妮.基于数据挖掘的体育成绩管理与体能分析研究[J].数字技术与应用,2017(3):83.

[10]戴红,王忠,宋大维,等.大数据视角下的高校体育教学研究[J].中国学校体育(高等教育),2016,3(7):3539.

[11]吴元庆.基于数据挖掘的体育教学信息系统的研究与设计[J].自动化与仪器仪表,2017(3):7778.

[12]李寿邦.基于分类规则的大学生体质测试数据挖掘的应用研究——以西安石油大学三年级学生为例[J].西安石油大学学报(自然科学版),2018,33(5):120126.

[13]罗嗣卿,王佳玉,李冰珂.改进的组合优化决策树谣言判别方法研究[J].计算机仿真,2018,35(2):219223.

[14]夏莉莉,赵华硕,徐渭,等.决策树和回归技术在超重危险因素分析中的应用[J].现代预防医学,2018,45(9):15491552.

[15]王杰.基于资源库的运动技战术训学研平台构建[J].上海体育学院学报,2018,42(3):7478.

[16]方欢,方贤文,郭娟,等.案例驱动下的分类与预测课程教学方法研究[J].长春师范大学学报,2018,37(8):6772.

(收稿日期:2020.01.24)

猜你喜欢
数据挖掘体育教学
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
职高体育教学中的“教学做合一”研究
体育教学中的德育渗透策略研究
游戏融入教学建构灵动式体育课堂研究
体育教学中学生合作学习能力的培养研究
体育教学中的竞争意识培养探究
独立学院大学生体质健康的影响因素分析
基于R的医学大数据挖掘系统研究