面向本科教学的数据挖掘教学方法研究

2024-01-27 17:24刘东江李雷孝

电脑知识与技术 2023年36期

刘东江李雷孝

摘要：传统的数据挖掘课程主要是采用满堂灌式的方法将教材中的理论知识灌输给学生，通常这种教学方法的教学效果并不理想，并且这种方式无法提升学生的工程实践能力。针对这一问题文章提出了一种基于项目实践与理论进化融合的数据挖掘教学方法，该方法基于一个数据挖掘项目案例来组织课程，学生通过该项目案例可以了解运用理论知识解决实际工程问题的方法；此外，在进行理论教学时，可以通过相关理论知识的发展进程将理论知识串接起来，这样就使得学生能够更好地理解并记忆理论知识。

关键词：数据挖掘；教学方法；项目驱动；理论发展；项目实践

中图分类号：G642 文献标识码：A

文章编号：1009-3044（2023）36-0146-03

开放科学（资源服务）标识码（OSID）

0 引言

近几十年，随着互联网的快速发展，各个领域都产生了大量的数据，且数据结构丰富，数据内容多样。在这种情况下，数据处理、分析与挖掘就成为推动领域发展的重要工具。所以培养数据科学领域的专业人才对于推动我国社会经济的发展，推动各个领域的快速进步是非常关键的。鉴于此，许多高校都开设了数据科学类的专业，而在数据科学类专业的课程中，数据挖掘处于核心地位。可以发现，数据挖掘课程的学习难度相对较大，这主要是因为在数据挖掘技术中需要用到统计学、数据库、机器学习等相关的知识。为了提升学生的学习效果，出现了一系列针对数据挖掘课程的教学研究工作。

接下来，介绍一些较为典型的教学研究成果。何栋[1]对数据挖掘课程的教学方法进行了探讨，将五步教学法融入数据挖掘课程中；康雁等[2]将SE-CDIO教学模式引入数据挖掘课程的教学当中，基于SE-CDIO教学模式对教学方法和考核方式进行了改进；陈朝焰等[3]针对数据挖掘课程的教学内容进行了结构化的设计；陈燕[4]详细分析了数据挖掘课程产生的背景，确立了数据挖掘课程在计算机相关专业中的定位；罗莉霞[5]对数据挖掘课程中的思政元素和育人元素进行了探讨，提出了针对数据挖掘课程思政进行改革的新途径和新方法；彭珍[6]针对数据挖掘课程线上教学的教学目标、教学过程、教学评价等相关方面的设计与改革进行了探讨。

1 课程建设现状

數据分析与数据挖掘课程是一门讲解数据处理、分析与挖掘相关技术的课程，传统的数据挖掘课程是以老师的理论教学为主，所以课程知识都是通过老师的讲解灌输给学生的，这样就使得学生无法很好地理解与吸收课程中的重点与难点；与此同时，由于课程中缺乏实际项目案例，学生的数据挖掘工程实践能力无法获得有效提高。基于此，本文提出了一种新的针对数据分析与数据挖掘课程的教学方法。该教学方法通过一个实际的项目案例来组织教学内容；与此同时，在进行理论教学的过程中，该教学方法利用理论发展的脉络来连接理论知识，这样不仅可以提高学生的数据挖掘工程实践能力，还可以使得所讲解的知识更容易被学生理解和记忆。为了清晰地描述所提出的教学方法，本文将以数据挖掘课程中的“数据分类模型——决策树”一节为例来介绍该方法。

2 数据挖掘课程教学思考

数据挖掘是一项技术，通过该技术可以从大量数据中提取或挖掘出隐含的、先前未知的、有潜在价值的信息，这种信息被称为知识。数据挖掘项目可以通过工程化的方式来完成，目前最为流行的数据挖掘工程化流程是CRISP流程，该流程包含五个步骤，分别为先验知识、准备、建模、应用、新知。其中，先验知识阶段要求对项目的任务类型以及业务的背景进行充分分析，以便完成数据的获取以及挖掘策略的制定；准备阶段主要进行数据探索性分析以及数据预处理，通过这两个步骤可以将低质量的数据处理成为高质量的数据；建模阶段主要是基于高质量数据构建挖掘模型，该模型是从数据中获取新知识的核心；应用阶段主要是将模型部署在实际的Web系统当中；新知阶段主要是基于Web系统展示的挖掘结果获取数据中的隐藏信息。我们可以按照CRISP流程来组织课程内容，这样不仅可以让学生掌握数据挖掘实际项目的执行过程，同时也能够掌握理论知识在工程实践中如何进行应用。

在数据挖掘技术中需要用到许多不同方面的理论知识，包括概率论、统计学以及线性代数等，所以数据挖掘理论知识的学习难度相对较大。基于此，在进行授课的过程中需要对课程的理论部分进行有效的设计。通常一种新算法的提出是在原有算法的基础上进行改进，因此我们在授课时可以将所有算法按照提出的先后顺序串接起来，讲新算法前要描述上一个算法的缺陷在哪里以及为什么要提出这个新算法。通过这种方式授课不仅能够使得知识脉络更加清晰，同时也有利于学生对所学知识的记忆。

3 基于项目实践与理论进化融合的数据挖掘课程教学过程设计

3.1 基于项目实践的数据挖掘教学设计

数据挖掘中所包含的几类主要任务分别为关联分析、分类分析、聚类分析以及离群点检测，其中在分类分析中需要基于训练数据集训练分类模型并基于测试数据集完成模型性能测试，之后就可以对模型进行实际部署。机器学习中的所有监督学习模型均可被用于完成分类分析任务，接下来将以监督学习模型中的决策树模型为例介绍基于项目实践与理论进化融合的教学设计方法。

在进行教学的过程中，首先需要给出一个真实的项目案例：

某银行为了避免潜在的风险，需要在客户出现违约情况之前采取应对手段，因此需要构建一套系统提前发现可能出现违约状况的客户，该系统中最为核心的功能就是违约客户预测，银行可以提供的数据中包含用户的个人信息以及用户的日常支付信息。

CRISP流程中的第一个阶段是获取先验知识，此阶段要求根据需求确定项目的任务类型并且了解项目的业务背景。确定项目的任务类型主要是引导学生分析项目是什么类型的任务，获取项目的任务类型之后就可以确定未来将要采用什么数据挖掘技术。通过分析可以发现，该项目主要是为银行进行用户类型甄别，也就是区分哪些用户是可能违约的用户以及哪些用户是不会违约的用户，基于此可以确定这个项目是一个分类分析任务。了解项目的业务背景主要是为收集数据做准备，由于数据是已经给定的，因此在课程当中该步骤可以省略。

准备阶段主要是进行数据的探索性分析以及数据预处理，通过数据探索性分析可以发现影响数据质量的问题并帮助工程技术人员了解数据的具体特征。在数据预处理阶段可以根据数据探索性分析的结果制定预处理的策略，之后按照预处理的策略对数据进行预处理。之前的课程已经介绍过数据探索性分析以及数据预处理的相关方法，在此处可以让学生对数据探索性分析方法以及数据预处理方法进行复习并将这些方法应用在该项目案例中。

在完成数据预处理任务之后，接下来就可以基于这些处理好的数据进行模型构建，在进行模型构建之前需要为学生讲解决策树模型的相关理论知识，让学生对于决策树有一个较为深入的认识，理论课程的教学设计将在3.2小节中做介绍。学生完成理论知识学习后，就可以针对实际项目案例进行决策树模型的构建。由于在决策树之前学生也学习过其他的分类模型，因此鼓励学生同时也创建其他已经学习过的分类模型，这样可以帮助学生对以往所学的知识进行复习，最后需要通过评价指标对所有分类模型的效果进行评估。

当学生完成以上描述的过程之后，不仅可以对过去所学的知识进行复习，还可以在学习决策树模型相关理论的同时了解模型的应用方法。

3.2 基于理论进化的数据挖掘理论课程教学设计

决策树模型有三个主要的算法，包括ID3、C4.5以及CART，其中ID3和C4.5两个算法构建决策树模型的过程相同，但是这两个算法的属性选择方法不同，其中ID3所采用的属性选择方法为信息增益，而C4.5所采用的属性选择方法为信息增益率，CART算法构建决策树模型的过程与ID3、C4.5不同，并且CART算法所采用的属性选择方法为Gini系数。如果将这三种算法分开介绍，会使得学生学习并且记忆这些算法的难度加大，但是如果通过理论进化将三个算法串接起来，将会非常有益于学生掌握所讲解的理论知识。

在讲解构建决策树模型的三个算法的过程中，由于ID3算法最先被提出，因此首先需要通过ID3算法的伪代码详细讲解其构造决策树的过程。此外，由于ID3和C4.5两个算法的主要区别在于属性选择的方法，因此需要通过两种属性选择方法的关系对C4.5算法的属性选择方法进行讲解。其中，ID3所采用的属性选择方法为信息增益，C4.5所采用的属性选择方法为信息增益率。通过对信息增益的计算方法进行分析可以发现，信息增益无法应对属性取值过多的情况。如果某个属性对应的取值数量过多，那么该属性的信息增益就会变为0，这就导致真正有代表性的属性对应的信息增益值可能并不大，所以需要在信息增益的计算公式上增加惩罚项，通过惩罚项可以有效调节计算结果，从而避免以上问题的发生，而信息增益率其实就是针对信息增益的计算公式增加了惩罚项。可以发现，通过这样的方式讲解ID3算法和C4.5算法不仅可以使得学生了解理论发展的过程，同时也能很好的学习并记忆两个算法的原理。

由于C4.5对于数据集的划分是通过某个属性的取值来完成的，因此如果对应属性可以取k个值，那么整个数据集就会被划分到k个不同的分支当中，这样就导致数据集中的每个属性只能被使用一次，所以基于C4.5算法构造的决策树对于数据的拟合度不够高。CART算法有效地解决了这一问题，该算法将所选择的属性处理为二元属性，并基于处理后的属性构建二叉决策树，这样就使得数据集中的属性可以被重复使用，从而使得所构造的决策树更加灵活并且对于数据的拟合度更高，所以基于CART算法构造的决策树模型效果更好。通过以上的描述可以引出基于CART算法构造决策树模型的过程，首先需要进行属性选择，之后将所选择的属性处理成为二元属性，最后基于二元属性进行数据划分即可。可以发现，基于C4.5算法的缺陷讲解CART算法构造决策树的过程，不仅可以使得学生更好地掌握CART算法的原理，同时也可以使得学生了解各种算法的优缺点。

由于在CART算法中属性是可以重复使用的，因此可能导致所构造的决策树模型过于庞大，在这种情况下会产生过拟合的问题。为了避免过拟合问题的发生，需要对决策树进行剪枝，剪枝算法分为预剪枝算法和后剪枝算法。可以发现在讲完CART算法之后便可以非常自然地引出剪枝算法的内容。

4 教学评价设计

由于课程教学不仅要向学生传授理论知识，同时也要提高学生的工程实践能力，因此在对学生进行考核的过程中，需要考查学生掌握理论知识的程度以及运用所学知识解决实际工程问题的能力。通过以上介绍的教学设计方法可以发现课堂内容就是通过实际项目案例串接起来的，因此需要学生完成项目，提交编写的代码以及代码运行结果的截图，根据提交的代码及运行结果截图可以判断学生对于课堂知识的掌握情况以及在课堂上是否认真听讲。此外，为了能够让学生得到进一步的练习，需要给定一个新的项目案例作为编程作业，要求学生在课后编写代码完成项目，通过学生提交的代码可以判断学生是否能够灵活运用所学知识解决实际工程问题。

与此同时，还应当检验学生对于理论知识的掌握情况，这主要是通过学习心得和课后作业来完成。在学习心得中学生需要按照老师讲解的知识发展过程介绍自己学习了哪些知识，通过学习心得可以判断学生课堂学习效果。可以发现在决策树的三个算法中最重要的知识点是ID3算法和C4.5算法构建决策树的过程、CART算法构建决策树的过程、信息增益的计算方法、信息增益率的计算方法以及Gini系数的计算方法。很明显，如果学生能够计算出属性的信息增益率，那么学生必然能够计算出属性的信息增益，因此可以只考查学生是否掌握信息增益率的计算方法。基于此，在课后作业中需要分别针对ID3算法构建决策树的过程、CART算法构建决策树的过程、信息增益率的计算方法以及Gini系数的计算方法出相关的习题，通过课后作业可以检验学生对于课程重点、难点的掌握情况。

期末成绩由两部分组成，分别是考试成绩和平时成绩，其中考试成绩占总成绩的30%，平时成绩占总成绩的70%。平时成绩又可以进一步划分为平时表现成绩、实验成绩和作业成绩，其中作业成绩占40%，平時表现成绩占10%，实验成绩占20%。平时表现成绩是根据学生提交的课堂编程代码来进行判定的，实验成绩是根据课后的编程作业来进行判定的，作业成绩需要被划分为两部分，第一部分是根据学生提交的学习心得来进行判定，第二部分是根据课后习题的完成情况来进行判定，每部分占总成绩的20%。

5 结论

近些年，随着互联网技术的快速发展，各个领域都积累了大量的数据，因此迫切需要精通大数据处理、分析与挖掘的人才，数据挖掘作为数据专业的核心课，对于培养大数据方面的人才是非常重要的。传统的数据挖掘课程教学主要集中在理论教学方面，并且理论教学也主要是通过讲解教材来完成的，因此学生很难在工程能力方面获得很好的训练，同时学生对于理论知识的理解和掌握情况也不是特别乐观。为了克服这些问题，本文提出了一种基于项目实践与理论进化融合的数据挖掘课程教学方法。在以该方法设计的数据挖掘课程中，学生的工程实践能力可以得到有效提高，与此同时他们还可以通过老师的讲解将理论知识串接起来，这样不仅可以使得理论知识变得更加容易理解同时也使得学生对于理论知识的掌握更加的扎实。

参考文献：

[1] 何栋.关于“数据挖掘” 的项目驱动教学探讨[J].教育理论与实践，2018，38（6）：52-53.

[2] 康雁，林英，朱燕萍，等.基于SE-CDIO的数据挖掘课程教学改革[J].云南大学学报（自然科学版），2020，42（S1）：54-57.

[3] 陈朝焰，许洪云，刘攀.本科数据挖掘课程教学内容的结构化设计[J].现代计算机，2020（36）：77-81，94.

[4] 陈燕.数据挖掘课程教学方法探讨[J].教育教学论坛，2018（13）：146-148.

[5] 罗莉霞.新工科背景下数据挖掘课程思政教学改革研究[J].林区教学，2021（12）：25-28.

[6] 彭珍.数据挖掘课程在线教学设计与改革探讨[J].中国教育技术装备，2021（4）：100-102.

【通联编辑：王力】