项目驱动的信管专业“数据挖掘”课程实践教学设计

2018-09-15 09:46朱慧云
考试周刊 2018年84期
关键词:项目驱动数据挖掘实践教学

摘 要:为解决数据挖掘课程教学过程中,学生理论知识储备与实际工作应用脱节的问题,设计演示型、验证型、案例型、项目参与型四个层次的实践教学体系。在项目参与型实验中,要求学生基于CRISPDM模型开展数据挖掘项目,针对具体的业务背景,依次开展提出问题、分析问题和解决问题的全过程。

关键词:数据挖掘;实践教学;项目驱动;CRISPDM模型

在大数据时代,社会各行各业都需要大量数据分析人才。许多院校正在积极探索数据分析人才的培养模式,在信息类、经管类专业学生的本科阶段开设“数据挖掘”课程,培养学生数据分析和处理的能力。然而,数据挖掘课程仍存在以课堂教学为主,没有设置实验课时或实验课时设置过少等问题,使得学生难以在有限的教学时间内掌握数据挖掘项目所必备的知识和技能,出现“理论知识储备”与“实际工作应用”脱节的问题。

目前,针对数据挖掘课程的教改探讨有:黄岚提出通过建设开放数据挖掘实践教学资源库提升教学效果,激发学生的学习兴趣。白杨依据应用型本科院校人才培养目标需求,将传统教学法与现象教学法、翻转课堂教学法相结合,提高学生的学习兴趣和实践能力。赵晓凡针对公安高等院校学生就业状况和数据挖掘课程实际教学效果,提出结合公安大数据业务、重点介绍数据挖掘算法的应用、案例驱动教学等三点改革措施。胡敏指出商务智能实践课程需要让学生实现由问题找方法,进而深入理解方法的过程。

南京信息工程大学信管专业依据专业发展内容创建了“大数据分析”专业方向,培养能做业务咨询、商务智能的数据分析人才。在“数据挖掘”课程的教学过程中,总结出“重方法,轻算法;重应用,轻研究”的教学理念,培养学生数据分析能力、文字表达和人际沟通等能力。

一、 实践教学思路

在实验课设计过程中,根据信管专业人才培养的特点和要求,从企业大数据分析的实际应用出发,培养学生将实际的商业问题转化为数据挖掘目标、理解和收集数据、应用数据挖掘工具建模、评估模型以判断是否符合商业目的,并将发现的结果组织成可读文本的能力,使学生的理论知识和实践技能得到共同发展。

在此基础上,从系统演示、软件模拟、案例教学、项目驱动四个方面开展实践教学,设计演示型、验证型、案例型、项目参与型等四个层次的实践教学体系(见表1)。在巩固和理解理论知识的基础上,培养学生的分析能力、动手能力和综合运用知识的能力,解决教学中的“理论知识”与“实际动手”、“算法设计”与“工具实用”的两个严重脱节的问题。

设计数据挖掘软件认识的演示型实验,对数据挖掘软件的基本操作和环境进行讲解,使学生对数据挖掘软件有一个初步的认识。设计数据预处理、关联规则挖掘、分类挖掘和聚类挖掘几个验证型实验,实验和数据挖掘的理论知识模块一一对应,使得学生夯实理论知识。通过案例型实验使学生掌握数据挖掘的方法论,初步理解数据挖掘过程,为学生独立完成数据挖掘项目打好基础。通过项目参与型实验使学生深刻理解数据挖掘的全过程。

项目参与型实验采用项目的形式,将学生分为若干项目组,将相对独立的数据挖掘项目交予学生独立完成。从业务目标的确定、数据的处理、算法的选择,到模型的评价、商业的部署,都由学生具体负责。选题主要结合学院教师现有的纵向和横向科研项目,由教师拟出一个或者多个可供选择的课题,同时也鼓励学生根据自己的想法并在教师的帮助下拟定课题。

二、 项目驱动的“数据挖掘”课程实践教学设计

跨行业数据挖掘标准流程CRISPDM(crossindustry standard process for data mining)是业界认可的用于指导数据挖掘全过程的方法。通过近几年的发展,CRISPDM模型在各种KDD过程模型中占据领先位置,2014年统计表明,采用量达到43%。

因此,在项目驱动的“数据挖掘”课程实践教学设计中,要求学生基于CRISPDM模型开展数据挖掘项目,针对具体的业务背景,依次开展提出问题、分析问题和解决问题的全过程。

(一) 业务理解

在开展数据挖掘项目之前,先要确定业务目标,确定想通过数据挖掘项目达到什么目标。在这个阶段,需要学生收集有关业务情况的背景信息,从应用角度讨论具体的业务目标,并把这些理解转换成数据挖掘问题的定义;最后确定从业务角度判定的数据挖掘成功与否的标准。业务目标的定义非常重要,如果开始方向错了,那么无论模型多么准确都只能得出错误的结论。

(二) 数据理解

学生在数据理解阶段需要理解项目相关的数据资源以及这些资源的特征。如购物篮分析项目中需要确定:哪些數据可以用来进行购物篮分析和识别客户群体的购物偏好?这些数据是否已经获得?还有哪些数据资源还没有获得,用什么方法可以得到这些数据资源?获得所需数据资源之后,学生用表格、图表和其他可视化工具探索数据,为关键属性计算基本的统计数据,并对数据资源的质量进行评估。

(三) 数据准备

数据准备阶段要求学生选择和数据挖掘项目相关的数据,并对数据进行预处理,为建模做好准备。由于现实世界中的数据不可避免地存在不完整、不一致和包含噪声等情况,因此需要对数据进行数据清理、数据集成等预处理工作,从而提高数据挖掘的质量。

(四) 建模

学生根据数据挖掘项目的目标和数据的实际情况,选择合适的算法,设置合理的参数,构建模型。建模的过程通常情况下要进行多次迭代,可能会进行算法的调整、参数的调整,甚至是重新准备数据。

(五) 评估

在这个阶段,评估数据挖掘的结果是否明确,是否满足之前确立的业务目标。为了保证项目评估的客观性,评估工作可以交叉进行,每一个项目组对另外一个项目组的数据挖掘结果进行评估。

(六) 部署

这个阶段是数据挖掘结果的实际应用阶段。项目组要基于数据挖掘的结果设计策略进行模型的应用及预演。如可以基于购物篮分析得出的关联规则设计交叉销售策略、货架陈放方案等。

三、 基于CRISPDM模型的零售公司客户价值提升应用

以FoodMart公司的客户价值提升项目为例,阐述基于CRISPDM模型的数据挖掘项目全过程。数据挖掘工具使用IBM SPSS Modeler,它是一款基于CRISPDM模型的商业数据挖掘软件。

(一) 业务理解

1. 业务背景:FoodMart公司在美国、加拿大、墨西哥的连锁店销售商品,目前面临来自其他零售公司的竞争日益加剧。公司老板提出一个解决方案是培养现有客户关系,以便最大化现有客户的价值。

2. 业务目标:通过提供更好的推荐增加交叉销售的数量;通过提供更个性化的服务提高客户的忠诚度。

3. 数据挖掘目标:基于客户购物数据识别商品之间的关联规则;基于客户购物数据和客户人口统计数据确定不同的客户群体,并识别客户群体的购物偏好。

(二) 数据理解

FoodMart数据库中有食品连锁店经营业务所产生的数据,本项目中需要的客户数据、购物交易数据、产品数据都可以在数据库中找到。IBM SPSS Modeler的数据审核、表格等节点可以用来对数据资源进行探索性分析和质量评估。

(三) 数据准备

以识别商品之间的关联规则为例,阐述数据准备工作。

1. 不同数据源数据的合并

表sale_fact_1998(1998年交易数据表)中只有产品号字段,不利于用户对挖掘出的关联规则的理解,因此需要再添加表product(商品列表),从而获得产品名称。在IBM SPSS Modeler中添加两个数据库源节点,分别导入表sale_fact_1998和表product,并通过合并节点合并和过滤数据。

2. 挖掘算法所需新字段的生成

SPSS Modeler软件中关联规则模型使用的数据可能是事务处理格式,也可能是表格格式。事务处理格式数据对于每个交易或项目具有一个单独的记录,要求有一个交易标识字段TID。交易数据表sale_fact_1998是事物处理格式的,但它缺少交易标识字段TID。因此,根据time_id字段和customer_id字段生成交易标识字段TID,将同一个客户在同一个时间的纪录视为一个交易。

3. 字段的过滤和重排

用过滤器节点去掉建模不需要的字段,用字段重排节點调整字段的前后顺序。

(四) 建模

选择Aprior节点,设置规则的最低条件支持度和最小规则置信度,执行数据流。从使用默认的参数开始挖掘,不能找到有效的关联规则,调整参数重新挖掘,仍不能得到理想的挖掘结果。结果发现在原始层数据中进行挖掘,得不到理想的挖掘结果。

重新回到数据准备节点,对数据进行泛化,将商品的低层概念(product)用对应的高层概念(product subcategory或product category等)替换,挖掘高层概念的关联规则。在商品的高层概念层次上挖掘,可以得到较好的结果。

(五) 评估和部署

在商品的高层概念上挖掘,得到商品之间的关联规则。使用这些规则设计交叉销售策略,从而提供更好的商品推荐,增加交叉销售的数量。

四、 结语

在数据挖掘课程的教学过程中,实行基于项目实践的综合实习,可以使学生能够从工程的角度,对数据挖掘的全过程有深入地了解,理论知识和实践技能得到共同发展,解决“理论知识储备”与“实际工作应用”脱节的问题。

参考文献:

[1]白杨.应用型本科“数据挖掘”课程的构建研究[J].无线互联科技,2018(5):95-96.

[2]赵晓凡.公安高等院校数据挖掘课程教改研究[J].计算机教育,2018(1):39-42.

[3]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014(12):89-92.

[4]胡敏.商务智能实践教学内容设计与方法研究[J].教育现代化,2016,3(23):127-128.

[5]百度百科.CRISPDM[EB/OL].[2018-5-9]https://baike.baidu.com/item/CRISPDM/7002457?fr=aladdin.

[6]IBM SPSS Modeler 18.0建模节点[EB/OL]. [2018-5-22]. http://bbs.pinggu.org/thread-4463720-1-1.html.

作者简介:朱慧云,江苏省南京市,南京信息工程大学管理工程学院。

猜你喜欢
项目驱动数据挖掘实践教学
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
依托工作室的软件工程实践教学研究
基于物联网项目驱动的嵌入式系统教学改革的研究与实践
基于“红色之旅”项目驱动的《调酒与咖啡》工作室制人才培养机制探讨
高职院校商务礼仪课程教学改革探索刍议
《数据库高级应用》教学创新方法研究
试论基于项目驱动的机械制图教学改革
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究