公安高等院校数据挖掘课程教改研究

2018-01-31 07:49赵晓凡
计算机教育 2018年1期
关键词:公安院校公安数据挖掘

赵晓凡

(中国人民公安大学 信息技术与网络安全学院,北京 102623)

1 背 景

计算机专业目前仍属于比较热门的好就业专业,公安高等院校均开设有计算机专业,内含网络安全与执法、信息安全、视频图像技术和数据挖掘等方向。随着公安信息化工作的发展,公安业务工作利用计算机进行舆情分析、预警决策,进而打击、预防犯罪成为趋势,这些都与数据挖掘课程所讲授的内容密切相关,是数据挖掘课程在实践中的具体应用[1-6]。计算机专业课程设置及教学内容对公安院校学生知识储备至关重要,考虑到公安院校学生的就业方向基本为各地市公安机关,计算机专业选修课应以实用性为主,特别是数据挖掘课程,其教学内容更应结合公安业务并紧跟时代的发展,适时而变。

目前,针对数据挖掘课程与大数据技术相结合的教改探讨有:文献[7]从培养数据意识、加强理论体系、创新教学方法和深入科学研究等4个方面来探索如何设计高校数据挖掘课程,以解决大数据时代背景下数据挖掘课程因抽象而带来的问题;文献[8]针对大数据的特点,以构建课程核心知识体系为主题,采用案例教学法,改革传统的教学评价方式,理论结合实践进行研究生数据挖掘课程教学创新尝试,教学达到了预期效果,受到学生好评;文献[9]结合大数据的特点,对大数据时代数据存储与挖掘算法的教学改革进行分析,对后续研究提供了参考;文献[10]以课堂教学、MOOC 嵌入式课程和项目实践相结合的方式,推进数据挖掘课程在大数据环境下的教学和实践。对数据挖掘课程从其他方面进行教改的文章还有:文献[11]对数据挖掘课程的特点和应用领域、数据预处理方法和关键的四项技术、Web 挖掘与个性化推荐以及算法实现及应用上做了分析,对应用型本科生开设数据挖掘课程做了尝试;文献[12]提出通过建设开放数据挖掘实践教学资源库来提升教学效果。

2 公安院校开设数据挖掘课程的必要性

数据挖掘通常称为从数据中发现知识,是自动、方便提取代表知识的模式,这些模式隐藏在大型数据库、数据仓库、Web、其他大量信息库或数据流中[13]。作为计算机专业研究生的专业选修课,在公安高等院校开设数据挖掘课程的必要性如下。

2.1 互联网行业的飞速发展

互联网行业作为大数据的推动者与技术应用创新的领跑者,不仅是传统行业实现产业升级的重要手段,也是新兴行业开启新型服务方式的依赖。当前,互联网逐渐渗透到电子商务、移动通信、医疗卫生、政府机构等领域和机构,许多计算机技术正在日益改变我们的生活。物联网、云计算、大数据逐步成为计算机专业的热门研究方向。在这些口号的背后,蕴藏和折射出的是运用信息和数据的能力,即如何从大量、复杂的数据中提取有用的信息,这就是数据挖掘课程涉及的内容。此外,近些年大数据技术迅猛发展,而大数据分析所运用的算法和工具都是数据挖掘课程的内容,是数据挖掘课程的拓展和进一步延续。

2.2 计算机专业人才培养的方向

社会需求是高等院校人才培养的驱动力。计算机发展的最高境界是实现真正意义上的人工智能,而人工智能属于数据挖掘大类中的一个领域,是其发展的方向。随着科技的进步,一方面,一些原来需要人工完成的工作开始被机器替代,这些岗位随之逐步消失,退出历史舞台,如信审员;另一方面,新的技术带来新兴产业,创造出新的技术岗位,如数据分析师。公安高校应及时调整培养方案,开设相关专业课程,跟随时代步伐,培养与时俱进的创新性人才。

2.3 公安工作信息化的要求

随着金盾工程二期的实施,复杂而庞大的公安应用系统全面投入使用。公安云平台的搭建,八大资源库和自主开发的一些小型公安业务库内的数据量日益增多,使得公安大数据的挖掘、分析和应用迫在眉睫。公安网侦、技侦、情报等多个业务岗位的工作都与数据的挖掘与分析密切相关。

3 公安院校数据挖掘课程教学现状及问题

3.1 教学现状

数据挖掘是结合数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等多学科知识的交叉学科[14],其先修课程有概率论与数理统计、数据结构、数据库原理、离散数学等。

以中国人民公安大学为例,数据挖掘课程一般开设在研究生一年级下学期,开课对象是网络安全与执法专业的学生,选课人数基本在15~20人,实行小班授课。数据挖掘课程不指定教材,以数据挖掘和数据仓库为主要内容,讲述如何实现数据挖掘的各类主要功能、挖掘算法和应用,包括如何构建数据仓库,如何计算数据立方体,如何进行数据预处理、分类与预测、聚类分析、关联分析,进而培养学生数据分析和处理的能力。数据挖掘课程学时32,教学时数具体分配见表1(无实验课时)。

表1 数据挖掘研究生专选课学时分配

3.2 主要问题

3.2.1 内容陈旧,与时代不接轨

数据挖掘是一门与时俱进的课程,随着科技的创新发展,一些算法在不断地被改进,经典算法的基本思想需要更新,但主流的改进才是最新的思路。数据挖掘发展到现在,数据量级达到了PB甚至ZB,数据类型开始多样化,如数据流、序列、图、时间序列、符号序列、生物学序列等,经典算法无法对这些新型的数据进行处理,因而产生新的大数据分析技术。此外,数据挖掘课程的经典书籍内容仍停留在对文本、数字、图像、视频等数据的挖掘和处理上。

3.2.2 课程知识难度大,理论性强

数据挖掘有3个研究方向:①从数据库的角度出发,因为数据挖掘的发展是数据库技术自然演化的结果;②从统计学角度出发,因为对数据挖掘来讲,从一系列数据中挖掘出有用的信息,这本身就是一个统计的计算,也就是概率的问题,因此从统计学角度出发也是当前数据挖掘研究的一个热门的方向;③从机器学习的角度出发,机器学习再继续研究就是人工智能。作为这些课程的综合和交叉,数据挖掘显然是个理论体系,数据挖掘的每个处理过程都包含从统计学、机器学习、神经网络、模式识别、知识库系统、可视化等学科领域汲取的知识。此外,这些学科领域也需要从不同角度关注数据的分析与理解,这种学科交叉融合带来的良性互动,使得数据挖掘注定是一个不断更新和发展的知识汇聚、切合社会需求的学科方向。

3.2.3 考核方式过于形式化

目前,公安院校数据挖掘课程的讲解主要采用课堂教学的方式,没有设置实验操作课时,考核形式仍然采用试卷或者论文形式:试卷考核形式无法体现对算法功能的掌握和对数据挖掘几大步骤的理解和应用;论文形式过于片面化,学生一般都会针对分类或者聚类的某一个算法的改进进行综述,且论文内容通常比较空泛,有抄袭现象,达不到科研的水平。

4 改革与探索

4.1 拓展授课内容,紧跟时代步伐

随着公安大数据技术的应用,业务岗位对于公安数据的应用和分析要求越来越高,对大数据分析的人才需求也越来越多。数据挖掘课程应在原有基本概念和技术的基础上,适时拓展教学内容到大数据挖掘技术上,完成主流技术在校园内的普及和讲解。

计算机专业本科生的课程设置已经包含计算机科学与技术专业相关理论体系,到研究生阶段应该有所提升,专业课内容应更能体现研究价值,以帮助学生完成与之相关联的科学研究。数据挖掘的方法更适用于实际应用,例如公安院校应该加入在公安业务中会用到的数据分析和可视化的软件使用,而数据挖掘的三个研究方向是在基本方法掌握的基础上研究算法改进的可能。

大数据挖掘已经是潮流,我们需要在授课时添加大数据分析技术,学生能够熟悉常用的数据分析工具,可以根据业务需求完成数据分析流程;能掌握常用数据分析平台的配置、管理及维护工作。在学生确定方向后,可根据兴趣选择更深层的点进行研究,最终达到可以针对实际问题完成建模、设计合理算法的目标。

4.2 降低学习曲线,引导学生找兴趣点

针对数据挖掘课程知识难度大的问题,本文提出可以降低对实现经典算法的要求,学生只需理解经典算法的基本思路,在理解的基础上学以致用,能够在相关数据分析工具中实现算法,不要求专门用代码来实现。

本来程序代码的讲解就比较枯燥,学生一开始还有兴趣,一旦涉及代码,就有可能适得其反,况且对经典算法的改进已经很多,如果学生真的有兴趣,可以自己去研究如何改进代码,而不需要在课堂上做讲解,只需做好引导,告诉学生如何查文献、做研究即可。目前比较流行的几类数据分析工具基本上都包含了对经典算法的实现,学生只要进行简单的拖拽、设置参数变量就可完成对经典算法的套用,非常方便。将讲解代码的时间转移到如何在数据挖掘工具中实现算法,既形象、可操作性又高,教学效果会更优。

4.3 结合公安业务,以案例驱动教学

笔者在课堂上发现,公安院校的学生更注重对口公安业务的实践,研究生做科研也都在公安技术方向上。数据挖掘课程应多与公安业务相结合,以公安实际案例数据来完成数据挖掘几大步骤的讲解,教学效果最好。

例如,以网络赌博案件为例,对数据挖掘中关联分析的几大步骤逐一说明:①数据准备阶段,即调取资料,分析银行交易流水,抽取有用的数据字段如付款方账号、收款方账号、交易时间、交易金额等;②数据处理阶段,即清理入库阶段,包括对交易时间进行处理,统一来自各银行数据的格式,将日期与时间分离的双字段合为单字段,统一为14位的标准文本格式,还包括交易方向的处理,统一使用“借、贷”标志字段来表示资金的流向,在金额中去掉正负,便于以后的计算;③数据整理阶段,为加快可视化展示速度而进行的数据前期处理阶段,可以对发生交易的实体先进行金额汇总,还可以进行数据库层面的数据分析,如对时间进行处理,可以按时间段进行数据汇总,显示出交易频繁的时间段,对账户存留资金进行预估,为今后的资金冻结时间提供参考依据;④关联分析阶段,包括实体连接定义、双向关联拓展、过滤法分析、汇报图与分析图展示;⑤决策支持阶段,即对账户定性,找出顶层账户及其活动规律,分析资金冻结的最佳时机,减少损失。

4.4 创建模拟案例事例库,建设数据挖掘与大数据分析实验室

针对数据挖掘课程缺乏实验平台的问题,笔者提出在不断积累中,创建公安院校专属模拟案例事例库,用多元化的案例事例数据来验证数据挖掘算法的效果,展示数据分析的结果,提高数据挖掘课程的可操作性,增加学生的学习兴趣。

在创建模拟案例事例库的同时,结合大数据分析技术,建设数据挖掘与大数据分析实验室,与数据挖掘授课内容相对应,基于案例事例库开设实现数据挖掘算法的实验课程,利用数据挖掘算法实现数据分析的实验课程,以及利用可视化工具完成数据关联关系展示的实验课程等。

数据挖掘与大数据分析实验室的建设,可以帮助学生加深对数据挖掘和大数据知识的理解,协助教师完成数据挖掘相关实验内容,方便学院建立数据挖掘与大数据分析人才培养体系。

5 结 语

根据《教育部关于公布2015年度普通高等学校本科专业备案和审批结果的通知》(教高函〔2016〕2号),新增“数据科学与大数据技术”专业。北京大学、对外经贸大学、中南大学首批获得招生资格。教育部发布“《普通高等学校高等职业教育(专科)专业目录》2016年增补专业”,其中包括“大数据技术与应用”“商务数据分析与应用”。

由此可见,数据挖掘与大数据分析技术的结合成为必然趋势,公安院校的数据挖掘课程改革可以朝着这个方向进一步探讨,为人才培养助力,促进学科发展。

[1]郑廷, 张云涛. 基于领域本体的数据挖掘技术在贿赂犯罪侦查中的应用[J]. 中国检察官, 2016(3): 55-57.

[2]杨雁莹. 关联规则挖掘在重点人口管控中的应用[J]. 福建电脑, 2016(1): 40-41.

[3]蔡霖翔. 网络诈骗案件涉案人群智能分析[EB/OL].[2017-05-30]. http://cpfd.cnki.com.cn/Article/CPFDTOTALJSAQ201610001049.htm.

[4]吕雪梅. 美国犯罪情报预测分析技术的特点: 基于兰德报告《预测警务》的视角[J]. 情报杂志, 2016, 35(7): 7-12.

[5]陈鹏, 瞿珂, 胡啸峰. 犯罪情报分析中的数据挖掘应用[J]. 计算机系统应用, 2017, 26(2): 249-253.

[6]闫密巧, 过仲阳, 任浙豪. 基于聚类关联规则的公交扒窃犯罪时空分析[J]. 华东师范大学学报(自然科学版), 2017(3): 145-152.

[7]李海林. 大数据环境下的数据挖掘课程教学探索[J]. 计算机时代, 2014(2): 54-55.

[8]张艳. 大数据背景下的数据挖掘课程教学新思考[J]. 计算机时代, 2014(4): 59-61.

[9]黄艳梅. 大数据数据存储与挖掘算法的教学改革分析[J]. 电脑迷, 2016(11): 69-69.

[10]张云春, 薛岗, 何婧, 等. 基于MOOC嵌入式教学的数据挖掘教学改革初探[J].计算机教育, 2015(13): 39-42.

[11]徐金宝. 对应用型本科生开设数据挖掘课程的尝试[J]. 计算机教育; 2007(14): 27-29.

[12]黄岚. 数据挖掘课程实践教学资源库建设[J]. 计算机教育, 2014(12): 89-92.

[13]Han J W, Kamber M, Pei J. 数据挖掘: 概念与技术[M]. 3rd ed. 范明, 孟小峰, 译. 北京: 机械工业出版社, 2012.

[14]王珊, 王会举, 覃雄派, 等. 架构大数据: 挑战、现状与展望[J]. 计算机学报, 2011(10): 1741-1743.

猜你喜欢
公安院校公安数据挖掘
博物馆:上海公安史图片展
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
“疫情当下,我们上前”——抗击新冠肺炎战“疫”中的港航公安掠影
Frequent attacks on health workers in China: social changes or historical origins?
互联网时代公安院校学生管理工作创新
“10岁当公安”为何能畅通无阻
软件工程领域中的异常数据挖掘算法
公安院校计算机课堂教学改革研究初探