大数据时代数据挖掘技术在高校档案管理中的应用

2018-11-25 18:21岳阳职业技术学院办公室杨柳

办公室业务 2018年17期

文/岳阳职业技术学院办公室杨柳

随着计算机科学技术的发展，数据挖掘技术在高校得到了广泛的应用。无论在教学还是管理上，信息技术都起到了重要的作用。随着网络信息数据库的不断扩大，搜索所需信息数据变得越来越困难。为了有效提高信息搜索的准确性以及速率，需要更加有效先进的检索方法，而数据挖掘技术可以很好地实现这一目标。数据挖掘技术是从大量的数据中发现隐藏的模式与知识，常与机器学习、神经网络和模式识别等方法结合使用。随着高校档案中收集到的数据日益增长，数据挖掘在其中的应用也得到越来越多的关注。

一、数据挖掘技术概述

（一）数据挖掘技术的主要方法。数据挖掘通常是指通过算法搜索从大量数据中搜索隐藏信息的过程，高校档案管理中，数据挖掘的主要任务有关联分析、聚类分析、分类和预测、时序模式和偏差分析。数据挖掘的主要方法有：神经网络算法、智能搜索算法、决策树、统计分析、模糊集等方法。1.神经网络。神经网络近些年来得到了越来越多学者的关注，在人工智能、深度学习、数据挖掘等领域发挥着重要的作用，经典的神经网络主要包括有：BP神经网络、MLP等，在高校档案管理中，通常用于对档案进行分类、预测等。2.智能搜索算法。智能搜索算法是基于生物学所提出的一系列随机搜索算法，例如遗传算法、蚁群算法、果蝇算法等，其中遗传算法模拟的是达尔文“优胜劣汰”的定理，遗传算法常被用来进行数据挖掘实验，例如利用遗传算法对森林火灾的真实数据库进行数据挖掘实验，得到有效的关联规则，从而预测森林火灾，结果表明遗传算法是进行数据挖掘的有效方法之一。3.决策树。决策树是一种用于预测的模型，决策树可根据模型需求（即分类或回归）更改目标函数，目前，在基于决策树的基础上提出了Adboost树和XGBoost树等，有效加强了决策树的性能，可用于高校档案分类中。4.统计分析。在档案信息数据库中，不同的字段之间存在一定的关系，例如函数关系或者某种相关关系，运用统计学的方法对其进行分析，常用方法有统计、回归、相关、差异分析等。

（二）数据挖掘的流程。在高校档案管理中的数据挖掘步骤如下：1.定义档案管理问题。高校档案管理中存在很多类别的数据以及业务问题，在建立模型前首先要了解相关背景知识，并对目标有一个清晰明确的定义，这样才能充分地发挥数据挖掘的价值，例如对档案进行分类或检索，那么在分类前我们需要了解档案根据哪些特征进行分类。2.建立数据挖掘模型。建立数据挖掘模型，数据挖掘的重点是分析和准备数据。构建相应的数据库包括收集、描述和选择数据，将有用数据存储在数据库中。例如对学生以及教职工的有效信息进行提取，并将提取到的数据存入数据库。3.分析数据。数据分析的目的是查找对预测输出产生重大影响的数据字段，并决定是否定义无处不在的字段。在学生和教职工档案中包含成千上万的字段，如果逐字逐句浏览分析耗时较长从而导致效率低，这时对数据的有效程度进行分析，筛选出有效数据。4.准备数据。准备数据的目的是为了对建立模型所需的数据进行预处理，针对不同的模型类型做不同的数据预处理，例如神经网络需要数据转换。5.建立模型。在决定了预测的类型之后（分类或是回归），就需要对这个预测进行模型类型的选择，常用的方法包括：决策树、神经网络、遗传算法、传统的数学统计等。6.评价模型。对模型进行验证，例如在文档分类中，将测试集（随机抽取部分学生及教职工档案）输入到所建立的模型中进行分类测试，根据准确度判断该模型是否有意义有价值。

二、高校档案管理中引入数据挖掘技术

（一）模型实践。1.对高校档案进行分类。I级是高校档案分类的最高级别。根据高等学校档案产生的领域类别，结合档案的内容性质，确定I类包含有十个类目，主要有：DQ党群、XZ行政、JX教学、KY科学研究、CP产品生产与科技开发、JJ基本建设、SB仪器设备、CB出版、WS外事、CK财会。本文以高校档案管理中最常见的档案分类为例，对数据挖掘技术在高校档案分类中的应用进行了分析，各类档案的属性都存在相似点以及不同点。通过运用数据挖掘技术，档案管理员可以在众多类别各异的档案中快速找到所需的档案，有效地提高档案分类和检索的效率。2.高校档案的搜索。首先，我们根据已知的数据集分析数据信息并建立对象模型的类型，根据所有需要测试的样本，将模型预测结果和实际结果进行比较，可以判断模型分类的准确率是否符合要求，若达到要求，则判定该模型在档案分类中具有一定的价值，在获得有效的模型后，便可以使用这一模型对未知的高校档案数据进行档案分类。例如，在对高校档案中不同类目档案进行分类时，档案管理员先统计高校所有档案数据信息，并将数据统计结果录入数据库，利用挖掘技术对录入的数据进行关键字提取，将提取到关键字信息的所有档案数据和与一级类目中的十个类别进行匹配，从而实现在高校档案中一级类目的分类。3.高校档案的保管。高校档案的保管是至关重要的，档案中的纸质版文件需要管理员将其放在干燥通风的地方，并定期进行检查维护，而对于电子档的档案，管理员则需要在档案数据库中建立备份系统以防丢失，并提供网络对其进行保护支持，避免病毒入侵导致数据丢失、被窃取等，使系统瘫痪。

（二）档案管理中挖掘技术运用步骤。在档案分类实践中，主要包括以下几个步骤：抽取数据、数据存储及管理、数据体现等技术。1.抽取数据。数据抽取的目的是为了在数据库中将数据录入，数据库是一个独立的数据环境，因此，有必要从联机事务处理、脱机数据存储介质、外部数据源和其他媒体中提取数据到数据库。数据提取主要涉及复制、互连、转换和监控的处理。2.数据储存及管理。数据挖掘技术和传统的数据库技术的不同特性主要体现在数据存储及管理方面，它决定了其外部数据的呈现方式。与传统数据库相比，现在的数据库管理的数据量远大于以往，并且随着时间的推移，数据量成指数上升。海量数据管理、并行以及查询优化是目前的关键问题，目前，为了扩展了关系数据库的功能，将常用关系数据库转换为适合于服务器的数据库。3.数据体现。数据体现的主要方式主要为：查询、报表、智能可视化、统计、挖掘。

三、结语

高校档案管理存在工作量较大的问题，为了有效解决该问题提高档案信息检索的效率，引入数据挖掘技术，通过使用这项技术可以使高校档案的管理更加规范有序，本文将数据挖掘技术在高校档案管理中的实际应用及步骤结合进行分析，为目前的高校档案管理工作提供了参考，且有效实现了档案管理效率的提高。