大数据时代下的档案数据挖掘

2018-03-10 08:47徐涛李京林蓝传锜
山东工业技术 2018年5期
关键词:编研数据挖掘利用

徐涛+李京林+蓝传锜

摘 要:在信息化高度发展的今天,随着纸质档案数字化转变,正确认识档案信息資源、对档案信息资源进行合理开发和利用、挖掘用户使用档案行为并进行分析以及关注焦点等信息,对研究档案的利用具有很大的价值。作为查档用户,通过需求调研发现,单纯的电子档案信息的调阅已经不能满足如今诸多时间紧任务重的工作环境,如何在尽可能少的时间内获取尽可能多的有用信息是用户关注的焦点。

关键词:数据挖掘;档案;大数据

DOI:10.16640/j.cnki.37-1222/t.2018.05.116

1 档案数据挖掘的基本认识

1.1 档案数据挖掘的定义与特性

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。对数据化的档案资源进行数据挖掘,从而找到蕴藏在档案中的价值,获取档案中的知识和规律,这一过程可以说是从数据到新知识的蜕变。

如,档案人员想要做好档案编研选题,不仅要对用户利用档案数据,包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘,而且还需要对用户访问记录,包括网页采用的关键字、下载记录、检索词、用户利用网页时间和频度等信息进行深度挖掘,然后利用分类功能及数据分析,建立档案编研选题的用户模型,一是按需确定不同类型的编研选题,提供个性化的服务;二是根据档案用户需求特点,预测其未来趋向,结合社会热点选定档案编研题目,从而使档案编研部门推出用户满意的编研成果[1]。在档案利用方面,对档案利用登记数据库进行深度挖掘,分别选取不同方面数据进行建模,可以得出不同档案利用形式的变化趋势,从而对档案利用趋势进行分析和预测,对利用频率高的档案进行全文数字化,既可以提高档案利用效率,又可以起到保护档案原件的作用。

因此,档案数据的挖掘是大数据时代的主要特点,档案学的发展历程告诉我们,每一次重大的技术变革都必然影响着档案学的发展,如计算机和网络技术的引人,引起了档案管理理念与实践的变革,改变了文件与档案的处理流程。大数据技术对档案数据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。

1.2 从数字化档案转变为数据化档案

“数据化”是近两年随着大数据的发展才逐渐被人们从“数字化”概念中逐渐分离并提出来。最初“数字化”和“数据化”是混为一谈的,数据化的提出不是对数字化的否定,而是在对数字世界认识逐步深化的基础上,对数字化理论的拓展与推进。可以说数字化带来了数据化,但是无法取代数据化。

我国档案界探讨最多的是档案的数字化,在理论和实践方面都取得很多成果。国家在档案数字化方面出台了《电子文件归档与管理规范》和《纸质档案数字化技术规范》两个重要的标准规范。在实践中,我国档案数字化主要做了两方面工作:一是档案目录信息的数字化,即建立档案目录数据库,严格规范档案信息的著录标引,科学选定档案目录的数据库结构;二是档案全文信息的数字化,即采用扫描录入的方式将档案全文按照原貌逐页存储为图像文件并为其编制目录索引,或是经OCR(光学字符技术)识别后采用文本格式存储档案内容,辅之以全文检索数据库[2]。可见,我国在档案数字化过程里已经无意识地进行了部分档案的数据化,尽管所占的比例很小。

2 数据挖掘技术在档案信息管理中的应用

档案数据挖掘过程中,会用到包括文本信息抽取、文本分类、文本聚类、文本数据处理等技术进行文本的数据挖掘工作[3]。比如以档案文本数据为基础资源知识库,根据档案发布的时间信息,分析档案产生的节点趋势以及政府部门针对某一政策的关联度;对档案类目信息或文本信息进行分词,运用文本分类和文本聚类技术,结合档案数据的基本属性(时间、所属部门等),对档案进行归类(如按照关键词、档案发布部门、主题等);采用主题识别技术对档案数据进行抽取,以档案主题为中心,结合档案类别归属,找出与之关联的档案。基于上述资源,结合多策略的内容抽取,进行文档数据内容的对比,分析相关政策的影响力、执行力以及变化趋势,从而给政府部门提供相应的决策资源[4]。同时也可以通过知识管理技术,主要包括信息积累、知识挖掘、知识运用等,结合信息检索、分析及挖掘技术,将信息进行适当的分类及抽取或形成一组问答序列,并将这些信息进行提取,形成解决某一问题域的数据集,挖掘出一定的专门知识,作为决策的依据,进一步提升档案信息资源的再利用与档案编研工作者的工作效率[5]。

3 结语

在信息爆炸的“互联网+”时代,档案工作仍面临三大矛盾:一是档案本质属性与管理理念的矛盾,智慧时代产生的档案信息以原生电子档案、多媒体档案为主,而档案部门仍按传统实体档案思维进行管理;二是档案数据规模与管理能力的矛盾,当前数字档案爆发性增长,档案馆已经成为一个庞大的数字化仓库,凭档案部门现有的技术、设备和人员难以支撑海量数据的管理;三是档案服务能力与社会发展需求的矛盾,在转型升级的时代背景下,倘若档案部门不能及时融入和顺应时代潮流,就不能在智慧城市建设中提供更好的公共服务。

因此,正确认识档案信息资源、对档案信息资源进行合理开发和利用成为了我们工作的重中之重。由此就需要相关人员在档案信息管理的过程中,做好档案数据挖掘的基础研究工作使我们能够准确、有效的进行档案管理,在确保档案信息管理质量的同时,创新档案信息的管理模式。

参考文献:

[1]张文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016

(02).

[2]王学平.浅议我国档案数字化建设实践与发展策略[J].档案学通讯,2011(06).

[3]许桂清.对智慧档案馆的认识与探析[J].中国档案,2014(06).

[4]张芳霖,唐霜.大数据影响下档案学发展趋势的思考[J].北京档案,2014(09).

[5]曹莉.刍议大数据时代的数据挖掘与精细管理[J].经营管理者,

2013(18).

本文受甘肃省档案局科技项目《甘肃省档案局档案信息资源挖掘平台建设与研究》(甘档2016-1)支持

猜你喜欢
编研数据挖掘利用
对传统档案编研与数字档案编研融合的思考
画与理
科研档案编研工作的新认识
信息时代档案编研工作开展思考
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
深化企业档案编研工作,提高档案服务能力
利用“隐性”圆,巧解一类题
废物巧利用