大数据时代对档案工作的影响及应对策略研究

2017-07-19 19:54臧茜玉
卷宗 2017年15期
关键词:档案馆大数据

摘 要:在大数据浪潮呼啸而来的今天,新兴技术的快速发展带来了整个社会每天产生的数据呈指数级别的增长,如今,社会各行业都面临着对纷繁复杂的数据进行分析处理的困境,作为主管历史记录和信息资源的档案部门也同样面临着大数据给数字档案资源管理带来的挑战和机遇,如何从海量数据“提纯”出有价值的信息归档保存,并能够长时间的利用成为档案部门在大数据时代必须承担的不可推卸的责任。档案学能否和大数据进行一次成功的亲密接触,这是众多学者目前关注的一大焦点。本文首先分析了档案大数据与大数据之间的关系,通过文献计量的方式对比了国内外档案领域大数据技术应用研究现状,从机遇与挑战两方面分析了大数据给档案馆带来的影响,提出档案馆应用大数据技术的模拟框架,分析了现阶段档案馆推行大数据技术的可行性以及需要采取哪些措施,最后展望了在档案馆应用大数据技术的广阔未来。

关键词:大数据;档案大数据;档案馆

1 大数据和档案大数据

1.1 大数据概念的界定

大数据(big data),或称“巨量资料”,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理并整理成为帮助企业经营决策更积极目的的数据,即不能用随机分析法(抽样调查)这样的捷径,对于大数据概念的起源,学术界还没有统一的定论,在工信部的《2014年大数据白皮书》中,认为大数据概念来源于2011年麦肯锡、世界经济论坛等机构的相关研究。这些机构通过研究海量数据在社交网络、网络广告、电子商务、数据挖掘中的应用,使全社会开始重新审视数据中蕴含的巨大价值,并随后在全世界兴起了一股大数据的热潮。

1.2 大数据的特点

大数据的特点有很多种说法,IBM认为大数据有三个特征(3V),即Volume,Variety,Velocity,还有学者从Size,Resolution,Scope这三个角度来定义大数据,即数据规模足够大,数据的深度足够深,以及数据的广度足够宽,在这里,本文采用主流的“4V”来对大数据进行特点概括,即Volume,Velocity,Variety,Veracity。

①Volume,即数据量巨大,甚至能够达到PB数量级或者更大;

②Velocity,数据种类众多,包括视频、音频、图片、日志、地理位置信息等多种类型数据

③Variety,即价值密度低,而商用价值高,大数据多数为半结构化和非结构化的数据

④Veracity,要求处理速度快,大数据的处理技术上与云计算、集群网格计算、分布式计算等技术的应用紧密相关,一般要求在秒极时间范围内给出分析结果,时间太长就可能失去了大数据的分析价值,这一点与传统的数据挖掘技术有着本质的不同。

1.3 档案资源符合大数据的特征

①档案数据体量巨大(Volume)。目前,单个国家综合档案馆档案资源总量基本达到了TB级,考虑到每个档案馆资源的不同,以及各类档案部门保存的档案数量,必将达到PB级甚至EB级。据统计,2011年,各级国家档案馆馆藏已达3,3亿卷,到2020年,馆藏将达到6亿多卷,如果加上企事业各类档案部门馆藏,将是一个海量资源库。

②档案资源种类多(Velocity)。档案资源以文本类为主,还有大量的音视频档案、照片图片档案、图纸、凭证档案、地理信息、网络日志等,都是非结构化数据,描述这些档案资源的元数据又是结构化数据。海量结构化数据与非结构化数据的混合正是传统数据处理难以解决的问题,符合大数据的多样性特征。

③档案价值高,但价值密度低(Variety)。档案留存着社会的历史记憶,具有很高的历史价值。然而对当前应用来说,海量档案信息,每次可能利用的数据非常少,存在着价值密度低的特点。如视频,连续不间断摄制过程中,可能有用的数据仅仅有一两秒,这些档案信息蕴含着巨大的潜能,需要人员、流程与技术的密切配合,方能将其转化为更大的真正价值。

④处理速度要求高(Veracity)。大数据要求实时或近乎实时的处理速度,这对企事业单位来说没问题,对于国家档案馆来说好像要求过高,其实不然,传统档案利用方式是被动地等待用户来查找原始信息,给社会留下“故纸堆”的印象,如果改被动服务为及时、准确地主动服务,这种主动服务不仅提供档案原始信息,还应提供BI、预测分析、内容分析、辅助决策分析等。

2 大数据给档案馆带来的影响分析

2.1 大数据技术给档案馆发展带来的机遇

从资源角度而言,档案是社会组织和个人在社会实践活动中直接形成的具有清晰、确定的原始记录作用的固化信息。大数据时代,档案概念存在着严重的泛化问题,很多之前不能被称之为档案的信息在大数据时代都可能变成档案,这就造成了档案数量的急剧增长,“每一条记录都将变成具有长期保存价值的档案,这些单位价值密度低的记录信息将作为不可分割的整体来发挥档案的价值。这也就意味着”一切具有保存价值的文件、数据、视频、实物都将视为档案,基于信息系统的电子文件在形成之后‘一秒钟即形成‘电子档案”。档案馆将“更多地关注一些底层化、碎片化、复杂化的信息。

(2)从管理角度而言,大数据时代的到来,推动了档案管理的变革。不同于传统的手工管理,大数据时代的档案管理将在云平台上建设云档案系统,实现云存储,档案馆传统的“收管用”也将发生变化,“收”是将数据实时、自动归集,“管”是将采用云平台存储、计算、分析,“用”则是分析、发现与预测,为社会、企业创造价值。从大量数据中分析潜在的价值,决定着大数据时代档案馆的发展水平及方向,这就意味着大数据时代,“档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为档案馆的主要业务。

(3)从服务角度而言,大数据时代档案馆的服务内容、服务方式、服务目的均将发生改变。档案服务将“朝着社会化、多元化、开放性和先进性发展,以企业、客户个性化的需求为导向,提供网络化、智能化服务。大数据的发展将实现真正的个性化服务,“不仅提供用户所需要的信息,还通过对用户需求进行分析,提供基于海量分布式资源的精细化知识组织输出,实现“信息+解决方案”的一站式服务。

(4)从思维角度而言,大数据时代的到来,将从多个方面变革传统的档案馆思维模式,为档案馆管理、服务及业务理念带来颠覆性的变化。管理思维上,将推动档案馆从经验驱动到循数管理的转变,让“数据说出话来”;服务思维上,档案馆的服务理念将实现从供给导向到需求导向的转变,实现从资源密集型服务到服务主导型的转变;业务思维上,从追寻“因果律”走向审视“相关性”,从出现问题——逻辑分析——找出因果关系——提出解决方案的逆向思维模式,到收集数据——量化分析——找出相互关系——提出优化方案的正向思维模式转变。

2.2 档案馆推进大数据的挑战

2.2.1档案服务利用方式急需革新

大数据技术发展推动了档案管理的科学化,在庞大的数据信息源的支持下,档案馆的服务将走向结论化、知识化和智能化,从而改变以往简单复制、查阅等利用方式,减少了服务过程中的不确定性。而且用户希望提供个性化、可视化服务,也对档案部门的服务利用提出了新的需求。大数据时代的发展将实现真正的个性化服务,不仅提供用户所需要的信息,还通过对用户需求进行分析,提供基于海量分布式资源的精细化知识组织输出,即实现信息解决方案的一站式服务。档案服务方式的革新对档案馆提出了很高的要求。

2.2.2技术的滞后跟不上大数据的发展

档案馆自身技术的滞后也引起了研究者的深刻忧虑。在档案大数据的检索方面,“如何在大量的档案数据中快速而准确地检索到所需的信息”;在档案大数据的分析方面,如何实现大数据处理方法和工具的简易化和自动化;在档案大数据的展示方面,如何实现最终结果的可视化:在档案大数据的利用方面,如何在海量数据中抽取和挖掘有用的信息和知识并提供给用户,进行专业化处理,实现数据“增殖”。这些实质性的问题若得不到妥善的解决,大数据的发展、普及和深入将遭遇严峻的挑战。

2.2.3思维观念的及时调整

在新事物的推进过程中,还要特别注意不要陷入极端的思维误区,一般情况下档案馆在推进大数据的过程中容易陷入两种思维误区,一种是完全的否定大数据,没有大数据观念,无视大数据时代的来临,不想改变,采取固守原状的鸵鸟政策;二是泛大数据化,即不加鉴别地收集保存一切数据,从而使得档案馆陷入数据沼泽,数据数量太多进而丧失了自己的特色,此外人才问题也是一个很大的挑战,档案专业技术人才及信息技术人才的匮乏将极大地阻碍档案馆大数据的发展。

3 大数据在档案信息化工作中应用的应对策略

(1)转变服务观念。目前大多数档案部门依然是几十年前的服务观念:被动的等待利用者,提供的服务主要还是档案信息内容,随着档案信息化工作的开展,档案目录、部分档案全文经数字化后上网供利用者浏览,这是主动服务思想的体现。一些档案部门也在尝试開展进一步的主动服务工作,比如,北京房山区提出“基于数据挖掘的档案信息资源深度开发与利用”等,尽管是传统的数据仓库应用,但服务的主动性已经有了很大的提升,是一大进步。

(2)开展档案数字化工作,提高纸质档案数字化率,尽可能的将馆藏传统档案进行数字化,如果数字化率比较低,数据肯定不全有遗漏,抓紧实施电子文件管理工程,进行电子文件收集管理与保存工作,在进行档案数字化的过程中,由于同一份传统档案可能存在多个全宗或立档单位都存在,在大数据处理前需要进行查重,以免增加超级计算机或服务器集群的负担。查重有两种方法。一种方法是利用档案目录,各档案部门基本都已建设自己馆藏的档案条目,先把条目上传,根据条目比对档案的重复性,将结果反馈给相应的档案部门,以一个档案部门为主进行数字化,其他部门或下载拷贝相关链接关联相应档案,该方法条目上传到上一级档案部门,由上级档案部门统筹安排进行数字化,该方法的优点是节省资源,有限的资源可以尽可能多地数字化,缺点是协调,统筹不容易。另一种方法则是各部门分别数字化自己的馆藏,将数字化结果全部上传到数据治理计算机,由数据治理计算机进行全文比对查重。该方法优点是比对准确,缺点是资源有所浪费,同时加重了数据治理服务器的负担。两种各有利弊,应当灵活使用。

规划全国性或区域性的档案资源云服务。大数据的基础是云计算,同时档案信息资源的整合也应该建立在云计算基础之上,可以考虑建设全国或区域性的公有云,实现全国或区域内档案条目的集中与共享,实现查重档案的存放与共享,甚至可以实现区域内所有电子文件、数字档案的存储,下级档案部门保留档案链接地址即可。这样的前提是访问公有云的是高速网络。公有云下,区域内档案部门可以建设自己的私有云。档案云资源的建设使得大数据平台有了强有力的数据支撑。

(4)提升档案工作员工综合素养。要建设档案强国,首先要建立一支与档案强国相匹配的档案工作员工队伍,特别是大数据时代,档案工作不再是原先的装装订订,档案利用也不是简单的查阅,档案人员应从数据的视角看待档案,以大数据推动档案馆的管理和服务。这也对档案人员提出了更高的要求,大数据时代,档案馆人员要努力向“数据科学家”转变,大力提升综合技能,一是具备一定数学知识能够建数据模型,二是能够利用信息技术建数据模型分析系统,三是处理数据,得出结论和自己的见解。

(5)加强档案资源集群建设,打造数据资源平台。大数据时代,各档案馆之间互联互通,实现馆藏资源共享,打造集群档案资源和数据平台意义重大。尤其在当前,许多档案馆本身馆藏数据都分散在互不联通的数据库中,如何将这些数据库打通,实现各数据库乃至各档案馆间的资源共享,才能提升档案工作的大数据水平,才能充分体现出馆藏数据的价值,档案馆之间的合作也可以实现优势互补,最大范围的实现价值最大化。从信息技术层面来看,科学利用云计算技术,将我国各档案馆资源进行整合集成,打造并建设中国档案云,将可以实现这一目标,因此我国档案部门必须大力推进信息化建设,为大数据时代的档案工作奠定坚实的信息化基础条件。

(6)创新档案服务方式,加快市场化开放进程。大数据时代的到来,使得一些原本模糊的因素得以清晰的显现,大数据对档案工作的影响还体现在服务职能化层面上,随着信息技术的不断发展,档案服务更有针对性、更为准确、更能满足用户的想法和需求。换言之,档案服务方式将升级为数据服务,大数据时代,阅览、咨询、展览等传统档案服务将得到变革,而以馆藏为基础,为社会提供数据分析服务、数据挖掘服务将成为大数据时代档案的常态服务内容,如何将孤立的档案联系起来,让档案活起来,形成一个综合的智能化的系统,这个系统能够为需求者提供全面的服务,将是档案管理者面对的直接挑战,也是最严峻的挑战。

4 结语

在大数据时代,对信息资源的开发利用能力已经成为国际竞争力以及国家综合实力的重要因素,当全球范围内数据成为国家资产、创新前沿,要实现数据治国,数据强国,档案部门应该勇挑重担,转变思维观念,转变管理职能,由“管档案”向“管数据”拓展,制定大数据战略,创造高效、灵活的云环境,借助基于云的平台,从可信赖的数据源中捕获和提取结构化、半结构化和非结构化数据,优先处理最重要的数据,确定需保留的内容和保管期限。通过整合现有档案馆藏资源,进行数据分析和数据挖掘,把档案资源转化为知识资源,尤其是覆盖人民群众的知识资源,对个人来说,大数据技术提高了检索信息的效率;对企业来说,利用这些资源增加竞争能力,提高决策的科学性;对政府部门来说,使大数据成为国家宏观调控、社会治理的信息基础,提高执政为民的质量和影响力。

参考文献

[1]鲁德武.试述档案大数据的定义、特征及核心内容.档案,2014(4):13-15

[2]周枫.国内档案学领域“大数据”研究述评.档案,2014(6):9-12

[3]石俊峰,周俐霞,付雙双.大数据时代数字档案资源管理研究现状与趋势分析,信息安全与通信保密,2014(5):87-93

[4]刘国华,李泽锋.档案工作中大数据框架构建及应用思考,2014(2):32-34

[5]王铁牛.大数据档案学国内研究现状及研究方向分析.档案研究,2015(3):107-110

[6]邹华英.试论大数据时代的档案工作.档案事业管理,2013(12):4-5

[7]张芳霖,唐霜.大数据影响下档案学发展趋势的思考.档案学通讯,2014(1):9-13

[8]陈南.浅析档案大数据时代的必然性及其给档案管理带来的机遇.治黄科技信息,2015(12):26-29

[9]王兰成,刘晓亮.网上数字档案大数据分析中的知识挖掘技术研究.浙江档案,2013(11):14-19

[10]高茂科.对档案大数据关键环节的认识.中国档案,2013(10):72-73

[11]丁国勇.大数据时代对档案工作影响及应对策略研究.兰台世界,2014(6):42-43

作者简介

臧茜玉(1993-),女,汉族,籍贯:安徽省蚌埠人,上海大学图书情报档案系,15级在读研究生硕士学位,专业:图书情报,研究方向:档案学基础理论研究。

猜你喜欢
档案馆大数据
云南省档案馆馆藏《东巴经》
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
全省部分档案馆新馆掠影
大数据环境下基于移动客户端的传统媒体转型思路
太仓市数字档案馆成为“全国示范数字档案馆”
when与while档案馆
科隆档案馆突然坍塌