大数据环境下未来档案馆建设的新构想★

2017-02-18 06:25席畅
云南档案 2017年1期
关键词:档案馆信息

■席畅

大数据环境下未来档案馆建设的新构想★

■席畅

本文从大数据这一概念出发,探究分析未来档案馆的特征与构建,同时对未来档案馆智能化扩展进行展望。

大数据未来档案馆档案数据集信息档案数据档案

大数据技术作为数据科学时代来临的代表,是人类推动信息技术的深入发展和广泛运用的标志性技术。人们已逐渐认清大数据技术必将给人类带来无限的生机与活力,它隐含的巨大深度价值,对未来科技、经济发展乃至上层建筑必将带来深远影响。档案事业作为国家机器的重要组成部分,发挥着不可替代的重要作用。各级档案馆信息化建设水平,直接反映着国家机器运转水平,重视和加强档案馆信息化建设,是全体档案工作者和科技人员不可推卸的责任。

一、大数据概念解析与未来档案馆应有特征

(一)何为大数据

Gartner研究机构认为:“大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”百度百科中解释大数据一词为“BigData (大数据),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。”“亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单定义:“大数据就是任何超过一台计算机处理能力的庞大数据量。”维基百科谈大数据含义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”

可见,大数据是一个数据类别繁多、数据真实性极强、数据体积巨大,且建立在掌握所有数据基础上,采用数据挖掘等技术手段,来检测数据间相互关系的数据集。

(二)未来档案馆的特征

IT界普遍认为,大数据具备Velocity、Volume、Variety、Value(“4V”)特征,应用于未来档案信息化建设,未来档案馆应具备以下五个特征:

1.高速度:Velocity(高速度)指的是数据产生的速度快、数据处理的速度快两个方面。传统数据挖掘技术与大数据处理技术最本质的区别就是速度的差异。“1秒定律”是数据处理速度方面最为著名的一个定律,即要在一秒内得出结果,若超出时间数据毫无价值而言。对于未来档案馆,在庞大的档案信息及数据面前,快速检索、处理、查询,是提升档案利用效率、发挥档案馆作用必备的重要特征。

2.容量大、资源化:随着互联网、云存储、移动云计算等技术的广泛运用,未来档案馆档案信息及档案数据必将形成巨大数据集。大数据技术的出现,能有效解决Volume(数据容量大)问题,并为未来档案馆提供了无限量的数据容量空间,使档案资源化成为现实。

3.数据类型、格式、来源多样性(Variety):“大数据不仅是处理巨量数据的利器,更为处理不同来源、不同格式的多元化数据提供了可能。”对于数据而言,数据的类型复杂多样,包括关系型数据和非关系型数据两种,非关系型数据是指搜索引擎、社交论坛、电子邮件、网页、互联网日志、文档等非结构化、半结构化数据。数据格式和来源的多样性,那些音频、文本、视频、图片等多种数据格式均来自于某组织的内外部运作的诸多环节。未来档案馆存储档案,与现行档案馆相较,同样会扩展到档案类型、格式、来源的多样性,这也是未来档案馆必备特征之一。

4.档案历史记忆真实、可靠、连续智能:就大数据技术本身而言,它包括诸多先进技术和手段,如大规模并行处理(MPP)数据库、分布式文件系统、数据挖掘电网、分布式数据库、可扩展的存储系统、云计算平台、互联网等,构成一个超大的数据生态系统。在这个系统中,档案工作者在获取和存储更多真实、连续、可靠的档案信息的同时,通过建立相应的专家决策支持系统,可以实现为人类社会发展提供准确预测和正确决策,使未来档案馆具有智能化特征。

5.具备数据挖掘特征:技术Value(价值密度低)。从未来发展趋势来看,档案来源渠道必将呈现多样性。在档案产生过程中,必将面临着庞大规模信息,出现Value(价值密度低)现象,Value(价值密度低)。大数据的数据挖掘技术运用于未来档案信息化平台,使未来档案馆同样具备了数据挖掘特征,为未来档案存储带来无限的想像空间。

二、大数据背景下未来档案馆的模式

(一)未来档案馆应是互联互通、资源共享

发挥档案馆作用重要条件是达到现有档案馆互联互通、资源共享。就技术层面来讲,现有技术实现完全可以达到这一要求。互联网平台的搭建,使档案馆(室)的互联成为现实。国家批准、认定和设置的各级档案馆(室),通过互联网已形成一个庞大的档案传输和利用平台,这一平台的形成,为深化档案馆信息化建设、实现资源共享提供了有利条件,这也是大数据技术应用于未来档案馆信息化建设的重要基础和前提。

(二)未来档案馆应做到资源分级、有效管理

对未来档案馆而言,在各级档案馆内部,应做到资源分级、有效管理,这是大数据技术运用的必备条件。所以,对现有档案馆(室),应做到统一布置、统一要求,对现有档案要按着规范,合理分类、分级管理,并按着要求形成规范的电子文档,以备传输、查询和利用。

(三)未来档案馆应设置权限、使使用者合理合法使用档案资源

对于构建未来档案馆而言,档案信息平台上的所有档案馆(室),均处在同一层面上,所有档案资源被视为同一个数据集,只是分布在不同的存储器(即档案馆)。(图1)

图1 档案信息平台

对不同档案馆,档案级别的数量也有所不同(图2)。

图2

在档案信息平台使用上,不同级别的档案馆(室)的访问权限是不同的。权限低的,只能访问同级档案馆的档案库和高级别档案馆中部分同级别的档案分库;权限高的访问权限低的档案馆也应遵循访问权限,进行合理合法访问,并非全部。(图3)

图3 档案访问权限示图

三、未来档案馆的智能化功能

(一)未来档案馆具备为用户提供预、决策的智能服务功能。

人工智能的运用和专家决策支持系统的建立,使拥有庞大档案资源的未来档案馆,根据国家和社会的需要,依据档案资源,实现进行分析、预测和决策,为客户提供帮助和支持。(图4)

图4 分析、预决策流程图

(二)未来档案馆具备档案自动生成的功能

大数据技术的应用,使我们得以解放思想、畅想未来。从档案资源获取渠道上来看,未来档案馆的高智能,必将打破以往被动获取等传统、固定的档案来源渠道,扩展到一部分档案是通过社会信息渠道自动筛选生成,这部分档案必将成为未来档案馆的重要组成部分,并使档案真正实现资源化,为档案馆预、决策智能化服务提供支持。

对于档案通过社会信息渠道自动筛选生成问题,我们探究式地引入“信息档案”和“数据档案”两个概念。

1.信息档案和数据档案概念的界定

信息档案,笔者认为它是指在那些经过国家认定的信息范畴中,通过互联网等现代技术手段和渠道,进行筛选、提取并加以存储的、对国家和社会具有保存价值的重要信息。

数据档案,是指对所存信息档案的各时期、各重要节点通过现代技术手段跟踪、分析并加以存储的、对国家和社会具有保存价值的重要数据结果。数据档案应具有为国家和社会提供可靠、可信的预测和决策服务功能。

2.信息档案库(馆)和数据档案库(馆)的建立

就档案存储而言,信息技术的革命,必将使以往的不可能即将变为现实,传统的档案存储模式也必将发生跨越式变化。由此我们在探究式地引入“信息档案”和“数据档案”概念的前提下,提出“信息档案库”和“数据档案库”的概念,在未来的档案库(馆),在坚持保留传统档案存储模式的同时,应存在“信息档案库(馆)”和“数字档案库(馆)”两类现代化库(馆)。

所谓信息档案库(馆),应是存储那些经过国家认定的信息范畴中,通过互联网等现代技术手段和渠道,进行筛选、提取并加以有序存储的一切重要信息。其功能是准确、有序保存历史记忆,有效提供重要历史信息,为社会发展服务。

数据档案库(馆),应是存储那些对信息档案库所存的信息档案,通过现代先进技术,进行各时期、各重要节点跟踪、分析、预判和决策,并加以存储的数据结果。在功能上应具有有序保存历史数据,为国家和社会提供真实、可靠、可信的预测和决策服务功能。

信息档案库和数据档案库的建立,一方面,使档案存储突破了以往单一的被动存储模式,向主动收集重要信息和数据、并作为档案长期保存的主动存储模式迈进,这种被动与主动并存的存储方式转变,使档案存储得以有序的无限放大。另一方面,从档案历史记忆特质上看,未来资源化的信息档案为“证”,资源化的数据档案为“据”,这种“证”“据”,与以往相对比,将使档案历史记忆变得更加真实可靠,特别是大数据技术使档案实现主动为人类社会发展提供可靠预测和分析决策服务,使未来档案工作前景无限。(图5)

图5 信息档案库和数据档案库使用流程图

大数据在档案信息化建设中的具体应用,使未来档案馆实现质的飞跃成为可能。它不仅使档案存储资源化,同时使档案从被动存储向主动存储迈进,达到了互联互通、资源共享,加快了档案馆智能化建设的步伐等。这一切必将对档案历史文化传承、国家政务公开、深化社会服务、乃至智慧城市建设,发挥其重要作用。

★项目支持:该文系教育部人文社会科学规划基金项目“信息文明视阈下档案文化范式转型研究”(项目编号:12YJA870015);国家社科基金项目“信息文化视阈下档案价值认知转型研究”(项目编号:13BTQ066)阶段性研究成果。

[1]http://www.docin.com/p-799393759.html数据价值链:大数据时代漫谈

[2]http://www.xue163.com/listt1589/gartner gw/(Gaertner官网)

[3]http://baike.baidu.com/link?url=wkSdaw2 pKxl5WuW08iWO5EJjCmVZlbmu7GV0pGIpF 8p6VysYN0oKCWrqrAPOMiW1tMtwYaLGPSIk wRpGVg_Qka(百度百科)

[4]http://www.itongji. cn/article/0Z22H12013.html《一个亚马逊数据科学家关于大数据时代的职业分析》.

[5]http://wenku.baidu. com/view/f721ed60cf84b9d528ea7a61.html《大数据介绍》

[6]http://datacenter.ctocio.com. cn/369/13069369.shtml《再谈大数据的特征,感受数据之大》

作者单位:黑龙江大学信息管理学院

猜你喜欢
档案馆信息
云南省档案馆馆藏《东巴经》
智慧档案馆与数字档案馆的关系分析
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
订阅信息
全省部分档案馆新馆掠影
when与while档案馆
展会信息
科隆档案馆突然坍塌
信息
健康信息