大数据时代档案工作的挑战与展望

2014-03-04 00:01舒涛罗浚溢赵永鑫
关键词:档案资料档案管理分析

舒涛, 罗浚溢, 赵永鑫

(1. 成都大学档案馆, 四川 成都 610106; 2 成都大学电子信息工程学院, 四川 成都 610106)

大数据时代档案工作的挑战与展望

舒涛1, 罗浚溢2, 赵永鑫2

(1. 成都大学档案馆, 四川 成都 610106; 2 成都大学电子信息工程学院, 四川 成都 610106)

随着互联网技术的飞速发展, 获取信息的途径越来越多, 大数据时代的到来使得人们能够获取的信息量越来越大. 对大数据的理念对传统的档案工作的重要性、档案存储、分析与管理、档案资源的利用、档案工作方式等各个方面带来的挑战进行分析, 将为我国档案工作带来新的机遇与挑战.

大数据; 档案工作; 档案资源的利用

1 引言

随着信息化技术和互联网技术的快速发展, 现代社会的档案资料已经实现了电子化和数据化, 以数字形式存储的档案资料使用户可以很方便进行检索和查阅, 但是随着电子档案存储数据量的逐年增加, 档案数据资料具有大数据的特点, 必须使用新的技术与结构来实现档案信息的管理.

大数据指的是呈指数增长且有广泛可用性的数字数据, 由于其特殊性不能使用传统的软件工具和技术对这种大数据进行管理与分析. 对这种大数据进行分析和处理的最大困难是这种数据的量增长过快而现有的计算资源却相对较少. 大数据不仅仅是指数据的量, 同时还具有多样性、大量化、高速率、价值密度低等特征.

2 大数据对档案工作的重要性

信息化技术的发展产生了大量的数据, 我们身处于一个数据的海洋, 为了方便用户对档案或者文献资料的查询与获取, 需要把数据尽可能多的存储, 例如, 谷歌公司每天要处理几百万次的后台操作和近百万次的检索服务. 让谷歌公司保持正常运行的核心技术是三个全球最大的LINUX数据库, 其容量分别为7.8T, 18.5TB, 24.7TB;IEEE数据库可以查询上世纪40年代以来的原始科研档案与文献资料. 这些档案资料有的需要长时间的存储, 有的随时都在发生变化, 并且现代社会的档案资料类型繁多不仅仅指文字型档案, 同时包含视频、音频、图片等等档案资料, 从数据结构上看, 电子档案数据类型包含未加工数据、半结构化数据、结构化数据等等,传统的档案系统无法对这些数据进行分析与处理. 使用大数据分析系统不仅是分析整个大数据来对档案进行有效管理, 同时还能够延长档案的存储时间. 大数据系统可以对海量数据进行有效的分析与处理, 解决了传统系统由于缺乏存储设备和分析技术只能提取部分数据进行分析与处理的缺点, 在档案管理领域具有广阔的应用前景.

3 大数据时代档案工作面临的挑战

1)隐私与安全

隐私与安全是大数据时代档案工作面临的严峻挑战, 它不仅仅是理念和技术层面, 同时也涉及法律问题.

大数据时代的档案开放标准必须要严格定义. 大数据系统在方便人们获得相关档案资料的同时由于大数据系统的一些特殊性使得任何档案被轻易获得成为可能. 从国家层面讲, 一些国家机密档案被泄漏, 会造成国家财产重大损失, 严重的甚至可能危及国家安全. 就个人而言, 一些本该属于隐私的个人信息被他人轻易得到, 会对个人及其家庭带来灾难性后果. 例如, 英国一个女高中生因为其隐私照片被泄漏, 最后不堪重负自杀身亡. 据不完全统计, 2013年我国就有近千万公民个人信息泄漏, 造成经济损失高达数十亿元.

2)文献获取与资源共享

获取档案资料的目的之一是为了能够从档案中获得有用的信息, 帮助个人或者企业做出准确的、及时的决策. 要完成上述功能, 就必须保证获取到的档案资料应具有准确性、完整性与及时性, 这需要档案管理机构要保证档案资料更加具有开放性, 这就必然会导致数据分析与处理系统的结构更加复杂, 增加档案管理机构的运营成本.

为了能够更好的利用档案资源为社会经济服务, 档案管理机构应该走出去, 要改变以往的各自为政档案管理模式, 建立全国性的档案数据库, 方便用户能及时、准确获取相关档案资料.

3)存储与处理

面对呈指数增长的档案数据, 档案管理机构现有的存储设备不足以有效和完整地存储整个档案数据. 即使使用云盘也无法解决这个难题. 因为大数据系统需要分析所有的相关数据, 然后根据相应的算法提取出重要的信息. 把TB级的数据上传到云盘需要大量的时间, 而且这些数据又是在快速的变化, 因此无法保证上传到云盘数据的实时性. 同时, 云计算的分布式性质对于大数据的分析也存在问题.

大数据在处理数据时需要把数据从存储点传输到处理点, 如果数据流量大会造成数据堵塞影响处理速度.一种解决方式是不需要把数据从存储点传输到处理点处理, 而是直接在存储点处理, 仅仅只是把处理的结果传输出去. 但是这种处理方法需要保持数据的完整性和来源.

大数据的处理需要大量的时间. 为了找到适合的档案, 需要对整个数据集进行扫描, 这显然是不可能的. 因此在获取和存储数据之初就建立索引可以有效地减少处理时间.

4)技术挑战

①容错率: 由于大数据的容错计算相当困难, 涉及复杂的算法. 而且根本不可能设计出绝对安全、100%可靠的容错设备或者软件. 因此, 系统主要的任务是减少失败的概率为“可接受”的水平. 不幸的是, 越是努力降低这个概率, 系统的成本较高. 目前, 档案系统中使用最为广泛的增加容错率的方法是将整个计算任务分配到不同的节点进行计算. 其中一个节点作为观察节点, 用于监测其他节点是否正常工作. 如果有错误发生, 也只有特定的节点才会从零开始. 但是, 有时整体计算任务不能被分成单个相对独立的任务. 有些任务具有递归性质, 先前任务的输出是后续任务的输入, 因此重新启动整个计算任务将会是非常繁琐的事情. 应用上述的监测节点可以有效地避免整个任务重启. 如果出现任何故障, 从最近一个监测点开始重启, 前面已经完成的任务则保持不变.

②可扩展性: 在一个传统的档案系统中, 平行运算是通过昂贵的硬件来实现, 如大规模并行处理系统或对称多处理系统. 而目前使用的基于大数据分析的档案管理系统是通过通用的硬件和新一代的分析软件来实现平行运算.

大数据背景下的档案系统采用的是云计算, 因为云计算可以把各种不相同的工作负载聚集起来. 这就要求更高层次的资源共享, 必然导致系统成本增加, 而且在大数据模式下系统出现故障的频率也会更加频繁.

目前, 固态硬盘和相变技术已经取代了传统硬盘. 固态硬盘和相变技术在顺序和随机数据传输之间不具有相同的性能, 因此到底使用哪一种存储设备是档案管理系统面临的一个大问题.

③数据质量: 海量数据的获取及其存储都是一笔不小的开销. 获取的有用数据量越大对于决策的制定是极为有力的. 那么档案管理系统就应该把获取的数据进行筛选, 尽可能多存储有价值的数据, 对于没有价值或者价值小的数据则应当丢弃. 档案管理系统在数据存储上最大的问题是如何决定哪些数据是有用的, 哪些是无用的?到底需要多少数据才能有利于一个正确的决策或者前景分析.

④异构数据: 现代档案数据的种类繁多, 包括结构数据、非结构数据、半结构数据等等. 结构化数据具有严格的机械性和管理性. 结构数据与数据库有良好的集成特点, 而非结构化数据则是未加工的、无组织性数据. 处理非结构数据相当繁琐且成本高, 但是把所有的非结构数据转换成结构数据同样是不可实现的.

5)人才要求

大数据背景下档案管理部门不仅需要掌握传统档案管理方式的人才, 也需要掌握各种技术专门人才. 例如,现代档案管理需要能够对大数据进行深度分析的高级数据分析工程师;需要精通如何申请、使用大数据分析的高级管理人才;需要大数据获取与实现的软、硬件工程师. 此外, 由于现代档案的类型涵盖非常广泛, 我们生活、生产、学习的方方面面都可以是现代档案的信息来源, 那么现代档案管理工作所需的高端专业人才不能仅仅只包括软硬件工程师、数据库工程师和档案服务等人才, 同时数学家、物理学家、生物学家、医疗工作者、病例学家、社会学家等等几乎所有的与人们生活、工作、学习息息相关的各方面的优秀人才都应该是现代档案工作所需要的. 随着我国信息化、网络化的加速发展, 大数据背景下的档案工作具有广阔的商业前景.

4 结论

现在的世界是一个“数据”的世界, 我们处于一个由各种数据类型组成的大数据包围之中. 就信息获取而言,大数据的兴起使我们获取信息的途径变得简单, 通过网络可以轻松得到几乎任何想得到的资料与信息. 大数据是一种新的技术与新的概念, 在给我们带来方便与利益的同时也产生了一些严重的社会问题与技术难题, 比如,在大数据环境下如何保证人们的隐私安全;如何对呈指数增长的海量数据进行有效存储与分析, 加快数据的处理速度等. 大数据正在改变我们的生活方式, 改变我们的思维.

[1] L BREIMAN. Random forests[J]. Machine Learning, 2001, 45(1):5-32.

[2] A HALEVY, P NORVIG, F PEREIRA. The unreasonable effectiveness of data[J]. IEEE Intelligent Systems, 2009, 24(2):8-12.

[3] T JOACHIMS, L GRANKA, B PAN, et al. Evaluating the accuracy of implicit feedback from clicks and query reformulations in Web search[J]. ACM TOIS, 2007, 25(2):1-27.

[4] B PANG, L LEE. Opinion mining and sentiment analysis[J]. FnTIR, 2008, 2(1-2):1-135.

[5] R BEKKERMAN, M GAVISH. High-precision phrase-based document classi_cation on a modern scale[M]. KDD, 2011: 101-107.

[6] C BISHOP. Pattern Recognition and Machine Learning[M]. Springer-Verlag, 2006.

[7] L BOTTOU. Large-scale machine learning with stochastic gradient descent[M]. COMPSTAT, 2010.

[8] T BRANTS, A POPAT, P XU, et al. Dean. Large language models in machine translation[M]. EMNLP, 2007.

[9] 王珊, 王会举, 覃雄派, 等. 架构大数据: 挑战、现状与展望[J]. 计算机学报, 2011(10):1468- 1472.

[10] 马帅, 李建欣, 胡春明. 大数据科学与工程的挑战与思考[J].中国计算机通讯协会, 2012(8):22-30.

[11] CT论坛. 华为SMARTVISION大数据解决方案[EB/OL]. (2012-9-6)[2014-4-15].HTTP://EC.CTIFORUM.COM.

[12] 大数据解决之道: 华为OCEANSTOR MVX存储系统技术漫谈[EB/OL]. (2012-9-10).[2014-4-15]. HTTP: //DIGI.TECH.QQ. COM/A/20120910/001487.HTM.

[13] 夏岩, 赵慧英, 贾军帅. 数据挖掘发展综述[J]. 通信与计算技术, 2009:367-341.

[14] 郭海涛, 段礼祥, 闫春颖. 数据挖掘方法综述[J]. 计算机科学, 2009(36):323-326.

[15] 李翠平, 王敏峰. 大数据机遇与挑战[J]. 科研信息化技术与应用, 2013, 4(1): 12–18.

Challenges and prospects of the age of big data archives

SHU Tao, LUO Jun-yi, ZHAO Yong-xin
(Chengdu University, Chengdu 610106, P.R.C.)

With the rapid development of Internet technology, there are more and more simple ways to obtain information. The coming of the age of big data enables people to obtain increasingly bigger amount of information. The concept of big data challenges various aspects of archive work, such as storage, analysis and management, utilization, and will bring new opportunity and challenge to the archive work of our country.

big data; archive; utilization of archives resources

TP311.13

A

1003-4271(2014)04-0564-03

10.3969/j.issn.1003-4271.2014.04.18

2014-05-13

舒涛(1964-), 女, 汉族, 四川成都人, 中教高级, 研究方向: 档案管理工作及研究, 邮箱: 253546198@qq.com.

成都市龙泉驿区科技局软科学项目: 汽车电子技术工程创新人才培养研究.

猜你喜欢
档案资料档案管理分析
展览档案资料的收集和归档探讨
工程档案资料管理现状及信息化管理创新的思路探讨
如何规范档案管理
隐蔽失效适航要求符合性验证分析
地质档案资料的保密工作探析
电力系统不平衡分析
档案管理与企业内部控制关系的思考
电力系统及其自动化发展趋势分析
建筑工程档案资料有效管理措施的应用研究
健康档案管理的“云”前景