电子档案信息非结构化存储方法研究

2017-03-07 09:17杜军梁作宾刘涛
山西档案 2017年6期
关键词:档案学代价结构化

文 / 杜军 梁作宾 刘涛

在计算机技术不断进步和社会信息化程度快速提高的今天,档案管理部门普遍将计算机技术引入到档案的存储和管理工作中,并大力推进数字化档案信息的建设工作。在利用信息和查询操作等方面,数字化的档案信息具有十分显著的优势,而这些数字化档案信息主要包括两种不同的数据形式,也就是非结构化数据和结构化数据[1]。其中的非结构化信息中的音视频、图表、网页和文字等各种信息不仅具有较弱的关联性,而且很难通过关系型数据库等对信息进行获取和处理,必须采用专门的工具和方法对这些数据进行操作。电子档案的广泛应用,呼唤数字化的档案存储和管理系统的建立。

一、当前电子档案管理工作存在的问题

现在,越来越多的企事业单位在档案管理工作中开始广泛地应用计算机系统,然而这些系统大部分只是用于检索和管理档案目录,而并没有真正发挥应用的作用。还有一些企事业单位的计算机管理尽管涉及到了一些关于档案原文的工作,却无法提供特殊格式档案和图片档案的检索服务,从某种程度上来说,这些档案管理系统仅仅属于纸质档案的一种辅助,虽然它使得档案工管理工作得到了优化,但并未能真正使传统档案管理工作中存在的问题得到有效解决[2]。档案管理人员通过传统的计算机管理系统开展档案管理工作,首先要利用人工操作的传统方式将目录制作出来,随后采用人工的方式在电脑中输入,再打印出来。人们一旦需要利用档案文件,就需要在库房中进行调取,这未能将计算机管理的方便性体现出来,加大了档案管理工作的工作量,因此现在很多档案管理人员并不重视计算机档案管理[3]。

基于此,我们必须将可以实现档案信息共享性、减少工作量和操作方便的计算机电子档案管理系统开发出来,解决当前档案管理工作中存在的各种问题。

二、电子档案非结构化信息的特征

(一)较高的科技含量

计算机技术的进步使得当前的非结构化信息出现了爆炸式的增长。人们必须依赖智能化的IT技术才能有效地管理非结构化信息,无论是对非结构化信息进行存储和检索,还是对其进行发布和利用,都具有越来越高的科技含量,如信息的增值开发利用、内容保护、知识挖掘、智能检索和海量存储等[4]。

(二)频繁的变化和较快的增长速度

包括Web站点在内的很多系统中的数据一直在不断地变化和发展,它们除了具有越来越快的增长速度之外,在表现数据的形式、数据格式和数据类型等很多方面都具有较大的变化[5]。

(三)标准多样

电子资源在非结构化信息中具有标准多样性的特征,不同的系统在设计、实现和运行的过程中都具有自身的行业标准,各自的功能都是完整的,各个系统之间具有非常弱的联系,因此影响到了数据交换的顺利进行[6]。

(四)多样化的格式

电子档案非结构化信息包括各种各样的形式,如视频、录音、影片、照片和各种文档等,需要采用不同的数据库、数据模型和软硬件平台对这些电子资源进行存储。

三、电子档案数字信息非结构化存储方式

(一)非结构化数据管理框架

在UDMS体系结构上,研究构建了一个BUD体系参考模型。它能够通过数据库的途径构建以非结构化数据管理为目标的一种分层参考体系模型。它选择使用了自由表的数据模型。它一共由四个不同的核心组件共同组成了BUD模型,分别为获取—抽取—集成服务层、事务性存储管理器、查询处理器和数据服务层,见图1[7]。数据服务能够将一些诸存数据提供给用户,扩展了数据库系统的外模式。一旦系统中进入各种外来的非结构化数据,在一定的规则下由其中的获取—抽取—集成服务层预先处理这些数据;由事务性存储管理对这些处理后的数据实施统一管理;利用查询处理器能够查询到相关的数据[8]。研究构建一个以“自由表”模型为基础的非结构化数据管理平台,平台类型为myBUD。它可以作为一个cell关系表。“自由表”定义了非结构化数据的符号类型。在自由表中各种音频数据和视频数据等非结构化的数据类型都能够作为Cell类型进行管理[9]。

图1 BUD参考模型示意图

自由表模型需要解决好三个方面的问题:首先,能够对海量数据中的高效操作进行支持;其次,能够按照业界的标准操作,可以与相应的各种数据管理系统和应用场景相适应,实现有效集成;最后,具有充足的灵活性,在各种类型的非结构化数据中都能使用,可以使数据管理不断变化的需求获得满足。

通过Cell可以对一系列的非结构化数据进行存储和管理,对模型中已有的数据类型进行支持。非结构化数据管理系统的自由表存储了全部的非结构化数据,除了可以确保系统具有较高的效率,还可以统一地查询不同类型的非结构化数据。因为物理组织结构的规整性,自由表存储模型能够更加便捷地集成当前的机构化数据管理系统。不同格式文档的非结构化处理单元都与自由表相对应,所提取的非结构化数据又对应自由表的列。表列不仅包括字符型和整型等类型的结构化数据,而且包括Cell 类型。Cell 类型中的列能够对各种非结构化的数据进行保存,还支持不同的Cell在自由表中有各自独立的操作符。自由表除了能够对抽取的相关信息或者原始的数据进行存储,还可以对不同版本和派生的数据进行存储。

(二)以自由表为基础的统一数据门户——UDP

适应数据的增长速度非常快,呈指数级增长。对关系数据和非结构化数据进行管理,同时将有用的信息从繁多的数据中挖掘出来,这是构建非结构化数据管理平台的重要内容。BUD 的统一数据门户能够将可信的可扩展的透明的数据存储服务提供出来,从而使当前快速增长的存储和管理海量非结构化数据的需求获得满足。统一数据门户在具体的管理过程中具有较强的自适应能力,具有可以存储各种类型非结构化数据的一系列子系统,见图2。

图2 myBUD存储管理器

通常来讲,统一数据门户的特点如下:首先,可扩展,即利用Portal Driver各个存储子系统也可以变成统一数据门户;其次,自适应,即数据门户能够以存储子系统的特点和数据的特点为依据明确最好的存储子系统;再次,具备计算能力,即能够以元数据信息为依据向各个存储子门户适度地转移非结构化数据上的操作;最后,具备分布式存储能力,即能够与一系列的不同结构的存储子系统进行连接,统一数据门户可以进行分布式的存储。我们利用各种数据门户能够对数据的访问进行优化。

四、myBUD存储管理器的自适应管理

在myBUD 中设计使用了一种AS4存储子系统的算法。它能够以不同存储子系统中结构化数据存储的代价函数为依据,在代价函数中带入量化结果,随后能够按照非结构化数据为依据,自适应地通过最佳的存储子系统对相关的数据进行存储。AS4 方法能够响应相应的请求,并且以系统在请求后的整体负载为依据放置在较短响应时间的存储子系统中。若是将这种策略用于全部的存储数据块中,那么系统就具备了快速影响的能力,且可以实现总体负载均衡。最小的响应时间就是代价模型在该算法中的目标函数,代价模型中的若干记号如表1:

表1 代价估算中运用到的若干记号

通过这些记号可以在s存储子系统中存放i类型、L大小和t时刻的非结构化数据的代价模型定义如下:

{L*Computing Cost(s,i),L*TransferCost(s,t)+StartCost(s,i)+ WaitCost(s,i)} MAX=Cost(I, L, s, t).

数据的网络传输代价和存储子系统处理该任务的代价的最大值就是模型中定义的代价。存储子系统处理该任务的代价主要包括计算该任务的代价、在存储子系统中启动新任务的代价和在启动新任务之前所需的完成其它任务的代价。系统在当前的平均任务完成时间和等待任务数量能决定等待其它任务代价,而任务负载则取决于平均完成任务的时间。

以代价模型为依据,AS4算法在myBUD 存储管理器会按照代价公式最终将最短响应时间的存储子系统确定下来。针对全部可用的存储子系统,AS4能够以存储子系统的负载信息、可用存储子系统功能信息、数据大小、数据类型等为依据将相应代价计算出来,并且向最短响应代价的存储子系统返回。算法 AS4具有O(n)的时间复杂度,在某时刻可用存储子系统的数量用n来表示。将合适的存储子系统选择出来之后,该算法能够对其实际上的执行效果进行监控,尤其是针对传输与处理代价进行监控,还可以适当地调整相关参数,如TransferCost。

电子档案数字信息非结构化存储方法首先必须将海量非结构化数据“存得下”这一问题解决好,这是开展电子档案存储和管理工作的基本问题。研究以BUD参考模型为依据设计了以myBUD 系统为基础和框架的非结构化数据,实现了非结构化数据对存储子系统的自适应选择,且将其作为一项关键的技术。该技术能够实现分布式的异构存储,奠定了利用数据库方法统一存储和管理电子档案非结构化数据的研究基础。

[1]赵伟东.电子档案蓝光存储应用探究[J].档案学研究,2015(3): 88-95.

[2]刘越男,祁天娇.我国省级、副省级档案馆电子文件接收及管理情况的追踪调查[J].档案学通讯,2014(6):10-15.

[3]杨重高.数字档案资源的安全存储[J].中国档案,2014(11):54-57.

[4]王志宇,赵淑梅.非结构化电子档案数据管理探析[J].档案学通讯,2014(5):54-57.

[5]王萍,郭秋言,宋雪雁.境外近年电子档案技术与应用进展[J].档案学通讯,2014(4): 61-65.

[6]唐跃进.数字档案灾难防治研究[J].档案学通讯,2014(3):12-14.

[7]刘越男,杨程婕,熊瑶,张喜波.我国省级、副省级档案馆电子文件移交进馆及管理情况调查分析[J].档案学通讯,2011(4):7-12.

[8]韩晶,宋美娜,鄂海红,宋俊德.HotRank:热度敏感的非结构化数据检索排名算法[J].计算机应用研究,2013(5):1306-1308.

[9]刘婧,周耀林.移动数字档案馆服务体系建设研究[J].档案学通讯,2015(1):55-60.

猜你喜欢
档案学代价结构化
历史追溯与革新路径:中国档案学基础理论研究的特征阐释
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
爱的代价
幸灾乐祸的代价
代价
档案学学科入门指导课程专题设计探讨
档案学本体论研究