大数据时代的档案信息平台建设

2015-12-28 02:45安亚翔

档案与建设 2015年10期

王平安亚翔

（1.江苏省档案馆，江苏南京，210008；2.南京军区空军司令部直工处，江苏南京，210018）

1 档案信息化进入大数据时代

“大数据”已越来越成为社会各界一个时髦的词汇。2012年《纽约时报》的一篇专栏中写到，“‘大数据’时代已经降临”。在维基百科中“大数据”（Big data）指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理，并整理成为人类所能解读的信息。根据互联网数据中心的资料，2012年全球的数据总量为2.7ZB。到目前为止，人类生产的所有印刷材料的总数据量是200PB，而历史上全人类说过的所有的话的数据量大约是5EB。全球知名研究机构IDC预测，2020年，全球数据规模将达到40ZB。

毋庸置疑，这些数据中部分最终将做为档案进入各级数字档案馆中进行存储、管理和利用，并通过各种网络平台提供公共档案信息服务和共享利用。

对于档案大数据的特点，可以分别用 Volume、Variety、Value、Velocity这4个V开头的英文单词来概括。

第一，档案数据体量巨大（Volume）。随着馆藏档案数字化率不断提高和电子档案的采集归档，各个数字档案馆的数据容量将逐步从TB级别跃升到PB乃至EB级别。

第二，档案数据类型繁多（Variety）。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐，如今的数据类型早已不是单一的文本形式，网络日志、音频、视频、图片、地理位置信息等多类型的数据对数据处理能力提出了更高的要求。

第三，档案数据价值密度低（Value）。价值密度的高低与数据总量的大小成反比。以视频为例，一部一小时的视频，在连续不间断监控过程中，可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据背景下亟待解决的难题。

挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息。

第四，需对档案数据进行快速查询利用（Velocity）。根据IDC的一份名为“数字宇宙”的报告，预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前，处理数据的效率就是信息平台的生命。

对于档案大数据应用而言，要能在10秒钟内形成答案。实时处理的要求，是区别大数据引用和传统数据仓库技术、商业智能技术的关键差别之一。

档案信息化管理也正在进入大数据时代。如何满足大数据时代对数字档案的收、存、管、用的需求，特别实现是“大数据”档案的长期保存和高效利用是一个重要的课题。

2 档案大数据存储系统建设

随着信息技术发展速度越来越快，数字化档案数量不断翻番，档案数据除了包括各类结构化的档案目录外，还包括大量非结构化的档案数字化原文和电子档案数据的优化存储。利用存储基础设施提供的强大功能存放数据，实现长期保存，让数据能够被高效使用。

档案大数据存储平台建设首要工作是对现有的存储资源进行整合，建立以档案数据为中心，分布处理、集中管理的存储体系，最大限度地发挥整个存储系统的性能。档案大数据存储平台应能达到如下的功能要求：

（1）档案大数据应统一集中存储。

（2）存储系统应具有高容量和高稳定性。

（3）存储系统应具有良好的性能。

（4）存储系统应支持管理员对存储空间的灵活分配和配置。

（5）存储系统应具有高度的安全性和完善的权限控制。

（6）存储系统应具有高可靠性和安全性。

（7）存储系统应支持多种协议、操作系统、数据库系统。

（8）存储系统可进行高效的灵活管理。

（9）存储系统应具有模块化设计并支持热插拔。

（10）存储系统具有卷复制和拷贝等的高级存储功能。

传统的存储系统大致可以分成三种类型：

（1）依附存储系统（Direct Attached Storage,DAS）：又称为以服务器为中心的存储体系。其特征为存储设备是通用服务器的一部分，该服务器同时提供应用程序的运行。数据的输入/输出由服务器负责，数据访问与操作系统、文件系统和服务程序紧密相关。当用户数量增加或服务器正在提供服务时，响应会变慢。在网络带宽足够的情况下，服务器本身成为数据输入/输出的瓶颈。当前绝大多数存储系统都属于这种类型。

（2）网络依附存储系统（Network Attached Storage,NAS）：这种存储方式多采用专用数据服务器。该服务器不再承担应用服务，称之为“瘦服务器”（Thin Server）。数据服务器通过局域网的接口与应用服务器连接。NAS也是一种集中化数据存储形式，便于维护和管理。

（3）存储区域网络（Storage Area Network，SAN)：采用高速数据连接通道——光纤通道(Fiber Channel,FC）连接服务器和存储系统。从结构上看，服务器和数据存储系统相互独立。将设备连接到FC集线器或交换机上，便于扩展系统规模。在SAN中，所有的存储设备和存储数据均可采用中心化管理，使得整个存储系统具有可伸缩性。并且，可以通过存储设备的集群方式达到高可用度。

传统存储解决方案的弊病很多，这些弊病多由异构存储和SAN孤岛造成。异构存储是指不同的存储有不同的底层架构、不同的管理界面、功能、性能以及运维升级的操作。为了将档案数据从一种存储阵列移植到另一种存储阵列，可能因需要专业化服务，而花费额外的高昂费用，增加数字档案馆的IT运维成本。另一方面，多种存储系统共存使得数字档案馆需要聘用非常专业的技术人员对这些系统进行管理，人员成本又成了一个难以解决的问题。

为了实现档案大数据存储平台的功能需要采用全新的技术解决方案，确保档案大数据的长期安全保存。

2.1 虚拟化存储：软件定义的档案数据存储系统

为了解决异构存储和SAN孤岛带来的高成本、低效率问题，必须设计一个新的技术再造新的规范，很明显存储虚拟化就是这个技术。简单来说，存储虚拟化的基本思路是将底层的硬件设备池化，形成多个不同容量、不同性能的存储资源池。而上层的服务器系统管理程序所看到的也是这些存储资源池。

存储虚拟化优势包括四个方面：

第一，整合异构存储，降低运维成本。整合异构存储是存储虚拟化的首要任务，所有存储设备将不再被贴上供应商的标签，企业也不会被一家或者几家厂商绑架。因为存储虚拟化方案中，底层的硬件设备相对上层应用来说是完全透明的。

第二，消除存储孤岛，提高系统灵活性。由于所有的存储资源都被虚拟化了，所以数据的迁移和管理都变成了虚拟机之间的交流，即便是更改存储基础设施，也不影响连续存取数据。为应用程序提供的数据连续可用性可以帮助用户避免因故障时间而造成的影响和成本的增加。

第三，将合适的资源分配给合适的任务负载。在档案数据中心中，存储资源的种类可能是多样的，如果是闪存与磁盘并存的系统，存储虚拟化将需要完成分层存储的功能。即是说闪存资源将优先提供给关键业务的虚拟机，而低速磁盘则更多的用于备份或者归档。

第四，简洁的操作界面，降低系统管理成本。由于底层硬件资源被上层的虚拟化软件接管，应用存储资源与供应商不再有直接的联系，那么操作界面很容易被简化。单一的管理界面通过对整个存储库进行集中存储管理，可以帮助IT管理员提高生产力。系统管理员只需学习一个界面，就可以完成大多数存储运维和升级工作。

总的来说，存储虚拟化的优势在于上层应用不用再考虑底层硬件的细节，应用面对的只是一个个容量和性能不尽相同的存储资源池，可以说资源利用率能够提高、存储成本能够降低也都是源于存储虚拟化这个特点。无疑存储虚拟化颠覆了依赖于供应商的存储解决方案，而颠覆的结果就是给数字档案馆存储的成本和资源利用率确定了一个新的标准。

存储虚拟化也面临着各种挑战，从它能解决的问题来看，异构存储意味着有大量的数据已经存放在这些异构存储平台上，而且多年的积累意味着使用存储虚拟化虽然能够管理不同品牌的硬件，但是首先需要将原有数据进行整理和部署，改变意味着风险，如果原有系统尚能满足需求，相信存储虚拟化对其并没有多少吸引力。存储虚拟化要取代传统的存储解决方案必须保证数据能安全地完成从传统系统向新系统的迁移。

2.2 分布式并行档案文件存储

在基础存储架构实现虚拟化的基础上，为保证高可用、高可靠和经济性，档案大数据存储平台可采用分布式存储的方式来存储数据，分布式存储系统本身采用冗余存储的方式来保证存储数据的可靠性，即为同一份数据存储多个副本。

分布式存储与传统的存储设备相比不仅仅是一个硬件，而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心，通过应用软件来对外提供数据存储和业务访问服务。

分布式存储不但有效地解决了存储系统性能的问题，大大地降低了大型存储系统的成本，还将存储可靠性提升到系统设计层面；同时，还将实际的物理存储设备与存储的逻辑表示分离开来，实现了事实的存储虚拟化。

分布式存储系统具有以下特点：

（1）并行存储系统中存储虚拟化，能够支持无缝的海量扩展；

（2）并行存储系统的性能扩展能够随着容量的扩展而扩展；

（3）并行存储中数据保护技术保障用户数据的安全；

（4）非结构化并行存储的可靠性和安全性。

分布式非结构化并行存储系统是目前海量信息处理环境下理想的存储解决方案，它从架构设计上很好地解决了存储系统的容量扩展和性能扩展问题。分布式非结构化并行存储系统采用新型的副本技术替代了原有的RAID技术，不但保证了数据的安全，还提高了数据恢复的效率，将可靠性和可维护性有机地结合在一起。

非结构化并行存储系统主要由索引服务器集群和存储服务器集群组成，其软件部件对应用表现为一个文件系统，图1给出了非结构化并行存储系统的架构，它采用业界主流的控制路径和数据路径分离的设计理念。

图1非结构化并行存储系统

非结构化并行存储系统具备高可用和快速恢复能力。本着“将磁盘、服务器和网络等设备失效作为常态考虑”的理念，系统中所有部件都有冗余配置，并通过数据冗余提供高可靠性。每一份元数据都有其副本数据，主从数据之间通过分布式日志系统保证它们之间的一致性。平时只有主副本数据提供访问，当主副本数据所在节点失效后，访问自动切换到从副本数据上。索引服务器分组使用的模式可以避免扩大了的系统带来的开销增长。数据同样提供多副本，只要有一个副本可以提供服务，系统即可用。

根据部件失效造成的影响范围，图2给出了存储系统可能面临失效的示意图。网络多通道技术自动屏蔽单一网络通道的故障。当磁盘失效时，某些数据副本受损，降低了数据的可用性。系统自动侦测到故障后，自动进行数据修复，将受损数据系统中剩余空间进行重建。索引服务器能提供所有文件的分布信息，使修复并行化，大大减少了修复的时间，降低了修复期间受损数据进一步丢失副本的可能。

采用上述技术路线，可以构建可扩展、高可靠、有效处理海量元数据和数据的存储系统。

2.3 档案数据冷存储

数字档案馆现在的存储系统多以热数据为目标进行设计，一般采用高速磁盘及磁盘阵列作为存储介质。虽然磁介质能够保持数据一直在线，且提高数据响应速度，但同时也带来能耗巨大、电磁敏感、存储寿命短等诸多问题，难以适应档案大数据长期、安全稳定保存的要求。

图2存储系统故障分类

随着大数据时代的到来，冷存储成为现如今的热门课题。冷存储是指大容量、低功耗、低成本的数据存储，需要解决关键设备、工艺、数据存储中心管理和数据传输等核心技术难题。

与磁电存储介质相比，光存储介质具有低能耗、抵抗海啸飓风等自然灾害、抗电磁干扰、抗人为数据删改的优点，特别适合作为冷数据的存储介质。由于档案数据价值密度低的特点，档案部门应特别注重安全、节能和长寿命信息存储技术的研发和应用。

3 档案大数据挖掘利用支撑平台

数字档案馆除了保证档案大数据的长期保存外，实现档案大数据的快速、“智慧”利用也是一个重要的任务。所谓的“智慧”利用，就是在浩瀚的数据之海中挖掘出有用的信息，改变目前“数据十分丰富，而信息相当贫乏”的现状。要实现“智慧”的档案利用就必须建立强有力的数据分析工具，对档案大数据进行数据挖掘、分析和推荐。没有强有力的档案大数据挖掘利用平台，大数据就可能成为一堆无价值的数据“垃圾”。

对非结构化大数据进行深度数据挖掘及分析处理，涉及大量、复杂、长时间的计算过程，并且会涉及到与结构化数据的组合分析，需要建立专门的数据挖掘利用系统来实现。对于档案大数据挖掘利用系统而言，要能够像百度那样高效、快速地给出人们想要的结果。要做到这一点，除了研制高效的数据挖掘算法外，还需要建立专门的档案大数据挖掘利用支撑平台。

目前，数据挖掘的一个成熟、高性能、高可靠、高性价比的支持平台是通过对开源的Hadoop架构进行针对性的优化来实现的。Hadoop主要有以下几个优点：

高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此其处理速度非常快。

高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

通过对开源的Hadoop进行优化，使其作为海量数据存储分析平台的数据挖掘子系统，能够很好地与结构化、非结构化数据处理子系统结合，形成面对海量结构化数据、非结构化数据检索、分析处理与深度挖掘的一体化解决方案。

Hadoop系统主要部分是模拟Google的GFS和MapReduce框架完成的，图3显示了Hadoop的体系结构。

图4给出了基于Hadoop技术的非结构化数据处理子系统架构。它从逻辑上分为硬件层、存储层和计算层，对上支持各种业务模型。

存储层解决各种类型数据的存储问题。上层业务的数据可以分解为：结构化数据、文本（包括网页）、图片、影像、XML文件以及索引文件等。结构化程度高、事务性强、需要反复操作的数据仍然保存在关系数据库里，网页信息等可以保存在NoSQL存储系统中。大量小图片、XML文件等可以保存在分布式存储系统中。为了提高检索效率，各种索引以特有的格式分散保存。

计算层负责将存储层中管理的数据转化成上层应用所需要的数据集。这些转化包括基本的数据存取，如基于唯一性的关键字获取属性值或内容；通过关键字快速检索某一应用的数据，或者整合多个系统的检索结果呈现给用户；分别快速从大规模的文件数据或数据库中分析出感兴趣的信息。

基于Hadoop技术的非结构化数据处理子系统还提供通过统计分析，不断改进业务水平的能力。通过用户行为统计分析，可以得到用户的使用喜好，向某些人群推送特定内容，提高用户粘性。另外对系统负载、不同区域的特征分析，都可以改进服务质量，也可以对系统的升级、维护提出预警。

4 档案大数据信息平台的安全管理

4.1 用户安全管理

安全管理的基础是一套完善的用户管理流程，通过组织—项目—用户不同层次的管理，满足档案信息平台对用户实行有效管理的需求。对用户进行分类，并分别赋予不同的系统角色，通过用户角色与系统权限的关联，使不同的用户拥有不同的系统权限，进而保证满足各种用户的需求的同时，使用户之间不会相互干扰，也不会对系统进行越权访问，以保证系统及用户的安全。提供超级运营管理员、运营管理员、超级运维管理员、运维管理员、组织管理员、项目成员共六种不同的角色，并分别提供不同的访问Portal及权限。

实现对用户的多状态管理功能，以满足系统对大规模用户生命周期管理的需求。组织管理员生命周期如图5所示。

用户管理定义了注册、注销、退出、登录、冻结共5种状态属性，为管理员定义了注册、注销、退出、登录、冻结、激活共6种管理操作功能。其中项目成员没有冻结状态。

注册状态：新注册、未被管理员激活的系统用户处于注册状态。

退出状态：被管理员激活的系统用户默认处于退出状态；系统用户在登录状态下选择退出后处于退出状态。

登录状态：被管理员激活的系统用户选择登录后处于登录状态。

冻结状态：被管理员暂时性冻结的系统用户处于冻结状态。

注销状态：被管理员注销的系统用户处于注销状态。

运维管理员、运营管理员有权限管理属于自己的管理对象。组织管理员有权限管理属于自己的项目、项目资产、项目成员。项目成员有权限使用分配给自己的项目资产。

只有超级运维管理员有权限管理其他的运维管理员生命周期；只有超级运营管理员有权限管理其他的运营管理员生命周期；运营管理员有权限管理（由系统）分配给自己的组织管理员。

对用户身份的管理需要基于硬件设备实现，防止口令泄露、遗忘等造成的安全隐患，同时提供用户身份认证、操作系统用户身份认证、LDAP（轻量目录访问协议）用户身份认证等多种认证方式。这些方式可灵活设置，自由组合，以满足管理员对用户管理的多种需求。管理员可以对合法注册的系统用户进行多种管理设置，如用户角色修改、用户密码修改、用户认证方式修改、用户有效性设置等操作。

图3 Hadoop的体系结构

图4基于Hadoop技术的非结构化数据处理子系统架构

图5用户管理

图6 OSGi模块化规范

系统提供对所有系统用户的统计信息，包括用户数量、用户状态、用户行为等统计信息。

4.2 系统安全管理

档案信息平台管理系统基于模块化的系统架构，针对不同用户的需求，灵活组合各种功能模块以提供不同的功能。基于定制的用户入口（Portal）为不同的用户提供丰富的系统访问体验。模块化的系统架构也方便对系统进行升级。当系统添加新功能时，只需将新的功能模块添加到系统中，而无需对系统已有功能进行改动。当系统改进某项功能时，也只需将相应的功能模块进行升级即可。这些过程对用户是透明的，因此不会影响用户对系统的正常访问，或只会造成系统相关服务秒级的短暂中断。系统的模块化架构应遵循动态模型系统技术规范OSGi。如图6所示。

管理系统基于分区共享存储，可提供系统级的存储灾备方案。远程或本地灾难备份/恢复解决方案支持在档案数据中心与灾备中心之间通过IP网络对关键业务数据进行策略性增量复制，实现数据的异地备份，并在发生意外灾难时对数据进行快速恢复，确保业务持续性。结合快照和远程复制技术，实现连续的数据复制和快速的数据恢复，确保最优的复原时间目标（RTO）和复原点目标（RPO）。基于增量备份技术有效地减少对广域网带宽的占用，同时结合快照技术，实现数据的连续保护，避免各种软错误导致的系统故障。分布式数据库技术保障系统关键数据不丢失，提高系统响应用户请求的速度，支持多用户并发，并发用户数不少于10000个。

采用基于可信平台的个人密钥、加密卡、基于国产可控平台的防火墙系统等产品与技术，构成信息平台的云安全方案，可以实现从网络层到数据层的真正安全。基于个人密钥实现用户身份认证管理，使用户身份与设备关联，提供多种不同安全级别的管理，为系统提供了更高的用户身份有效性保障，同时对系统中的各种资源与用户进行加密绑定，满足用户对资源访问不同安全级别的需求。基于加密卡实现用户数据与系统数据的加密功能，设置不同级别、多种类型的安全策略，最大程度的保证数据安全性。基于过程可控平台的防火墙系统，从系统入口处抵御系统外的各种风险，为系统整体性安全保驾护航。

4.3 大数据应用的全程审计

作为大数据应用工具的Hadoop，在数据安全设计和防护功能上存在着访问控制较弱、无合规性设计、无数据加密、策略管理较弱等一系列的安全问题。

构建Hadoop的安全模型可采用分层方式进行。在最外层必须进行良好的访问控制，确保只有相关权限的人才可访问Hadoop数据；第二层是网络威胁防御，设定相关机制，防止网络受到入侵；第三层是应用层程序升级，确保没有漏洞;第四层是数据保密，防止数据被窃取；第五层是保证数据的完整性，使数据不会受到篡改。

［1］谢波，齐丽华.江苏省数字档案馆建设理论与实践［M］.河海大学出版社，2014.

［2］范承工，周宝曜，刘伟.大数据：战略·技术·实践［M］.电子工业出版社，2013.

［3］石峻峰，周俐霞，付双双.大数据时代数字档案资源管理研究现状与趋势分析［J］.信息安全与通讯保密，2014（09）.

［4］李小平.终端安全风险管理［M］.机械工业出版社，2012.