基于Hadoop的高校档案管理存储系统研究

2016-10-21 07:50胡锐

无线互联科技 2016年18期

关键词：存储系统数据仓库集群

胡　锐

（苏州科技大学网络与教育技术中心，江苏苏州 215009）

基于Hadoop的高校档案管理存储系统研究

胡锐

（苏州科技大学网络与教育技术中心，江苏苏州 215009）

随着高校信息化的发展，高校档案管理开始向无纸化发展，档案信息资源的数据成指数级增长，现有档案管理系统难以满足。因此，构建一个档案管理存储系统变得尤其重要。文章介绍了以Hadoop技术为基础建设的一个档案管理存储系统，用来满足日益增长的档案数据存储需求。

Hadoop；Hive；档案管理；存储系统

1　概述

近年来，档案资源作为高校重要的信息资源和知识资源，越来越受到高校管理者的重视［1］。随着档案资源的种类和数量的增加，产生了海量的档案数据。如何将海量档案数据可靠有效且廉价地进行存储，是档案管理系统建设者要思考的问题。

以云计算为基础的分布式存储系统是实现廉价存储趋势，通过云计算进行硬件资源整合提供强大的存储能力及计算能力，并实现了对数据的统一管理，提高服务质量以及数据处理的可靠性和扩展性［2］。

本文在借助于Hadoop的云架构的基础上，以Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）作为档案管理系统存储，通过HBase作为档案管理系统数据库，来实现档案去管理系统。

2　相关技术

2.1 Hadoop

Hadoop是Apache开源组织的一个分布式计算框架，可以在大量廉价的硬件设备组成的集群上运行应用程序，构建一个具有高可靠性和良好扩展性的并行分布式系统，Hadoop分布式文件系统、MapReduce编程模型和HBase分布式数据库是其三大核心技术［3］。

HDFS采用 Master/Slave 模式，一个HDFS集群系统是由一个Master和多个Slave构成。HDFS集群有两类节点，并以管理者—工作者的方式运行，即一个 NameNode（管理者）和多个 DataNode（工作者）。DataNode 是文件系统的工作节点，它根据需要存储并检索数据块，并且定期向NameNode 发送它们所存储的块的列表［4］。

2.2 Hive

Hive是一个基于Hadoop的数据仓库平台和SQL基础结构，是Facebook在2008年8月开始开源的一个数据仓库框架［5］。

Hive是基于Hadoop平台的数据仓库管理软件，使用户可以像关系型数据仓库一样在分布式环境下进行数据处理；它提供一种类似SQL的查询语言：HiveQL（Hive query Language），编译器将用户的查询语言翻译成可在MapReduce框架下执行的工作流（Workfow），从分布式存储结构HDFS上读取数据，处理后将结果写回HDFS［6］。

3　系统的设计

3.1 系统架构

以Hadoop集群为基础作为底层数据存储，通过封装实现SQL式的数据访问。档案管理存储系统，整个系统采用3层架构，从上往下分别是：应用层，数据管理层和混合存储层，如图1所示。

图1 档案管理存储系统架构

（1）应用层：通过Hbase将Hadoop转化为普通的数据库系统，通过Hive进行SQL式数据访识问。

（2）数据管理层：档案管理存储系统是在Hadoop架构基础上搭建，Hadoop的NameNode实现对HDFS进行统一的数据管理，实现对文件系统的空间命名，Hadoop集群数据存储块信息的维护等。

（3）混合存储层：部署Hadoop的机器主要包括了各种虚拟机和物理机，其中从Hadoop功能上来分，可分为DataNode和NameNode。DataNode负责存储，NameNode负责管理DataNode在NameNode管理下为提供统一存储服务。

3.2 SQL数据接口

Hadoop的HDFS实现了文件存储功能，基于HDFS之上的Hbase实现了Hadoop的数据库存储功能，Hive实现了SQL式的数据接口功能，如图2所示。HDFS实现了档案管理存储系统的底层数据存储功能，Hbase是在Hadoop的基础上实现了结构化式的数据库存储。Hive作为Hadoop的数据仓库工具，可以将Hbase式的结构化数据文件转换成一个对应的二维数库表，从而提供相关的SQL式的数据管理功能，进而将SQL语句提交给MapReduce进行分存式处理。

4　档案管理存储系统性能

为了检测本文所设计档案管理存储系统的性能，分别对该系统的SQL数据口进行测试。

由于服务器资源有限，通过VMware虚拟出6台虚机进行测试，虚拟测试环境，如表1所示。

表1 硬件环境

测试软件环境如下：操作系统：RHEL 7.1；Hadoop版本：Hadoop-2.2.0；Hive版本：Hive-0.13.1；Hbase版本：Hbase-0.96.2。

为了直观表现出基于Hadoop的高校档案管理存储系统的SQL数据接口性能，通过和Oracle进行对比实验，分别将400万条数据，总的数据量为300GB写入SQL数据接口与Oracle，每组写约为30个GB，分10个小组进行写数据操作，平均写速度为9.75Mb/s，而写Oracle的平均速度为9.82Mb/s，如图3所示。从中可以看出，SQL数据接口在性能与Oralce性能接近，若增加Hadoop的集群，SQL数据接口的性能将会随之提升。

图2 数据接口结构

图3 SQL数据接口性能测试

5　结语

本文提出一种基于Hadoop的高校档案管理存储系统，利用HDFS为作为档案管理存储系统的存储系统，通过HBase使Hadoop实现了数据库的功能，通过Hive使结构化的数据转变为一张表，进而实现了SQL式的数据访问及管理功能。

［1］黄猛，罗桦，李洪兵.基于Hadoop的高校档案馆私有云存储平台的构建［J］.办公自动化（综合版），2015（1）：54-56.

［2］胡锐，胡伏原，陈丽春.基于Hadoop的高校公共数据平台的构建［J］.苏州科技学院学报（自然科学版），2015（3）：52-53.

［3］崔杰，李陶深，兰红星.基于Hadoop的海量数据存储平台设计与开发［J］.计算机研究与发展，2012（s1）：12-18.

［4］胡锐，陈丽春.基于Hadoop的高校微课系统的研究与实现［J］.电子技术与软件工程，2015（24）：56-57.

［5］刘永增，张晓景，李先毅.基于Hadoop/Hive的web日志分析系统的设计［J］.广西大学学报（自然科学版），2011（S1）：314-317.

［6］谢恒，王梅，乐嘉锦，等.基于Hive的计算结果特征提取与重用策略［J］.计算机研究与发展，2015（9）：2014-2024.

Research on the archives management and storage system of universities and colleges based on Hadoop

Hu Rui
（Network and Educational Technology Center of Suzhou University of Science and Technology， Suzhou 215009， China）

With the development of university informationization， archives management in colleges and universities began developing towards the paperless. Archives information resource data is increasing exponentially， thus it is diffcult for existing archives management system to meet the management requirement. Therefore， constructing an archives management and storage system has become particularly important. This paper introduces an archives management and storage system taking Hadoop technique as the basic construction， to meet the growing storage demand for archives data.

Hadoop； Hive； archives management； storage system

胡锐（1986— ），男，安徽六安，硕士，CCF会员，助理工程师；研究方向：大数据与物联网。

基于Hadoop的高校档案管理存储系统研究

1 概述

2 相关技术

3 系统的设计

4 档案管理存储系统性能

5 结语

1　概述

2　相关技术

3　系统的设计

4　档案管理存储系统性能

5　结语