基于Hadoop技术的云存储平台的构建

2016-08-13 09:44陈克明
无线互联科技 2016年12期
关键词:使用者容器对象

陈克明

(1.东华大学 研究生院,上海 200051;2.新余学院 数学与计算机学院,江西 新余 338000)

基于Hadoop技术的云存储平台的构建

陈克明1,2

(1.东华大学 研究生院,上海 200051;2.新余学院 数学与计算机学院,江西 新余 338000)

随着企业用户所需存储的临时文件数量不断增加,目前所有的文件存储设备已经没有办法满足企业业务的需求。针对这个问题,笔者提出了以Hadoop技术为基础,构建企业云存储平台的概念,并通过Linex集群技术与云计算框架等技术来最终完成大量数据的存储。云存储平台主要适合应用在关键业务中以及企业事务的在案处理。云存储平台能够满足企业随着业务增长而不断变化的需求,数据规模更加容易扩展。

Hadoop技术;云存储平台;云计算

随着社会需求的不断变动,云计算受到了越来越多的关注,广大学者及专业人士对其的研究也日渐增多。云计算可以看作是计算机科学概念应用于商业的一大成果。其之所以受到了大多数人的重视是因为它具备为使用者提供低价且无限制的存储功能。在未来,存储模式会面临极大改变,不需要将数据存放在硬盘里,而是将其放置于云存储器中,并且所包含的计算与处理全部可在云服务器中完成。这样既可以减少企业所需投入的资金,又能够帮助企业处理大访问量,推动存储服务升级,让数据信息得到更加安全且高效率的管理。因此,云计算越来越受到企业的重视,并且未来还将继续发展。本文分析了云计算的架构以及Hadoop的主要工作原理,并进一步分析和阐述了以Hadoop技术为基础来构建云存储平台的方法。

1 云计算

云计算所指的是网格计算、分布式计算、并行计算等多项传统的计算机技术与网络技术相互融合之后所出现的新事物。云计算能够利用网络,将几个成本较低的计算实体整合,使其拥有更加强大的计算能力,再利用SaaS,PaaS,IaaS这些比较科学的商业模式让计算能力分布到每一个终端中。云计算的主要目标就是不断地提升云计算能力,以这种方式来降低终端处理数据时的压力,使用户终端变成一个简单的负责输入与输出的设施,并能够使用云计算的能力。也就是说,使用者仅要做的就是输入与输出,复杂的计算工作全部都由云存储平台去完成,并且使用者能够按需来设定“云”所包含的内容。

2 云计算的体系结构

在云计算体系结构中,使用者的所有操作都是通过云来实现的,根据不同的需求来访问不同的系统。在这个过程中,使用者不需要在计算机中安装其他软件,数据一样能够存储到云服务器之中。图1是云计算体系的结构,每一个部分在体系中所负责的模块与其所展现的能力也是不相同的。

图1 云计算体系结构

用户端:使用者与云交接的界面,使用者通过用户端来连接云端,并发出需求指令。

服务目录:展现使用者所能够操作的所有项目,使用者能够通过项目目录来操作。

系统管理:管理让计算机能够获得不一样的资源,保证计算机互相之间的合理运行。

配置工具:使用者可以通过这个模块来挑选目前的节点,并且根据自身需求的不同,配置不一样的运行环境。

监控:主要职责是对云系统中所有资源的实际情况进行监控,保证云系统之中的所有信息资源都能获得最为科学合理的配置。

服务器集合:云系统中所有服务器集合。

在这个体系中,使用者能够在用户端直接浏览服务目录并挑选适合自己需求的项目,在服务请求验证完成之后,系统管理会迅速找到使用者所要的资源;使用者在服务目录中选择了某项服务之后,这一请求会反馈给系统管理,随后就由系统管理来选择最佳的服务器节点,并利用配置工具来给使用者创造运行环境。

3 Hadoop分布式计算开源框架

Hadoop是属于Apache之下的,主要是由HDFS,MapReduce,HBase等多个项目组成。Hadoop能够分为两个部分,分别是HDFS与MapReuce变成模式。HDFS是Google GFS的开源版本的实现,HDFS拥有较高的容错度,并且可以提供较高吞吐量的访问量,适用于存储数据量庞大的文件。

NameNode主要需要做的是保证集群内元数据的完整,将集群内全部元数据都保存至NameNode之中,还可以负责创建与删除等其他工作。DataNode所需要做的主要是保存具体数据,当有新的读写请求时,DataNode要及时给予反应。NataNode会定期朝NameNode传输心跳信息,而NameNode通过对心跳作出反应,凭借这个来实现对DataNode的控制。

4 基于Hadoop技术的云存储平台的构建

HDFS拥有较高的容错率与吞吐量,这样的特点让HDFS能够以比较低廉的价格让体积比较大的文件存储在普通的集群中。HDFS在企业的私有云存储平台之中所处的层次为底层,属于分布式文件系统,其主要作用是处理一些体积较大的文件存储。虽说如此,HDFS系统结构并不适用于小型文件的处理与存储,一般是把HDFS当作对象输出存储的容器,并在HDFS的上层来建设抽象层,以这样的方式来为使用者提供存储功能。基于Hadoop的企业私有云存储架构的基本模型如图2所示。

图2 基于Hadoop的云存储架构模型

模型是由图2中多个模块所共同构建而成的。在这个模型之中,对象访问接口层需要做的主要是给外面供应API接口,以此来保证上层的云应用可以正常运作,不仅如此,还同时供应了REST,SOAP与HTTPS这几项,让网络文件能够做到共享。对象元数据存储层是在HBase上完成的,主要的职责是对象数据创建、查询等不同业务,通过HBase能够让系统的扩展性与可靠性得到一定程度的提高。对象实体数据存储是以HDFS为基础的,让对象数据与归档文件可以得到科学合理的储存。数据归档管理层的主要功能是可以将零散且较小的文件归档成功,不仅如此,还能够科学合理地处理一些已经失效的磁盘,清空出容积,保证回收的正常进行。

对象访问接口层有较为重要的Web接口,它所需要负责的主要模块就是要为云端的应用提供最为关键且重要的访问接口。基于Hadoop的云存储架构,可以保证外部不同的应用利用接口成功地的与对象元素进行创建与查询等多项能力。

对象元素存储层所依靠的是HBase开源架构,以此来实现具体的管理操作与其它功能。HBase只能利用主键与range来完成对数据的检索,只能进行单行事务。这个模型的对象元数据存储层总共有3张表,表1是用来存储对象元数据索引信息的索引容器表,表2主要是表达对象元数据信息表及对象元数据的索引表,表3是表达用户删除失效的数据的表。对象元素存储层通过控制保护这3张表格来实现不同的具体功能。当访问层获取到创建数据这一新的请求时,系统就会自动访问索引容器表,获取实际的容量,如果容量不够,那么将会创建出一条全新的索引容器记录。在完成查询之后,就会将对象元数据信息转移到对象元数据的索引表之中,并且对索引容器表的实际容量进行更新,然后将对象元数据存储至HDFS的文件系统之中。当删除数据这一请求发出去后,系统将进行查询,检测这一访问是否合法,并且在查询后删除对象元数据的索引信息,并且这时还会增加一条删除的历史记录,在这之后会立即更新索引容器的具体容量。而当进入归档周期中时,系统则自动删除存在于HDFS文件系统中的对象元数据。

数据归档管理层主要负责的工作是定期完成MapReduce任务,保证对象实体数据的归档等操作可以顺利完成。系统会按时向对象元数据信息表来进行扫描与检索,对没有归档的数据信息进行记录与统计,依照归档文件的大小对数据信息编排分组。分组工作完成之后,就需要将全部这些分组内的对象文件集合进同一个文件中,并且会立即刷新相关对象元数据信息表之中的各项信息。

表1 索引容器表

表2 对象元素数据索引

表3 已删除对象元数据

5 结语

云计算的出现让互联网拥有了更加多样且实用的应用,云数据存储技术的出现和数据管理技术让人们的日常生活与业务办公变得更加便利。本文基于Hadoop技术,构建了一个比较简单的云存储系统,让云系统中的数据存储变得更加快捷简单。本文所构建的系统仍存在一些不足之处,在日后会作出相应的改进,让云存储平台能够更好地为人类的生活与工作服务。

[1]曹英忠,谢晓兰,赵鹏.基于Hadoop的云存储实践[J].现代计算机,2011(24):25-27.

[2]张建,耿焕同,路有兵.一种基于Hadoop的云运维监控模型设计与实现[J].计算机与现代化,2012(6):191-194,199.

[3]SHADI I,TIEN D P,ALEXANDRA C A,et al.Governing energy consumption in Hadoop through CPU frequency scaling:An analysis[J].Future Generation Computer Systems,2016(103):1332-1336.

Construction of Cloud Storage Platform Based on Hadoop Technology

Chen Keming1,2
(1.Graduate School of Donghua University, Shanghai 200051, China; 2.School of Mathematics and Computer Science,Xinyu University, Xinyu 338000, China)

With the number of temporary files the business users need stored is constantly increasing, now all of the files storage device has no way to meet the needs of the enterprise business. Aiming at this problem, the author puts forward the concept of constructing enterprise cloud storage platform based on Hadoop technology.And making use of the Linex cluster technology and cloud computing framework and other technologies to finally complete the large number of data storage. Cloud storage platform is mainly suitable for application in key business, as well as business affairs in the case of processing. Cloud storage platform can meet the needs of enterprises with business growth and changing, data size is more easy to extend.

Hadoop technology; cloud storage platform; cloud computing

陈克明(1979— ),男,江西上饶,博士研究生,副教授;研究方向:云计算与大数据。

猜你喜欢
使用者容器对象
神秘来电
Different Containers不同的容器
难以置信的事情
新型拼插休闲椅,让人与人的距离更近
基于熵的快速扫描法的FNEA初始对象的生成方法
抓拍神器
区间对象族的可镇定性分析
他汀或增肌肉骨骼不良反应
梦乡床