浅谈Hadoop与SSM的大数据云存储平台的研究与实现

2018-04-15 18:27广东工业大学袁斯烺
电子世界 2018年7期
关键词:服务器端集群客户端

广东工业大学 袁斯烺

1.概述

云存储的一个关键技术是分布式文件系统。在系统架构与云存储的解决文字上,Hadoop的HDFS文件系统是被当前的各行各业选用得比较多的分布式文件系统。把具有高稳定性与可扩展性等优点的分布式计算平台运行在廉价、使用广泛的硬件设备上是Hadoop的设计初衷。有根据相关调查分析,目前国内有一部分知名企业就是采用Hadoop来实现去服务架构体系的搭建。比如国内的互联网巨头华为、百度的云计算架构都是使用Hadoop技术来搭建。所以,在云存储与云计算领域,研究Hadoop生态体系相关的应用与采用HDFS搭建云存储平台具有极其重要的意义。

当前HDFS还不是很完善,在设计上它有存在一些需要改进的地方。例如在一般的HDFS分部式文件系统中,整个集群内只有一个namenode节点用于存储、管理元数据信息,若namenode出现故障则整个集群将不能正常运行,另外单个namenode的内存容量大小也约束了整个分式性集群的扩展;存储在HDFS上的文件的安全性得不到保障,一旦HDFS上的数据发生泄漏,很可以会对个人或企业造成不可挽回的损失。

综合上述的分析,本论文中基于Hadoop的大数据云存储平台的研究具有以下重要意义:第一点,当前云计算领域的一大研究热点是hadoop,所以通过对hadoop的hdfs分布式文件系统的研究可以让我们把握与云存储与云计算有关的领域的发展方向和获取最新前沿信息;第二点,对当前HDFS分布式文件系统存在的缺陷进行改进。第一,针对HDFS的单一namenode问题,增加namenode的备用节点,可提高HDFS的稳定性与可靠性。第二,针对HDFS分布式文件系统对数据的安全不加密问题,需要额外附加一层数据加密机制,把将要存储在HDFS上的数据先进行加密再存储,可提高HDFS的安全性;第三点,鉴于HDFS可以在廉价的PC上运行,对硬件要求不高,可极大地降低云存储的成本。第四点,基于hadoop的一系列优点和业界对hadoop的热衷,对HDFS的研究一旦取得一定的成果,将会推动hadoop的广泛用使用。

2.Hadoop与SSM

Hadoop是当前大数据领域的主流技术,可实现云计算与存储。而SSM后端则是对用于开发Web网站,以网站的方式提供服务。把Hadoop与SSM技术结合在一起,可以快速开发出一个可用性强的云存储平台。下面我们分别对Hadoop与SSM作简要介绍。

Hadoop实现一个分布式文件系统,具有高容错性的特点,可以实现在廉价硬件上部署分。此外Hadoop还可以高吞吐量地访问数据,特别适合有着海量数据的应用程序使用。

SSM全称是SrpingMVC+Spring+MyBatis,是一套开发Web应用的主流框架。其中SpringMVC把分派器、模型对象、控制器分离。Spring相当一个大窗口,实现IoC和AOP。MyBaits是一个支持自己编写SQL和存储过程的持久层框架,实现对关系型数据库的问题。

3.基于hadoop与ssm框架的大数据云存储平台

Hadoop在大数据领域是当前主流的技术,其有着一套完整的生态体系。但hadoop并不能直接给远程用户使用,必须要提供一个用于处理用户请求的系统,请用户的请求进行分析并转化为相应的hadoop操作。以java为例,为hadoop开发一个基于socket套接字的用户请求处理系统,其工作量和难度都是极大。所以,我们最终决定采用SSM后端框架完成的用户请求处理系统的开发。

基于Hadoop所构建的大数据云存储平台其基本功能需求有:1)普通用户与vip用户功能权限认证;2)可实现自动同步功能。在设备当前处于连网状态下,可自动同步云端数据和自动上传文件,快速方便地保持了客户端与大数据云存储集群间的数据,实现数据一致性;3)拥有高度的安全机制,保证数据在保存和传输过程的这个人信息安全性;4)能实现本地设备存储文件,用户可随时随地地翻看个人存储的文件,即使在断网或断电的情况下,客户端的数据也不会丢失。

3.1 系统功能模块总体设计

综上所述,大数据云存储平台一共可分为三大主要的功能模块,包括安全可靠的传输层模块、安全可靠的客户端模块和安全可靠的服务器端集群模块。结合大数据云存储平台功能模块划分的原则,在充分分析与考虑各个功能耦合性和二次开发的可行性的基础上,大数据云存储平台大功能上分为以几个主要部分:

3.2 客户端

安全客户端是由大数据云存储平台提供给注册用户直接使用的功能模块,从系统的实现角度出发,其又可以细分为以下必个小模块:

注册登录:每个成熟的云存储系统都必须具备的一个功能就用户注册登录。我们的用户在注册账号我们提供的信息包括注册的用户名(具有唯一性)、登录密码以及独立的文件数据加密密钥。用户在登录时需要正常填写账号名和登录密码,之后再填写正确的加密密钥才能打开虚拟硬盘使用我们的大数据云存储服务。

文件过滤驱动:文件过滤驱动是在文件系统驱动上实现的加密方式。我们可以在本地文件系统的驱动上添加一屋过滤机制来完成对用户虚拟硬盘中指定文件的透明加密。

文件实时监控:为了使服务器端与客户端的文件可以实时同步,还需要将一种实时监控机制建立在客户端中,当文件在客户端的虚拟硬盘发生增、删、改等操作后,可以及时有效地把这些文件同步到后台的云存储集群当中。这种实时监控机制是文件同步模块的极其重要的部分。

3.3 传输模块

大数据云存储平台的中间模块是安全可靠传输层。这个是中间模块的安全性与可靠性具有极其重要的意义,因为他决定的用户是否会长久地使用这个大数据云存储系统。基于实际角度分析考虑,主要可分为心下两个重要模块:

3.3.1 HTTPS安全传输

HTTPS安全传输:依照大数据云存储系统的实现原理,数据可以实现云端存取,我们必须采取稳定可靠的同步策略来进行文件的同步操作。为提升文件在传输过程中的安全性,本大数据云存储平台使用HTTPS协议以实现数据的传输。其具体的文件传输细节将在后而的章节中详细分析。

多线程传输:在提升文件同步操作过程中的可靠性,本大数据云存储平台还将使用多线程技术实现文件数据的传输,其中还会使用当下热点的断点续传技术加以支持。客户端当前的网络处于断网或系统出现故障后,其不可以实现之后的自动从文件断点处为新的起点,开始继续传输。

3.3.2 服务器端

大数据云存储平台的核心部分在于服务器端。本论文中,它包含一两部分:一是云存储集群;二是安全云存储系统的后台服务器端。云存储集群是功能是为用户提供文件的存储服务。而来自客户端的请求则是由安全云存储系统的后台服务器端来响应。我们可以分为以下两下模块:

存储集群:我们使用基于hadoop来搭建云存储集群,因为这部分我们必须重点分析研究如何搭建和配置hadoop分布式集群,合理布置整体框架,尽最大限度为发挥集群的性能。

数据处理:该模将采用SSM后台框架实现,用于监听来自客户端请求。对于客户端文件的请求操作,我们将采取不同的请求处理方式 。这些处理方式包括文件的创建、文件的更新、文件的重命名、文件的删除和文件的转移等等,一共五个主要操作。

实时监控:提升整个服务器集群的可操作性,还必须要有一个实时监控的功能,用于对服务器端集群的实时监控。实时监控需要监控下面三个主要方面的内容:1)文件同步情况:监控所有个人用户的文件的同步情况;2)云存储集群的运行情况:对云存储集群的运行发问我们必须有采取相对就的策略,实时对其进行监控,主监控的监控内容有集群的硬件利用率、存储空间的使用率和个人用户数据的存放情况;3)元服务器的运行情况:元服务器是服务器集群中的大脑,对它的监控是不可或缺的,这部分的内容包括系统的硬盘、CPU、内存以及线程并发数等等的使用情况。

4.结语

我们探讨了大数据云存储的当前现状和研究意义,Hadoop是未来存储领域的趋势。对Hadoop分布式文件系统的研究能推动Hadoop的发展与推广。然后通过对基于Hadoop与SSM框架的大数据云存储平台的初步探索,了解到采用Hadoop搭建分布式文件系统的可行性与SSM开发用户请求处理平台的关系。

[1]刘鹏.云计算-将计算变成水和电[J].中国计算机学会通讯,2009,5(10)∶49-54.

[2]张唯维.云计算用户数据传输与存储安全方案研究[D].北京∶北京邮电大学,2011.

[3]王彩亮.云存储环境下数据副本管理策略研究[D].昆明∶云南大学,2011.

[4]周可,王桦,李春花.云存储技术及其应用[J].中兴通讯技术,2010,16⑷∶24-27.

[5]陈涛.云计算理论及技术研究[J].重庆交通大学学报,2009,9(4)∶104-106.

[6]余寅辉,余镇危,杨传栋,等.SAN存储系统的性能分析模型[J].计算机工程,2007,33(10)∶271-273.

[7]刘金柱.NAS网络存储技术研究[D].武汉∶华中科技大学,2009.

[8]陈康,郑炜民.云计算∶系统实例与研究现状[J].软件学报,2009,20(5)∶1338-1339.

[9]张为民,唐剑峰.云计算∶深刻改变未来[M].北京∶科学出版社,2009,1.

猜你喜欢
服务器端集群客户端
Linux环境下基于Socket的数据传输软件设计
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
基于Vanconnect的智能家居瘦客户端的设计与实现
浅析异步通信层的架构在ASP.NET 程序中的应用
Python与Spark集群在收费数据分析中的应用
基于Qt的安全即时通讯软件服务器端设计
勤快又呆萌的集群机器人