大数据存储中分布式文件存储系统的应用研究

2021-01-11 02:54刘建斌
科学与生活 2021年27期
关键词:应用

摘要:文章主要研究了分布式存储的定义及其特性,发现布式文件存储系统拓展性强、容错性高、成本较低。并对大数据存储中分布式文件存储系统的类型及其应用范围作出了详解。其中,GemFire系统具备较高的安全性并且能促进设备的智能化,是具有代表性、值得应用的系统之一。

关键词:大数据存储;分布式文件存储系统;应用

引言

2021年1月28日,中国海量存储系统MassStor100排行榜发布,这是我国国内首个存储领域权威榜单。大数据环境下,信息收集与存储技术逐渐成为人们生活当中不可缺少的部分。并且大数据推动了传统存储技术的革新,促进了现代化基于网络技术的存储系统的生成。且大数据存储中分布式文件存储系统能够以快速、便捷的方式完成信息存储与管理,并且可以为用户提供个性化存储服务。但是不同的存储系统适用的范围与效果皆有不同,为实现用户选择合适的分布式文件存储系统,对大数据存储中分布式文件存储系统进行了深入研究。

1 分布式存储的定义

在大数据存储技术中,根据物理形态可以分成两大板块:集中式存储与分布式存储。集中式存储与分布式存储实现数据存储的形式与方法完全不一样,集中式存储利用设备的叠加来实现扩增大数据容量,分布式存储则基于软件服务来实现大数据存储。分布式存储需要服务器、服务和软件形成一个完成存储的综合体,并且这个综合体是采用非标准程序协议的方式对其他服务器已有的存储资源进行整合利用。再通过由主体设备的固有存储资源与其他软件的增容资源进行联合处理,实现存资源池化,同时进行虚拟化处理,最终呈现给用户“块存储”或“文件存儲”形式的大容量存储空间。总的来说,就是将一些分散在不同机器设备中的磁盘空间数据,利用网络技术和支持运行存储的软件对其进行有效整合,以此搭建一个可以延伸扩展、完整的结构系统,实现对海量数据的存储服务。

2 分布式文件存储系统的特性

2.1可拓展性

大数据存储中分布式文件存储系统一个较显著的特点就是其具备可拓展性能。传统集中式的存储系统无法实现对其他机器设备的有效连接与延伸,而分布式存储系统不但可以对不同的及其设备与软件的进行有效连接,进行存储资源整合,还能通过其扩展性优势实现对数百上千台机器设备的存储利用,并形成一个覆盖范围较大的存储集群[1]。

2.2容错性

分布式文件存储系统强大的容错性效能,可以快速完成对服务器的故障检测,并且可以对发生故障的服务器及时进行内部数据的高效自动化迁移。但是分布式文件存储系统在内部数据的存储与管理过程中,需要对其进行适当调整以实现存储数的持久化,保障数据信息资源的稳定状态。究其原因,是因为分布式文件存储系统中的存储拓扑结构较为复杂,而运行繁琐则会对分布式文件存储系统造成一定影响,会增加系统发生故障的概率。为了预防系统故障的可能,则需要分布式文件存储系统切实保障存储数据的一致性,这就需要分布式文件存储系统通过自动容错、自动迁移和并发读写等过程中完成数据一致性。

2.3成本低

分布式文件存储系统对存储设备的要求较低,常规服务器就能满足分布式文件存储系统的基本需求,支撑分布式文件存储系统运行。因此分布式文件存储系统所消耗的成本较低,这也是分布式文件存储系统比较明显的优势与特点。同时,分布式存储系统得到拓展性也大幅度降低了其对服务器的要求,进一步减少了分布式文件存储系统运行所需的设备服务器成本。

3 大数据存储中分布式文件存储系统的应用

3.1 GemFire系统

当前被广泛运用的分布式文件存储系统主要包含两个部分:Hadoop与NoSQL。Hadoop是分布式系统基础架构,而NoSQL是非关系型的数据库,两者涉及和被应用的领域都较广泛。除此之外,还有较前沿的NewSQL技术,三者之间的存储原理存在一致性,都是基于对存储空间进行合理利用与升级优化,从而保障数据存储的有效性并促进资源优化分配。而分布式文件存储技术已然成为大数据存储中的核心技术,并且GemFire系统是比较具有代表性的分布式文件存储系统。在实际运用过程中,GemFire系统主要设计成横向扩展模式与其他机器设备的数据库完成对接[2]。同时,GemFire系统还可以对数据存储空间进行虚拟化处理,方便用户对存储空间进行集中化管理。并且GemFire系统不需要依靠特定的读写磁盘就能实现对数据的有效存储,具有较高的稳定性,有利于提高存储数据空间的可靠性和保障数据的安全性。目前GemFire系统就被应用到我国铁道部的乘客信息安全与管理过程当中,所以在优先保障数据存储安全与无读写磁盘限制时,可以选择GemFire系统这类极限数据分布式存储技术进行数据存储。

3.2 Swift 系统

分布式文件存储技术的成本要求具有多元化的特点,并且有一些分布式文件存储技术只需较低的运行成本就能达到满足用户需要的存储效果。这类低成本、低消耗分布式存储系统与作用对象存在较大关联,并且在实际过程中,这类分布式文件存储技术会利用相关的网页服务协议分离数据通道及其对应的控制通道,进一步完成分布式文件存储系统对不同数据库的管控与利用。另外,这种存储技术能够有效促进存储对象提高自身智能属性。比较有代表性的就是Swift 系统,主要由数据访问系统和数据自检系统组成其中,Swift系统所含的数据访问系统需要专门的服务器才能实现,并且需要其他模块设置成相对应的运行系统才能顺利进行,尤其是要保障数据检索功能的对应。Swift系统创建的各个数据存储空间处于平等地位,并且内部的系统框架能够形成对称效果,进一步增强了Swift系统的扩展性,除此之外,当系统内某个存储空间出现故障时也不会造成数据的丢失,具备较高的安全保护性能。

3.3自定义分布式存储技术

自定义分布式存储技术有利于用户结合自身需求选择适用的分布式文件存储系统。自定义分布式存储技术能够结合机器设备、存储软件的需要,对内部系统进行调整与改进。当前市面上较为常见、应用较多的主要是Ceph系统,Ceph系统因其具备多个对外接口可以实现存储软件拓宽访问渠道,并且可以结合用户需求和软件要求提供个性化的存储模式,基于不同需求设置块存储、文件存储、对象存储等模式。此外,Ceph系统还可以对Librbd 存储系统、Rados-GW 系统提供有效支撑。虽然Ceph系统通过将多种存储模式融入存储系统的整体框架当中,实现与不同存储模式的系统进行有机结合,但是Ceph系统的存储模式及其覆盖范围难以支持系统跨度较大的规模布置。

结语

大数据存储中分布式文件存储系统,由于其容错性高、可拓展性强好消耗成本较低的优势,在众多领域中得到广泛应用。并且根据其不同特性,用户可结合自身需要进行选择。分布式文件存储系统的不同存储模式对应的及其设备与存储软件也不尽相同,但是目前已有的GemFire系统、Swift 系统等,对数据存储的保护作用较强,还能实现对资源的优化分配,对用户来说都是不错的选择。

参考文献

[1]刘苏英. 分布式文件存储系统在电子通信大数据存储中的应用[J]. 九江学院学报(自然科学版),2021,36(02):78-80.

[2]高尚建,魏国,杨功. 基于海量数据优化管理的分布式文件存储系统应用研究[J]. 科技创新与应用,2020,(18):181-182.

作者简介:刘建斌(1990年5月),男,汉族,籍贯:山西省忻州市人,学历:硕士,职称:助教,研究方向:数据存储技术。

猜你喜欢
应用
配网自动化技术的应用探讨
带压堵漏技术在检修中的应用
行列式的性质及若干应用
癌症扩散和治疗研究中的微分方程模型
红外线测温仪在汽车诊断中的应用
多媒体技术在小学语文教学中的应用研究
微课的翻转课堂在英语教学中的应用研究
分析膜技术及其在电厂水处理中的应用
GM(1,1)白化微分优化方程预测模型建模过程应用分析
煤矿井下坑道钻机人机工程学应用分析