Hadoop技术下的科研大数据存储系统研究

2021-11-07 10:32刘建斌王明乾
科技信息·学术版 2021年22期
关键词:存储系统

刘建斌 王明乾

摘要:随着移动信息技术不断得到发展,传统的数据存储系统已经无法应对海量数据信息的冲击。在此背景下,Hadoop技术因为其开源免费的特点,能够在构建科研大数据存储系统节省不少经费开支同时,还能为科研大数据存储系统提供较强的存储可靠性。基于此,本文通過分析Hadoop技术下科研大数据存储系统的需求,为Hadoop技术下的科研大数据存储系统提供设计理念和思路。

关键词:Hadoop技术;科研大数据;存储系统

Hadoop最早是由Apache基金会所发布的一款分布式系统基础架构。借助Hadoop技术,可以使用户在完全不了解分布式底层细节的情况下,开发分布式程序,并利用其中的集群功能进行高速运算和存储。此外,Hadoop还具有可靠性高、扩展性强、容错率大等显著特点,将其应用于科研大数据存储系统的设计构造中,能够满足现代社会日益扩大的海量存储需求[1]。因此,在Hadoop技术下对科研大数据存储系统展开研究,具有与时俱进的现实意义。

1Hadoop技术下科研大数据存储系统的需求

1.1海量存储需求

当前阶段,随着数据量逐渐由TB、PB朝着EB的量级方向发展,传统的存储系统已经无法快速处理海量的存储需求。因此,在Hadoop技术下的科研大数据存储系统,首先要具备处理海量数据信息,并根据大数据采集信息,对信息做出分析、决策的能力[2]。其次,面对用户的数据存储需求,科研大数据存储系统需要具备数据的快速存储、查询、读取、传输的能力。最后,科研大数据存储系统通常具有多种结构类型或数据源,导致其存储方式主要以半结构化存储为主。因此,为了满足这一需求,基于Hadoop技术的科研大数据存储系统还要具备存储格式、存储介质并存的能力。

1.2安全性需求

随着互联网的发展,数据的安全性问题被不断提及。因此,确保系统拥有足够的安全性,将成为Hadoop技术下科研大数据存储系统研究的重点。首先,科研大数据存储系统应该确保数据时刻处于完整状态,并确保数据不会被截获、接听、丢失或破坏。同时,还应借助监控功能为系统中的大数据传输提供安全保障。其次,对科研大数据存储系统的用户权限加以限制,以防止用户通过获取超级权限侵犯数据库安全。再次,科研大数据存储系统要想顺利运行,需要依托互联网。因此,需要确保科研大数据存储系统运行的互联网络,并通过检查运行日志的方式,确保其安全性。最后,为了确保大数据存储的安全性和准确性,快速备份功能十分重要。另外,为了不让数据过于冗余,还需要对数据库中的过期信息进行及时清理,从而为新数据腾出空间。

1.3可靠性需求

对于Hadoop技术下的科研大数据存储系统,除了安全性外,最重要的就是系统的可靠性。首先,传统的存储系统在数据备份时,通常使用将数据强行写入磁盘的方式进行。这种方式虽然能够提升系统的准确性,但是在使用成本以及效率方面,和Hadoop技术相比均处于劣势。其次,传统的存储系统主要基于SAN和NAS网络运行。身处这两种网络中,其网络带宽将明显小于大数据传输的速率,从而延缓大数据传输的效能。而在Hadoop技术下的科研大数据存储系统,则能够借助直连式存储(DAS)大幅度降低网络带宽延迟,从而提升系统的可靠性。再次,为了在确保大数据运行效率的同时,降低系统运行成本,Hadoop技术是当前阶段的最好选择。最后,科研大数据存储系统通常要面对多用户登陆使用的情况,因此科研大数据存储系统还应该具备在多用户访问情况,大数据传输稳定、可靠的能力。

2Hadoop技术下科研大数据存储系统设计

2.1文件系统设计

在文件系统设计中,通常以节点作为数据的划分点,并分为数据节点和非数据节点两种。其中,数据节点包括DateNode节点,非数据节点包括Master节点。在Hadoop技术下的科研大数据存储系统中,DateNode节点的作用在于让系统保持正常运行。而Master节点的作用在于能够为整个系统状态提供监控。

2.2文件块存储策略

在文件块存储过程中,文件块的主副本有且只有一个。简单而言,在科研大数据存储过程中,文件块的更新完全由主副本进行控制。因此,可以基于Hadoop技术设计控制信息快。首先,主副本节点编号。在节点添加过程中,可以借助Hadoop技术中的Master节点得出节点编号。其次,副本数量。副本数量包含主副本和其他副本。通过查询,如果结果显示为1,则没有其他副本。如果结果显示为0,则没有此文件块。最后,副本节点编号列表。通过保存节点编号的方式,对编号地址进行访问。基于此,科研大数据存储系统先通过Master节点为用户生成快照,然后借助快照创建文件块。

2.3科研资源网架构

为了方便用户随时查询、检索、使用科研资源网,需要通过Hadoop技术重新设计科研资源网架构。一方面,通过向云计算服务商发送申请,然后借由云存储中的NameNode找寻Block中的ID,然后凭借该ID获取所需的数据信息。在此过程中,为了有效节约服务器的存储空间,将由系统管理员决定是否对发送过的数据进行删除。另一方面,当NameNode将数据发送至云计算服务商DataNoe时,数据将在映像文件中保存,并通过Sceondary、NameNode等对数据进行备份。

结语

Hadoop技术作为一种面向海量数据信息的分布式系统,能够有效应对TB量级以上的数据量。因此,将Hadoop技术应用于科研大数据存储系统中,并通过文件系统设计、文件块存储策略、科研资源网架构、数据库访问层构建四个方面的设计,充分发挥Hadoop技术的效能,从而为科研大数据存储系统的建立奠定技术基础。

参考文献

[1]李特,杨萌.基于Hadoop技术的科研大数据存储系统设计[J].信息与电脑(理论版),2021,33(16):114-116.

[2]谢翌.基于Hadoop架构的高校科研数据存储系统设计[J].现代电子技术,2021,44(11):182-186.

第一作者简介:刘建斌(1990年5月),男,汉族,籍贯:山西省忻州市人,学历:硕士,职称:助教,研究方向:数据存储技术。

第二作者简介:王明乾(1989年12月),男,汉族,籍贯:河北清河,学历:硕士,职称:助教,研究方向:云计算。

猜你喜欢
存储系统
天河超算存储系统在美创佳绩
面向4K/8K的到来 存储该怎么办?
物联网环境下金融大数据动态安全存储系统设计
基于Hadoop的图书馆复合大数据存储系统研究
利用存储系统恢复服务器系统