基于内容分块优化算法的云存储去冗技术测试

2020-10-13 09:37付鋆汪浩陈运晶
微型电脑应用 2020年9期
关键词:层次化云存储

付鋆 汪浩 陈运晶

摘 要: 为了提高大量信息数据快速分析的能力,设计了一种通过内容分块技术来优化层次化冗余去重过程的方法。先分层处理元数据索引表,再以分层方式完成文件级与数据块级冗余去重的过程,之后为数据块级设置了智能化程度更高以及具备更优性能的内容分块优化算法。重点分析了通过内容分块方式实现的层次化去冗优化方案,同时对其开展了系统性测试。根据测试结果评价了各算法处理性能。结果表明,该设计的优化方案可以达到更智能的程度并获得更优的处理效果。

关键词: 云存储; 冗余去重技术; 数据分块; 层次化

中图分类号: TP 312      文献标志码: A

Abstract: In order to improve the ability of rapid analysis of a large amount of information and data, this paper designs a method to optimize the hierarchical redundant de-duplication process through content partitioning technology. Firstly, the metadata index table is processed hierarchically, and then the process of redundancy and de-duplication at the file level and the data block level is completed in a hierarchical way. After that, the content partition optimization algorithm with higher intelligence degree and better performance is set for the data block level. This paper focuses on analyzing the hierarchical de-redundant optimization scheme by means of content partitioning and carries out systematic testing on it. The performance of each algorithm is evaluated according to the test results. The results show that the optimized scheme designed in this paper can reach a more intelligent level and obtain better processing effect.

Key words: cloud storage; redundancy deduplication technology; data partitioning; hierarchical tructure

0 引言

当前,在信息化发展过程中大量信息数据快速产生,可以根据这些数据分析各个企业的实际运营状况并挖掘其中的高价值信息。如何实现对上述各类数据进行高效管理也因此成为了现阶段的一个重点研究内容[1-5]。即使构建了足够数量的存储设备来完成数据的存储过程,当数据进行传输时也需要占据大量网络带宽,造成网络堵塞的问题[6-9]。

由于存储数据时会产生许多相互重復的类似数据,这类重复数据通常是为了保证数据稳定性及避免丢失而产生的备份部分,还有部分数据是因为发生了错误操作或某些以外因素,导致同一数据发生了被重复存储的情况[10-12]。受数据量迅速增加的影响,当前存储系统开始受到多方面的挑战,为了进一步提高存储速度,需要采取有效措施来消除各类冗余信息,这也是克服存储容量制约的关键方法。可以引入冗余去重方法使各文件存在的重复数据经分析处理后被消除,由此达到缩减数据的效果,有效降低数据的存储空间[13]。

1 基于内容分块的层次化冗余去重优化策略1.1 层次化冗余去重

通过内容分块技术实现的层次化冗余去重优化方法包含了层次去冗以及内容分块优化二个过程,结果如图1所示。

其中,索引信息的层次化去冗优化需要实施分层处理,同时在硬盘上建立第2级索引信息;利用分块优化算法改进传统形式的基于内容分块算法,避免形成过大或过小的数据块。

使用层次化冗余去重方案时,需从以下二个方面进行分层处理。

先构建由元数据组成的索引表作为首个分层结构。对大量数据进行处理时,该索引表会产生很高的内存占有率,导致系统发生运行性能下降的情况。本文构建了一种分层模式的索引结构,只在内存中加载文件级的索引表,之后采用快速访问设备存储数据块索引表,同时文件级索引表只保存指针部分,使内存压力获得释放,有效改善系统整体性能。

看到建立在内容基础上的层次化冗余去重策略对应的索引结构,如图2所示。

对图2进行分析可以发现,在文件索引表中各记录的主键都是由文件ID构成,并且还可以从该表中看到文件的Hash参数、数据块指针以及总的出现次数。按照各文件的ID编号顺序存储于文件索引表内,确保可以完成快速查询的过程。在数据块索引表内包含了各文件非冗余数据块参数,各项记录中含有数据块Hash、文件块ID、偏移量、引用次数以及一个指针,可以根据指针获得数据实际存储地址。在数据块索引表内存在各项非冗余数据块的参数,因此占据了很大的存储空间,这就要求。为了尽量降低内存占用率,需避免将上述数据长期存储于内存中,此时可以选择快速访问设备来处理数据存储的问题。由此实现在获得较高访问效率的前提下有效降低内存占用比例,最大程度发挥内存的作用。

猜你喜欢
层次化云存储
差异化教学在幼儿健康教育中的应用
空间关系理论与大学生社会主义核心价值观的层次化培育体系
分层分类大学生社会主义核心价值观培育途径
基础层建设对建立大学生社会主义核心价值观的影响
基于云存储的气象数字化图像档案存储研究
试论云存储与数字版权的冲突、法制与协同
云存储出版服务的版权侵权责任风险分析
云存储技术的起源与发展
物理复习课堂中复习内容的设计*
基于云存储的数据库密文检索研究