探讨网络备份中重复数据删除技术研究

2016-10-21 16:57戚永丰
电子技术与软件工程 2016年9期
关键词:信息技术

戚永丰

【关键词】信息技术 网络备份 重复数据删除技术

生活在信息网络社会,我们对数据的需求越来越高,我们使用计算机、硬盘等工具储存了大量的宝贵信息和数据,一旦数据被破坏或者丢失,都将给企业、单位造成巨大的损失,在一些高可用性环境和高连续性环境中,中断业务、丢失数据都将带来难以估量的经济损失,社会对数据保护也越来越重视,网络备份作为一种应用较为普遍的数据备份形式,被企业、公司广泛应用,但是随着信息爆炸增长和对数据存储的大量需求,网络备份面临着新的挑战。

1 网络备份现状分析

我们在生产生活中产生的信息数据,一方面是使用互联网产生的信息,另一方面是生产生活和科学实验产生的数据等,例如飞行动力学、仿真技术、科学计算和虚拟现实等,科学技术水平较高的行业产生的数据量更是无法估量,数据显示,全世界在2007年一年产生的信息数据多达2810亿GB,全世界人均产生的数据量达到了45GB,并且随着信息技术的发展,每天产生的数据量仍然在高速增长。虽然储存技术也在随着信息技术的发展不断发展,但是仍然很难赶上数据信息的产生速度。2007年世界生产的各种储存工具总共的储存量为264EB,与数据信息产生量相差不大,但是近年来两者的增长曲线快速分离,储存量远远跟不上信息数据的增长速度。

对于数据存储来说,要满足高速增长数据存储需求,一方面要求存储系统有较好的扩展性,另一方面要求存储系统由鲁棒性以确保数据信息的安全性,网络备份是海量存储系统的关键的组成部分,可以看到诸如Google等大型网络公司都在世界各地建立了多个数据中心,将重要数据通过网络备份存储在分散的数据中心中,一旦发生灾难就能使用网络备份技术快速恢复,确保连续型应用系统能够正常运行。网络备份对存储空间的需求已经由几PB上升到了几百PB,并且在以非常快的速度增长,现有的网络带宽已经很难满足数据信息存储需求。

2 开发重复数据删除技术的必要性

数据信息爆炸性增长,其中关键的影响因素是大量的重复数据,例如计算机文件系统、web对象、邮件附件和数据定时备份等,都会产生大量的重复数据。数据显示,将近23%的Html文件都是相同的,48%左右的Html文件内容基本相同。传统数据备份方式主要是文件快照、文件定期备份、周期备份和连续数据保护等,这些技术也会产生难以估量的重复数据。大量的重复数据造成存储空间和网络带宽资源紧缺,并且给数据管理工作带来了很大的难度,为了实现资源的优化配置,降低数据管理的成本和难度,必须着力研究和开发重复数据删除技术。

传统数据保护技术存在较大的局限性,已经无法满足现今数据信息对存储稳定性和容错率的要求,企业、公司存储数据要求能够随取随用,但是传统数据保护技术很难满足这种需求。对于现有的传统数据保护技术,其局限性可以从以下几个方面得以体现。

2.1 全量备份

就是将指定的数据全部备份,如果数据遭到破坏或者丢失,用全量备份能够方面的恢复全部数据,但是全量备份会占用大量的存储空间。

2.2 增量备份

一般数据备份需要进行多次,增量备份就是只备份上一次与这一次备份之间发生改变数据,虽然能够在一定程度上减少存储空间,但是这种节省非常有限,并且增量备份的数据恢复时间较长,因为要恢复数据就要恢复若干个增量备份和一个全量备份,需要耗费大量时间。

2.3 快照技术

这是在很多恢复系统和现代备份系统中都广泛使用的备份技术,这种技术的优点是在备份和恢复数据时,不会对数据的完整性产生影响,也能充分保证系统的在线性能。快照,顾名思义,就是某个时间点的数据的镜像,对于连续型服务来讲,采用快照的方式备份数据将会占用大量的存储空间,因此很多快照备份系统都会定期删除过期快照以节省存储空间。

3 网络备份中的重复数据删除技术

网络备份中的重复数据删除技术,主要是将文件分割为小块,采用特定的算法计算文件小块的信息指纹,根据信息指纹的相似度判断文件内容是否相同,如果文件内容相同,那么在备份时只需要存储一部分数据。

3.1 划分重复数据

运用重复数据删除技术确定重复的数据块和文件,一般运用的重复数据删除技术主要有两种,即数据块重复数据删除和文件重复数据删除。先将文件划分成若干数据块,用哈希算法计算每个数据块的数据指纹,如果这个指纹与指纹索引中的某个指纹不相符,就将这个指纹对应的数据块写入到存储设备中,否则就将这个数据块删除。

3.2 数据指纹算法

目前普遍采用哈希算法来计算数据指纹,分析文件内部是否存在重复数据,先对数据进行哈希得到哈希值,较为流行的哈希函数算法为SHA1算法和MD5算法,两种算法生成的哈希值不同,而计算哈希值的速度也不同,应该根据实际情况选择合适的哈希函数。

3.3 数据块划分

一般文件数据块的划分长度为4K到24K,数据分块主要有CDC分块和定长切分算法,CDC算法能够实现将文件划分为不同长度的数据块,而定长切分算法使用简单方便,但是对于数据删除和数据插入等操作敏感性很高,处理数据存在效率较低的缺点。

3.4 异地容灾

网络备份一般要建立若干个数据中心,建立远程灾备系统需要把数据迁移到异地系统中,采用重復数据删除系统,能够在数据传输前删除重复的数据,减少数据传输量,提高传输效率。

4 结束语

综上,网络备份中的重复数据删除技术主要是找到数据流或者文件中的重复数据并删除,这样系统中只会存在一个元数据实例,采用重复数据删除技术,能够有效节省备份空间,降低数据管理难度,提高管理效率。

参考文献

[1]冉禄纯.一种基于重复数据删除的网络文件备份系统设计与实现[J].计算机应用与软件,2014,(10):65.

[2]舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,(07):33.

[3]俞婷.网络备份中重复数据消重技术研究[J].科技创新与应用,2016,(04):117.

猜你喜欢
信息技术
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示