加强云存储数据安全

2014-04-25 11:20李俊平罗国星电子科技大学计算机科学与工程学院
中国信息化 2014年7期
关键词:原始数据备份服务器

文|李俊平,罗国星 电子科技大学计算机科学与工程学院

1 前言

云存储服务属于基础架构即服务(IaaS)的范畴,是云计算服务的最基本服务形式之一。在云存储服务中,云服务提供商(CSP)为用户提供无限量的空间供其存储海量数据,并从中收取少量费用,这就为用户省去了购买存储设备的费用。一项调查结果显示,56%的云用户使用的是IaaS服务,并且绝大部分IaaS用户使用的是云存储服务和虚拟机租借服务。由此可见,云存储服务在所有云服务中占据着非常重要的地位,可以为CSP带来可观的经济收益。

然而,用户在使用云存储服务过程中也有很多担忧。一项国外调查结果[1]显示,81%的云用户关注云数据的安全性和机密性,其中数据“安全性”指的是数据可靠性和完整性。显然,数据安全性和机密性是云服务中用户最关心的问题。

为了保证云端数据安全性,CSP(如Google,使用GFS[2]系统)会为每一份数据保存多份备份数据,当发生数据损坏时就可以从完整的数据副本里恢复出正确数据。显然,备份数据越多数据越安全,但同时却也降低了云存储空间的有效利用率。此外,就机密性来说,一般情况下,用户在存储数据的时候会先将数据进行加密,然后将密文存于云端,这就可以避免数据信息泄露。

我们提出了一个空间高效的、面向用户的、安全、可调节数据存储方案。本方案基于Shamir秘密分享方案[3],可以在保证提供与GFS系统相同数据安全性的同时有效减少空间使用量。并且,本方案使得用户可以估计自己数据安全性并以此为依据选择备份数据的数量。该机制的引入对于用户和CSP均有好处,对用户来说,用户可以租用适当的存储空间,从而节约存储费用;而对CSP来说,可以获得更多的空间服务更大量的用户。此外,本方案还可以为备份数据提供一定程度上的数据机密性。最后,在用户下载数据的时候本方案可以提供不同安全级别的数据传输模式。

2 相关工作和设计目标

GFS[2]系统包括了两个部分:Master服务器和Chunk服务器集群。其中,Master服务器负责与用户的交互和对Chunk服务器集群的管理。而Chunk服务器集群负责存储用户的数据并接受Master服务器的调度和控制。当用户存储数据时,数据会被分成固定大小的数据分块存储在Chunk服务器集群之中。为了保证数据的安全性,GFS为每一个数据分块备份三份数据副本。此模式下,GFS系统的有效空间利用率为25%。

从上述分析可以得知,当前的云存储服务系统有效空间利用率非常低,并且云系统并不为备份数据提供数据机密性。因此,本文提出了一个空间高效的、面向用户的、安全、可调节数据存储方案。其具体设计目标包括:1.空间高效性,方案空间利用率应比较高;2.方案应该是面向用户的,用户可以自己估计数据的安全性,并根据安全需求个性化设置备份数据的数量;3.方案是安全的,方案能为备份数据提供一定程度上的数据机密性;4.方案是可调节的,当用户下载数据时系统能为用户提供不同安全级别的传输模式。

3 方案

3.1 系统架构

图1 系统架构图

系统架构图如图1所示,系统包括用户模块和CSP模块。用户模块即使用云存储服务的用户,CSP模块即云系统模块。如GFS一样,CSP模块也包括了两类服务器:Master服务器和Storage服务器。

在我们的系统中,用户模块除了可以向CSP模块租用云服务以外还可以:1. 根据自己实际安全需求个性化定制自己备份数据副本的数量;2.下载数据时可以选择不同安全级别的传输模式。

在CSP模块中,Master服务器主要负责与用户进行请求交互、管理Storage服务器集群、根据用户设置的参数引导Storage服务器备份数据等。而Storage服务器则主要负责存储数据、在Master服务器的引导下备份数据等。

在我们的方案中,当用户想要将数据存储至云端的时候,他首先应该个性化定制他的数据备份方案(即,确定备份数据的数量)。接着他向Master服务器提出存储请求,Master服务器根据用户的数据总量和备份方案选择是否向用户提供云存储服务。

3.2 数据备份方案

我们的存储方案与GFS系统一样,存储数据时用户数据会首先被分成固定大小的数据分块,然后再备份并存储。但我们的数据备份方案却与GFS完全不一样。我们的方案基于(K,N)-Shamir秘密分享方案[3],是一个空间高效性的、面向用户的备份过程。当用户拥有N中的任意K份数据就能恢复出原始数据,具体过程如下所示。

当Storage服务器收到用户的数据之后,它会以数据分块为单位对数据进行备份,我们以一个数据分块(记作D)为例来讲解数据备份过程。服务器首先将数据分块D分成多份更小的单位数据块(记作URP),于是我们就可以用有序对(i,URPi)来表示D,即D={(i,URPi)┤0

然后我们可以从f(x)上采集不同于之前K个点的其他N个点。这N个点即是Storage服务器备份完成的数据。使用N个中的任意K个点即能重构出多项式f(x),从f(x)中抽取出原始的K个点就能恢复出原始数据。

显然,只要保证N个点中的K个点正确我们即能轻易地恢复出原始数据,因此我们的方案能保证很强的数据安全性。假设我们用ρ表示一个URP的出错概率,PS表示D的备份数据所能提供的数据安全性,于是我们可以用公式(2)来量化我们的数据安全性:

值得注意的是,公式(2)中的K是由云服务商根据系统能力来确定,备份数据的数量N是由用户根据自己的安全需求来确定。

3.3 数据存储过程

在我们的系统中,当用户需要存储数据到云端时。他首先根据自己的安全需求和公式(2)确定备份数据的数量N,即个性化定制备份方案。

当N确定之后,用户会向Master服务器发出请求并告知其数据存储需求,即数据存储总量和备份方案。Master服务器收到请求之后会根据用户的存储需求确定所有数据(包括原始数据和备份数据)的存储位置。接着Master服务器会通知各Storage服务器准备接收数据并按照用户的备份方案来备份数据。当上述过程完成之后,Master服务器会告诉用户数据的存储位置。接着用户可以上传所有数据到指定的Storage服务器。各Storage服务器收到数据之后在Master服务器的指令引导下完成数据的备份和存储。

值得注意的是,为了保证数据的安全性,用户原始数据和备份数据所存储的位置不能相同。当Storage服务器备份完数据之后需要将备份数据发送到其他Storage服务器保存,以提高数据的存储安全性。

3.4 数据下载过程

当用户需要从云端下载数据时,它会向Master服务器发出下载请求,请求中还应包含用户指定的数据传输模式:即传输备份数据或者传输原始数据。

如果用户选择传输备份数据,它应该指定传输备份数据中的特定K个数据。在该传输模式下,数据传输的总量并没有发生变化,因为一个数据分块(D)所占空间等于K个单位数据块(URP)所占空间。然而,由于传输的是K个备份数据,这些数据是原始数据的映射,相当于对原始数据的加密,即便传输过程中被敌手窃取了这些备份数据,只要敌手不知道各URP的序列号敌手就无法恢复出原始数据。因此,此模式下传输安全级别较高。

如果用户选择传输原始数据,则敌手窃取到的内容即是原始数据。显然,该传输模式安全级别较低。

4 方案分析

4.1 数据存储安全性

在这里,我们将比较GFS系统备份方案和我们的备份方案所能提供的数据安全性。为了使得比较标准一致,我们将GFS系统的数据分块分成NBlock个更小的单位数据块(记作unitreplica),具体做法与我们的存储方案做法一样。同样的,我们用ρ表示单位数据块出错概率,NGFS表示GFS系统中备份数据的数量,于是GFS系统中备份数据所能提供的安全性可以用公式(3)表示:

其中,NBlock与公式(2)中的K的意义完全一样,而公式(2)中的N=NGFS*NBlock。

如果我们令NBlock=10、ρ=0.01,则根据公式(2)和公式(3)我们可以得出备份数据所提供的数据安全性,结果如图2所示:

图2 数据安全性(NBlock=10,ρ=0.01)

图2中,横坐标是备份数据的数量,纵坐标是备份数据所提供的安全性。需要注意的是,在GFS系统中,由于备份方案是复制整个数据分块,所以,单位数据块的数量的增长应该是按照NBlock的倍数增长方式进行的:即NBlock=10时,当单位数据块数量为10时,备份了一个数据,为20时,备份了两个数据,以此类推。因此,当NBlock处于10~20之间时,由于GFS没有完整的备份完第二个数据副本,因此其提供的安全性并没有增长。

从图2中我们可以看出,在备份数据数量达到12时我们的方案即能提供99.98%的安全性。而在GFS系统中,要达到同等级别的数据安全性则需要备份三份(即NGFS=3)完整数据,即备份数据数量为30(3*NBlock)。此时,我们的方案可以比GFS节约60%((30-12)/30*100%)的存储空间。

同样的,当NBlock和ρ的值发生变化时,根据公式(2)和公式(3)我们依然能得出如图2所示的同等结论:我们的存储方案提供与GFS系统同等数据安全性的情况下能比后者节约大量的存储空间。因此,我们的方案有着非常高的空间利用率。

4.2 数据机密性

从本文3.2节中我们知道,我们的备份数据是从原始的K个单位数据中映射出来的N个单位数据,这N个数据与原来的K个数据完全不同。敌手在不知道各单位数据的具体序列的情况下,即便窃取了所有数据也无法重构出原始数据,因此可以看作是对原始数据的一次加密。所以,我们的方案能为备份数据提供一定程度的数据机密性。

4.3 传输安全级别

从本文3.4节的介绍可知,用户在下载数据的时候有两种安全级别的传输模式:高安全传输模式和低安全传输模式。

然而,高安全传输模式并不是完美无瑕的。在高安全传输模式中,用户下载完数据之后还需要利用公式(1)恢复出原始数据,与低安全传输模式相比,此模式下计算开销相对较大、用户等待时间相对较长。因此,高安全传输模式不适合对数据读取及时性要求比较高的场景。

4.4 备份过程计算开销

在我们的备份方案中,备份时间TS可以用公式(4)表示:

其中,Tr(s)是读取大小为s的数据所需时间,Tb(s)是备份数据所需时间,Tt(s)是传输备份数据到其他Storage服务器所需时间,Tw(s)是Storage服务器存储备份数据所需时间。由于,数据读取和数据备份并发进行,数据传输和数据存储并发进行。因此,我们可以认为TS≈Tb(s)+Tt(s)。同时,在公式(1)中的各系数li(x)独立于用户数据URPi,可以预先计算出来。于是,我们在备份的过程中只需要计算公式:

的计算开销,该公式的计算时间为Tb(s)≈N*K*Tmul(p),其中,Tmul(p)表示计算有限域Z p上的一次乘法所需时间。再者,如果我们用Tur表示服务器传输单位数据块所需时间,则传输备份数据所需时间Tt(s)=N*Tur=N*K*Tur/K。于是,TS≈N*K*(Tmul(p)+Tur/K)。又根据公式(2)可知,N和K大小相差不大,因此,备份方案的时间复杂度约为O(K2)。

5 结论

云存储服务是云计算服务的基本服务形式之一,用户对云服务的最大担忧是数据的安全性。我们调研了各大CSP,如,Google、Amazon和Microsoft等,发现在这些云系统中保证数据安全性的机制是简单的存储多份相同数据,这极大降低了存储空间的利用率。因此,我们设计了一个基于秘密分享方案的、空间高效的、面向用户的、安全、可调节数据存储方案。方案中利用拉格朗日插值公式和秘密分享技术备份用户数据,从而达到了对数据加密和提高空间利用率双重目的。本文详细介绍了方案的架构,并结合设计目标对方案做了详尽的分析,完全达到了既定目标。最后,我们通过分析可知备份过程的时间复杂度为O(K2),当K取值合理时,备份时间开销是完全可接受的。

[1] Wu J, Ping L, Ge X, et al. Cloud storage as the infrastructure of cloud computing[C]//Intelligent Computing and Cognitive Informatics (ICICCI), 2010 International Conference on. IEEE, 2010: 380-383.

[2] Ghemawat S, Gobioff H, Leung S T. The Google fi le system[C]//ACM SIGOPS Operating Systems Review. ACM, 2003,37(5): 29-43.

[3]Parakh A, Kak S. Space eff i cient secret sharing for implicit data security[J]. Information Sciences, 2011, 181(2): 335-341.

[4]Quadling D A. Lagrange's Interpolation Formula[J]. The Mathematical Gazette, 1966, 50(374): 372-375.

[5]Z. Zheng and M. R. Lyu.A qos-aware fault tolerant middleware fordependable service composition. In DSN , pages 239–248, 2009.

[6] S. Dustdar and L. Juszczyk.Dynamic replication and synchronizationof web services for high availability in mobile ad-hoc networks. ServiceOriented Computing and Applications (SOCA), 1(1):19–33, 2007.

[7]Triantaf i llou P, Taylor D. Using multiple replica classes to improve performance in distributedsystems[C]//Distributed Computing Systems, 1991., 11th International Conference on. IEEE, 1991: 420-428.

猜你喜欢
原始数据备份服务器
利用云备份微信聊天记录
受特定变化趋势限制的传感器数据处理方法研究
如何只备份有用数据而不备份垃圾数据
Windows10应用信息备份与恢复
2018年全球服务器市场将保持温和增长
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
旧瓶装新酒天宫二号从备份变实验室
对物理实验测量仪器读数的思考
用独立服务器的站长注意了
定位中高端 惠普8路服务器重装上阵