云计算环境下分布存储关键技术研究

2016-12-22 21:56邱亮
软件导刊 2016年11期
关键词:云计算技术数据处理

邱亮

摘 要:云计算技术的中心构成部分是数据中心,它是云计算技术发展和应用的关键,强大的数据存储、处理及传输能力是云计算技术区别于传统计算技术的重要特征。但目前数据管理及组织技术水平的限制,使得云计算环境下的数据处理过程出现了大量的数据丢失或数据错误的情况,严重阻碍了云计算技术的发展与应用。鉴于此,对云计算环境下分布存储技术的发展现状及存在的问题进行分析,并提出相应的改进建议。

关键词:云计算技术;分布存储技术;数据处理

DOIDOI:10.11907/rjdk.161889

中图分类号:TP319

文献标识码:A 文章编号文章编号:16727800(2016)011016104

0 引言

当前,计算机技术、信息技术和通讯技术的发展成为全球社会、经济、科技发展的重要推动力,它们已经融入到了人们生产生活的各个环节。随着对其应用程度的逐渐深入,各领域需要存储和处理的数据规模愈来愈大,这给相关技术的可持续发展带来了巨大挑战。云计算技术是计算机、存储和通讯技术发展到一定阶段后自然而然形成的一种新的计算模型,其在数据的储存和处理上与个人PC机有非常大的区别。它通过现代“互联网+机器设备”构建了一个庞大的数据中心库,并以此为基础向各领域提供数据存储、处理、分析以及计算服务。整个云计算系统的中心是数据中心,而对数据进行管理、存储以及组织的分布存储技术又是数据中心的关键。可以说,分布存储技术水平直接决定了云计算的整体水平。然而,目前分布存储技术难扩展、高成本、低容错的特性极大地限制了云计算技术的应用与发展。因此,分布存储技术的研究成为当前云计算技术研究的重点和热点。

1 分布存储技术产生背景

随着计算机应用的逐渐深入,海量数据随之产生,单一的PC机或者服务器已难以满足人们对数据处理的需求。因此,解决当前更大规模数据存储与数据计算的云计算技术应时而生[1]。

云计算环境下的分布存储技术指用户为了实现自己存储数据的目标,通过购买或租赁等手段,获得互联网空间,进而满足自己对数据的存储和计算需求。在云计算环境下,数据中心会对储存在其内部节点上的数据进行有序编排,通过专用的端口将用户需要的数据传输给用户,同时用户也能通过该端口将需要存储和处理的数据传输到自己购买的互联网空间中。通俗来讲,云计算就是以互联网为基础,能够使人们分享基础资源的计算模型。

2 云计算环境下的分布存储技术分析

2.1 容错性技术分析

传统情况下,采取RAID来提升存储技术的容错性,但这样的技术提升手段要求使用高性能的服务器,同时使用更加专业的存储设备。因此,这种提升存储容错性的手段会使成本大幅度提升,极大降低了企业的经济效益。但是,采用这种技术提升数据存储的容错性时,时常发生存储失误或错误的情况,给企业和用户造成了巨大损失,严重阻碍了云计算技术的进一步发展和应用。

2.2 可扩展性分析

提高存储可扩展性的最常用手段是预留冗余磁盘空间,这种提升手段适用于常规的存储技术。然而,目前云计算环境下所需储存和处理的数据达到了EB级别,在这种情况下,采取传统预留冗余磁盘空间的手段已经无法适应当前需要。

2.3 成本控制分析

在传统的数据存储过程中,小规模的数据交换不会产生很高的热量,不需要对数据存储设备进行降温,也不需要考虑节能问题。因此,传统的成本控制方式无法为云计算环境下的成本控制提供有效借鉴。在云计算环境下,由于涉及海量EB级别的数据存储、交换、计算,因而必须大规模增加存储空间和数据存储节点,也就必然会增加生产成本。另外,大量数据的传输和运算必然会使设备的散热量大大增加,在设备制造时必须要考虑散热问题,这在无形中也增加了实际运营成本[2]。

3 云计算环境下的分布存储技术构造

云计算环境下的数据中心主要由两方面的部件构成:软件与硬件。其中软件主要提供数据中心传输数据、计算等服务;硬件主要提供其存在环境所需要的支撑。通常情况下将其分成3种构造类型。

3.1 交换机构造

交换机结构在云计算技术出现之前就已是一种常用的分布存储技术手段,它不仅被用作数据中心,还是连接数据与用户的纽带。通常情况下,以交换机为中心的构造会形成一种树形结构,如图1所示,它由聚合层、核心层以及边缘层构成。边缘层通常由服务器和交换机构成,在数据存储时为了保证均衡的带宽环境,边缘层一定要和聚合层产生连接;在数据访问和传输时,聚合层也必须和核心层产生连接。该结构具备如下3个优点:①非常易于操作;②连接简单;③很容易实现扩展。同时其也存在一些不足:①灵活性差、资源利用率低;②带宽不足;③受聚合层结构影响较大;④发生故障后会浪费很多资源[3]。

3.2 服务器构造

将服务器结构作为数据中心时,为了实现不同服务器之间的连接,需要设置一些网卡。这种结构不必连接路由器和交换机,其本身就能够实现数据的传输和存储功能。由于通过网卡可以实现服务器的联网功能,因而构建服务器结构相对而言比较容易,但是应用它作为数据中心很容易发生链路冗余。并且在进行数据转发时,资源使用量较大,极易导致服务器高强度运转,会对服务器造成不同程度的损害。简言之,服务器作为数据中心易于构造但在运行过程中数据冗余现象严重。其结构如图2所示。

3.3 混合型构造

将交换机结构和混合型结构进行适度组合就构成了混合型构造,这种结构集中了交换机与服务器的优点,它将交换机作为中心,用网卡连接服务器并传输数据,能够很好地完成大型数据包的存储和传输。例如,DCell混合型构造是一种分层的、递归型的网络构造,上层DCell由多个下层DCell网络构成,假如把位于第J层的DCell当成一个节点,那么位于最底层的DCell将由N个服务器共同连接一台交换机。因此,当N=4时,该结构如图3所示。

4 当前分布存储技术容易产生的问题

4.1 容错问题

存储技术的容错性能可运用传统的技术手段加以提高,比如,传统的RAID、高性能服务器、更加专业的存储装置都能够有效地改善存储技术的容错性能。但是,随着社会经济的快速发展以及计算机应用的逐渐普及,需要存储和处理的数据量快速增长,这就要求数据中心的存储节点随之增长。在这种情况下,技术的限制导致数据存储和计算出现诸多问题,比如数据缺失、数据失效等。类似状况的发生使用户遭受了巨大损失,同时也严重限制了云计算技术的发展和应用[4]。

4.2 可扩展性问题

提升可扩展性能的传统方式是预留出足够的冗余磁盘空间。这种方式适用于常规的储存技术,但并不能很好地适用于云计算环境下的分布存储技术。因为预留冗余磁盘是通过增加磁盘来实现,在当前大数据库浪潮的冲击下,用预留磁盘冗余的手段来解决EB级数据的扩展性问题并不科学,而且在未来,数据库的级别可能会更高,这就要求采用新的技术来解决可扩展性问题。

4.3 成本增大问题

在云计算技术出现之前,常规的分布存储技术只需要对小规模数据进行存储和计算,不需要对设备的散热与降温加以特殊考虑,因而在传统的存储设备制造和应用上并没有涉及散热和能耗问题。然而,在云计算环境下,随着用户的迅速增加以及数据级别的不断攀升,如何解决好设备存储、传输问题,以及计算EB级别数据时的散热和能耗问题,有效降低设备制造成本以赚取更多盈利已成为困扰诸多设备厂家的难题。

5 分布存储关键技术分析

5.1 容错性技术

随着互联网、计算机以及通讯技术的发展,云计算技术在人们生产和生活中的应用越来越广泛,云计算环境下的分布储存技术也备受关注。数据容错技术的应用意味着即便云计算系统在使用期间由于未知原因产生了错误,其依然可以不间断地、正常地向用户提供数据存储、计算、传输服务。该技术的发现和使用可以有效提高系统的可靠性能,同时在一定程度上还能够增强系统应用性,使数据访问率实现一定程度的增长。通常情况下,数据容错是利用添加数据冗余来实现,即在向用户传输数据时即便有一些数据失效,但依然可以从冗余数据中召回所需数据,以满足客户需求。冗余数据在实际工作中的确能够提升系统的容错性,但同时也加大了存储资源的占用。因此,良好的数据容错技术不但要保证系统拥有良好的容错性,而且也要最大限度地降低对存储资源的占用,以控制成本、提升效益。

数据容错技术可以分为复制型与纠、删码型的容错技术。复制型数据容错技术能够实现简单应用,但由于建立副本的需要,会占用非常多的存储资源;纠、删码型数据容错技术虽然占用空间较少,但在数据存储和输出过程中需要重复编码及解码,对设备的计算性能要求很高。在数据缺失时,复制型容错技术只需将其它副本中的数据复制下载修复就可;纠、删码型容错技术修复数据时需要查找更大的数据量,难度和成本都相应较高。

(1)复制型数据容错技术。复制型容错技术的原理是将个体数据实现多模块化,将多个模块放置到不同的节点中,运用这种方法可以有效避免数据丢失、失效对用户造成的损失,因为某一个模块缺失时依然能够利用其它节点中的相同数据。当前,对该技术的研究主要有2个方向:①复制策略;②组织结构。

(2)纠、删码型数据容错技术。纠、删码型数据容错技术的原理是将存储数据实现编码化,产生新的占用空间更小的编码数据,运用这种方法不但可以进行数据的复制存储,而且可以有效减小存储占用空间。

上述两种数据容错技术各有优缺点,其对比结果如表1所示。

5.2 节能技术

据相关统计机构调查结果可知,云计算环境下数据存储系统的能耗可达到系统总能耗的44%。因此,对云计算技术节能的研究重点是对存储系统节能的研究。对存储技术节能技术的研究可以实现成本的有效控制,降低生产成本,提升企业利润,同时节能技术的研究与应用还能够有效地保护环境。数据存储技术是云计算技术的基础,降低数据存储的能耗能够有力地促进云计算技术的发展和应用,对社会发展也具有一定的积极意义。

5.2.1 节能技术能耗模型

云计算环境下的分布存储通常会运用到数据中心,如果想有效降低数据存储、传输、计算过程的能量消耗,最简单有效的手段是减少每一个储存节点对能量的消耗。只是在通常情况下,能量消耗的减少也同时意味着设备性能的降低。可通过单一的计算机能耗模型来对其性能与能耗之间的关联性进行研究,此模型主要分为比例模型和两段模型[5]。

在比例模型中,能量的消耗和计算机硬件的使用程度是正比关系,在硬件没有负载时基本不会有能量消耗,因而该模型无法精准地计算出系统能量的消耗情况。在实际情况中,计算机只要开机就会有能量消耗。动态频率、电压调整以及固态硬盘技术的运用,使计算机工作时其硬盘可以根据负载调整转速,使得性能与能量消耗步调一致,在保证性能的前提下有效减少能量消耗。

在两端模型中,计算机整体能耗分为固定能耗和可变能耗。固定能耗主要为硬件设备运转时的能量消耗,可变能耗由磁盘运转速度决定。虽然上述两种模型都认为设备高负载运转时能量的消耗最高,但两种模型对于空载时的能量消耗认识不同。两端模型认为空载时的能量消耗是无法被忽略的,所以两者相比,两端模型可以更精准地计算出其能量消耗情况。DVFS技术以及VOVO技术的运用,使得通过关闭没有任务的组件或数据节点的方法来减少能量消耗成为可能,可有效降低整个系统的能量消耗。

5.2.2 节能技术分类

目前,在减少分布存储能耗方面出现了很多有用成果,可将最新成果分成两类:软件节能技术、硬件节能技术。

(1)软件节能技术。这种技术是利用相关软件合理调控和分配存储资源来降低能耗,其特点是在降低系统能量消耗的同时不会导致性能的改变。软件直接调控管理数据节点通过对其应用情况进行分析与调控,合理地关闭节点,降低其能量消耗

(2)硬件节能技术。这种技术是减少分布存储硬件构成组件的能量消耗来实现整体的降耗节能,从硬件的构成层次可以将其分为两个方面:数据中心技术、计算机整体技术。

5.3 可扩展性能技术

随着数据存储量上升到EB级别,对云计算环境下分布存储技术的数据存储、传输、计算能力都有着更高要求。在其发展过程中,必须要对硬件设备的可扩展性能加以提升和完善,以更好地促进云计算技术的发展和应用。

6 结语

云计算是适应新时代发展要求的新型计算模式,目前已广泛运用于人们的生活和工作领域。云计算技术的应用受到数据分布存储技术容错性、成本、扩展性能等方面的限制,研究数据分布存储的容错性技术、节能降耗技术、可扩展性能力有助于提升云计算的整体发展水平,使云计算技术更好地服务于人类[6]。本文结合云计算技术的实际应用情况,分析了其中存在的问题,对提升分布存储技术的一些关键成果进行了介绍,这些成果的应用可有效提升云计算环境下分布储存技术的性能,从而增强其对数据的存储和处理能力,促进云计算技术的广泛应用。

参考文献:

[1] 史海疆.数据中心节能降耗技术探讨——访中国科学院计算机技术研究所研究员张广明[J].电气应用,2014(2):4546.

[2] 王聪,王翠荣,王兴伟,等.面向云计算的数据中心网络体系结构设计[J].计算机研究与发展,2012(2):2628.

[3] 宋杰,李甜甜,闫振兴,等.一种云计算环境下的能效模型和度量方法[J].软件学报,2012(2):26.

[4] 谭一鸣,曾国荪,王伟.随机任务在云计算平台中能耗的优化管理方法[J].软件学报,2012(2):1013.

[5] 刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012(S1):5659.

[6] 林闯,苏文博,孟坤,等.云计算安全:架构、机制与模型评价[J].计算机学报,2013(9):1618.

(责任编辑:孙 娟)

猜你喜欢
云计算技术数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
科技期刊编辑出版工作中云计算技术的应用
MATLAB在化学工程与工艺实验数据处理中的应用
Matlab在密立根油滴实验数据处理中的应用
基于POS AV610与PPP的车辆导航数据处理
依托陆态网的GNSS远程数据处理软件开发