基层央行数据中心存储双活系统实践

2019-03-18 01:13孔春伟柳秀秀
网络空间安全 2019年7期
关键词:灾备可用性数据中心

孔春伟 柳秀秀

摘   要:灾备系统是保障业务连续性和防御系统风险的关键环节,确保关键业务数据安全并及时恢复故障系统是信息安全领域的研究热点。文章针对中国人民银行西宁中心支行(简称西宁人行)信息化建设过程中数据安全问题日益突出的现状,分析了西宁人行建设灾备系统的必要性,根据西宁人行数据中心特点,设计了详细可行的灾备方案,建成了基于SAN存储和EMC Vplex Metro存储虚拟化技术的存储双活系统。经过实施部署和应用测试,西宁人行存储双活系统具有较高的可用性,可以有效地保障重要业务系统可靠性和数据安全性。

关键词:灾备;数据中心;存储双活;可用性;可靠性

中图分类号:TP309.3          文献标识码:B

Abstract: Disaster preparedness is a key link in guaranteeing business continuity and defending system risks. Ensuring the security of key business data and timely recovering the failure system are the research hotspots in the field of financial information. In view of the increasingly prominent data security problems during the information construction of Xining Sub-branch, the necessity of constructing disaster preparedness system is analyzed, then based on the characteristics of Xining Sub-branch, a detailed and feasible disaster preparedness solution is designed, and a dual-live storage system is implemented with SAN storage and EMC Vplex Metro storage virtualization technology. The test experiment is carried out and the result of test showed that dual-live storage system possesses high available, the reliability and data security of important business systems are effectively guaranteed.

Key words: disaster preparedness; data center; dual-live storage; available; reliability

1 引言

隨着金融科技的快速发展,数据安全问题日益突出,国家对金融信息系统数据的可靠性、安全性要求越来越高。2002年8月,中国人民银行下发了《关于加强银行数据集中安全工作的指导意见》,要求为了保障银行业务连续性,确保系统稳健运行,银行在实施数据集中时必须建立对应的灾备中心,银行的业务连续性计划需在中国人民银行备案。2005年4月,国信办制定并发布了《重要信息系统灾难恢复指南》,强调重要信息系统要具备抗毁和灾备能力[1]。2007年7月,信安标委发布了灾备与恢复领域第一个国家标准《信息系统灾难恢复规范》(GB/T 20988-2007),该标准明确了信息系统进行灾备建设的目标和内容。2016年11月,全国人大常委会发布了《中华人民共和国网络安全法》(简称《网络安全法》),《网络安全法》从法律角度规定了关键信息基础设施的运营者,必须履行重要信息系统和数据的灾备义务[2]。2019年5月,《信息安全技术 网络安全等级保护基本要求》(GB/T 22239-2019)也要求重要信息系统须通过备份方式保证数据的完整性和安全性。一系列的国家举措表明开展灾备建设具有重要意义。

实际上,数据中心的传统灾备方式是本地备份和异地备份,两种备份方式优缺点各不相同。本地备份方式恢复速度较快,但难以抵御火灾、停电、地震等灾难。异地备份方式可以抵御上述灾难,但存在数据恢复速度较慢,灾备资源长期闲置问题[3]。以上两种方式,已不能满足数据中心信息系统对数据可靠性、安全性的要求,因此引入新的灾备技术已迫在眉睫。

2  研究现状分析

灾备技术起源于20世纪70年代美国,在银行、保险、证券等行业对灾备技术的促进下,《国际灾难备份标准Share 78》《业务持续性规划者实践指南》[4]成为主要的灾备技术规范。国外数据中心灾备大多采用两地三中心模式,在德意志银行的两地三中心灾备架构中,生产中心和同城灾备中心自行建设运维,异地灾备中心外包模式运维[5]。

中国在20世纪90年代开始关注灾备技术,采用的灾备系统主要来于国外厂商,部分已正式运行的灾备设备存在着投入成本高、恢复验证难、数据恢复单一等问题[6]。当前,西宁人行已建成生产中心,同城转接中心和异地备份中心。根据西宁人行生产中心和同城转接中心特点,设计了详细可行的灾备方案,建设了基于SAN存储和EMC Vplex Metro存储虚拟化技术的存储双活系统。

3  相关技术

3.1  存储技术

存储技术包括磁盘阵列技术、DAS技术、NAS技术、SAN技术等。磁盘阵列由阵列控制器管理的若干硬盘组成,是一种具有容错功能的存储系统[7]。DAS技术通过标准接口技术与服务器直接相连。在NAS技术结构中,数据处理和存储彼此分离,存储设备独立为节点提供服务[8]。SAN技术在服务器和存储设备之间建立了专用的光纤通道存储网络,具有较好的可靠性和可扩展性[9]。

3.2  灾备技术

灾备技术是在两个相距较远的数据中心,建立两套及两套以上功能相同的IT系统,能够进行健康状态监视和功能切换。当生产中心应用系统遭受灾难(如地震、火灾、停电等)无法正常运行时,整个应用系统切换到另一数据中心,保障应用系统继续正常工作[10]。

常用的灾备技术主要有三种。

(1)基于磁介质的灾备技术:通过定期备份方式,将数据拷贝至磁介质,并将磁介质转移到异地保存。磁介质备份方式存在着系统数据量较大时介质需求量大、容易损坏、恢复操作复杂等缺点[11]。

(2)基于数据库的灾备技术:采用数据库系统的拷贝功能完成数据备份。常用的实现方案有GoldenGate、Oracle Data Guard等,数据库灾备技术实现成本较高[12]。

(3)存储双活技术:存储双活通过存储虚拟化技术实现。在存储层,不同存储设备中的数据完全一致,与上层架构无关,具有通用性强的优点[13]。

3.3  存储双活技术

存储双活采用存储虚拟化技术实现。存储虚拟化技术将物理存储抽象成一个虚拟逻辑池,用户操作逻辑存储实现真实存储变更,可以有效地屏蔽不同设备差异[14]。当虚拟主机通过存储虚拟化设备读写数据时,数据同时写入两台存储,任意一台存储出现故障时,存储双活系统将保证业务系统正常运行[15]。当故障存储被修复完成后,存储双活系统会把增量数据更新到修复好的存储上,在虚拟主机层感知不到故障发生[16]。

4  存储双活系统方案选型

4.1  西宁人行数据中心现状

当前,西宁人行建有三个数据中心,即生产中心、同城转接中心、异地备份中心。在生产中心,存储资源由存储1和存储2提供,计算资源由主机虚拟化平台提供,主机虚拟化平台由5台具有双HBA卡的X86机架式服务器组成,其上运行了VMware vSphere 5.5主机虚拟化软件。生产中心存储网络设计成集中式SAN架构,5台X86 服务器通过两台光纤交换机连接到两台存储上,形成多链路冗余,拓扑如图1所示。

4.2  灾备需求分析

当前,西宁人行数据中心灾备方式是本地备份和异地备份。本地备份恢复速度较快,但无法抵御火灾、停电、地震等灾难;异地备份可以抵御上述灾难,但恢复速度较慢,且存在灾备中心资源长期闲置问题。以上两种方式已不能满足西宁人行信息系统对数据可靠性、安全性的要求。因此,迫切需要引入新的灾备技术。

4.3  存储资源需求分析

经过分析,近年西宁人行数据中心拟上线信息系统需存储空间10TB,但空闲存储资源仅为6TB,远不能满足需求。为了解决存储资源不足问题,采用新技术整合现有存储和新购存储,扩大存储资源池势在必行。

4.4  存储双活系统方案选型

事实上,西宁人行数据中心机房竣工于1998年,但存储双活系统建设在2018年才开始实施。因此,存储双活系统方案的选定,需根据西宁人行当前的机房环境、网络环境、服务器、虚拟化软件、应用系统等因素统筹考虑。通过研究发现,存储双活有两种主要实现方法。

(1)基于磁盘阵列同步拷貝技术的存储双活方案。在该方案中,磁盘阵列的两个控制器以主备模式分别部署在生产中心和同城转接中心。数据中心服务器通过主控制器读写数据,负载业务全部加载在主控制器,备控制器在主控制器故障时启用。

(2)基于存储虚拟化设备的存储双活方案。在该方案中,存储虚拟化设备跨数据中心部署,当数据中心的服务器通过虚拟卷读写数据时,同时将数据写入两地存储。服务器的访问请求由本地存储虚拟化设备优先响应。当一端存储发生故障时,存储双活系统正常工作。存储故障被消除后,存储双活系统同步增量数据至修复完成的存储。

通过上述对比可得,基于存储虚拟化设备的存储双活系统具有更高的性能、更好的灾备效果。因此,在本文中,存储双活系统建设采用了基于存储虚拟化设备的方案。

5  存储双活系统设计与实现

5.1  存储双活系统设计原则

(1)Always Online原则。所有业务系统实施过程中保持连续运行,不可停机。新加入设备以旁路形式融入到现有SAN 环境,不改变现有设备连接方式。存储资源的迁移以底层传输方式完成,不借助第三方导入导出手段。

(2)先并行、再统一,迭代推进。存储虚拟化设备的引入,是对现有SAN 架构的一次重构,重构过程中创造出一个与现有存储直连,和经由存储虚拟化设备间连两种形式同时存在的并行阶段。在并行阶段完成业务系统的改造与迁移,迁移完成后,取消直连。在实际迁移过程中,由于存储资源有限,采用多轮次迁移方法,逐轮迭代,层层推进。

(3)及时备份原则。在线迁移理论上是对业务系统及数据的透明、无损传输,但是实际操作过程中,存在由于主观或客观的原因,造成业务系统及数据损坏的情况。因此,必须做好系统的及时备份与归档工作。

5.2  Vplex Metro存储虚拟化架构

通过分析西宁人行数据中心现状,结合Vplex Metro存储虚拟化架构特点,西宁人行存储双活系统建设采用Vplex Metro存储虚拟化架构方案,方案逻辑拓扑图如图2所示。

在西宁人行Vplex Metro架构中,存储虚拟化设备通过Extent、Device、Virtual Volume过程实现对存储资源的组织。具体包括,存储中划分的LUN映射到Vplex后形成Extent,Extent 和LUN之间建立一一对应关系,两个Extent以RAID-1形式构成一个Device,一个Device生成一个映射到主机的Virtual Volume。在Storage Views 中,主机HBA 卡上的每个端口生成一个Initiator,将对应的Initiator和Virtual Volume 编到一个View 中,实现将Virtual Volume对应的存储资源映射到主机。

在西宁人行Vplex Metro架构中,生产中心和同城转接中心存储的数据经过实时同步镜像后呈现给客户机。在主机层,Vplex Metro架构保证两台存储上数据完全一致。当两台存储中一台损坏时,正常运行的另一台存储独立支撑业务应用,不对生产系统的业务连续性产生影响。故障存储恢复后,Vplex Metro架构自动将增量数据同步到修复好的存储上。

5.3  存储双活系统实施过程

根据所述存储双活系统建设指导原则,西宁人行数据中心存储双活系统实施过程按照准备阶段、旁路阶段、并行阶段、镜像阶段和收尾阶段进行。

(1)准备阶段。在接入存储虚拟化设备之前,完成对业务系统的清点和分级、确定SAN网络配置(端口映射与Zone 划分)、规划存储资源等。

(2)旁路阶段。在不影响当前设备和业务系统运行的前提下,初始化Vplex Metro架构,然后将Vplex设备以旁路形式加入到SAN 网络。

(3)并行阶段。在确保生产中心现有SAN设备与以旁路方式接入的Vplex设备之间互不干扰、同时运行情况下,对拟迁移的业务系统,先同时挂载在原有SAN设备和Vplex设备上,然后利用在线系统迁移方法,将原业务系统迁移至新购存储。

(4)Metro镜像阶段。将所有业务系统迁移到新存储后,拆除原存储1,同时从主机逻辑删除存储2,并回收存储2资源,将其加入到Vplex管理。通过Vplex Metro实现新购存储3与存储2之间的数据镜像,西宁人行存储双活系统架构如图3所示。

(5)收尾阶段。Metro镜像阶段完成后,拆除多余连线及Zone配置,监控系统运行,整理相关手册和资料。

6  存储双活系统性能测试及结果分析

6.1  存储双活系统环境

存储双活系统中采用的主要设备为Vplex Metro存储虚拟化设备、磁盘阵列、光纤交换机等,存储双活系统生产中心设备外观如图4所示。

6.2  存储双活系统高可用性测试

为了验证存储双活系统的高可用性,进行如下测试。

(1)将生产中心的存储与后端光纤交换机断开连接,观察镜像卷和业务系统运行状态。通过实际测试,发现当生产中心的存储断开与后端光纤交换机的连接时,Vplex Metro架构的存储虚拟化设备无法访问生产中心存储,但生产中心和同城转接中心存储在Vplex Metro存储虚拟化设备中组成的Virtual Volume依然可用。

(2)将同城转接中心对应的Vplex Metro存储虚拟化设备关闭电源,观察集群运行状况。通过测试,发现当关闭同城转接中心对应的Vplex Metro存储虚拟化设备的电源时集群出现告警,但仍然能通过生产中心Vplex Metro存储虚拟化设备提供服务,业务系统运行正常。

(3)将生产中心前端光纤交换机关闭电源,观察主机虚拟化平台运行状况。通过测试发现当关闭生产中心前端光纤交换机关闭电源时,主机虚拟化平台依然能够访问存储。

测试结论是西宁人行数据中心磁盘阵列、Vplex Metro架构存储虚拟化设备、光交换机中任意单台设备故障时,存储双活系统能够有效降低数据丢失风险,较好地保障了业务系统的连续性运行。

6.3  存储双活系统存储资源监控

事实上,存储双活系统建成后,I/O得到有效集中,在存储双活系统管理界面,系统运行总体状况被有效呈现,存储双活系统总体运行状况展示如图5所示。

在系统健康界面,Vplex Metro存储双活系统各物理模块与逻辑组件的详细健康状况被清晰展示,系统健康界面如图6所示。

在性能监测界面,存储资源I/O情况可被实时监控,监控内容包括前后端带宽、吞吐量、延迟等,存储双活系统性能监测界面如图7(a)(b)所示。

通过Vplex Metro架构的存储双活系统监控系统整體运行情况、物理模块与逻辑组件健康状况、前后端带宽、吞吐量、延迟、队列深度等,直观掌握了系统运行现状、为快速定位风险点提供了决策支持,重要业务系统连续性得到较好保障。

7  结束语

本文针对基层央行信息化建设过程中,数据安全问题日益突出的现状,以西宁人行数据中心为例,分析了进行灾备系统建设的必要性。根据西宁人行生产中心和同城转接中心特点,设计了有效可行的灾备方案,建成了存储双活系统。存储双活系统采用SAN存储和EMC Vplex Metro存储虚拟化技术,实现了生产中心和同城转接中心存储双活,数据中心经过存储虚双活改造后,存储资源实现实时高可用,RPO近似等于零,省级私有云统一管理存储资源,重要业务系统可靠性及数据安全性得到较好保障。下一步西宁人行将积极推进存储双活系统向应用双活的改造。

基金项目:

1. 赛尔网络下一代互联网技术创新项目(项目编号:NGll20151101);

2. 中国人民银行西宁中心支行重点课题(项目编号:QHJR201808);

3. 2017年度青海师范大学青年基金项目(项目编号:17ZR16)。

参考文献

[1] 任平泉.山西省网络信息系统灾备体系研究[J].网络空间安全, 2017, 8(4): 63-66.

[2] 王永超,鲁鸣鸣.面向金融行业的大数据迁移的研究与实现[J].计算机工程与应用, 2018, 54(13): 93-99.

[3] 宋文功,蒋新华.高校数据中心容灾技术的探讨[J].华东师范大学学报(自然科学版), 2015, (S1): 309-312.

[4] Suguna S, Suhasini A. Overview of Data Backup and Disaster Recovery in Cloud[C]// International Conference on Information Communication and Embedded Systems. 2015. India: IEEE, 2014: 153-158.

[5] 呂仲涛.构建“两地三中心”运行体系[J].中国金融, 2016, (23): 57-58.

[6] Sengupta S, Annervaz K M. Multi-site Data Distribution for Disaster Recovery——A Planning Framework[J]. Future Generation Computer Systems, 2014, (41): 53-64.

[7] 王良清,王玉斋,李爱勤.测绘地理信息成果档案异地灾备系统的研建[J]. 测绘通报, 2017, (6): 133-136.

[8] Alshammari M M, Alwan A A, Nordin A, et al. Disaster Recovery with Minimum Replica Plan for Reliability Checking in Multi-Cloud[J]. Procedia Computer Science, 2018, (130): 247-254.

[9] 许冠军.基于虚拟化的应用容灾平台探索[J].计算机科学, 2014, 41(11): 426-429.

[10] Praveen S. Challagidad, Ambika S. Dalawai, Mahantesh N. Birje. Efficient and Reliable Data Recovery Technique in Cloud Computing[J]. Internet of Things and Cloud Computing, 2017, 5(1): 13-18.

[11] Wei Chen, Yu Tingshang. Disaster Recovery of Online System Based on Cloud Computing[J]. Applied Mechanics and Materials. 2017, (865): 636-641.

[12] Li T, Huang Y, Chen S C, etal. Data-Driven Techniques in Disaster Information Management[J]. ACM Computing Surveys, 2017, 50(1): 1-45.

[13] Yu Jun, Yang Lihong. The Cloud Technology Double Live Date Center Information System Research and Design based on Disaster Recovery Platform[J]. Procedia Engineering, 2017, (174): 1356-1370.

[14] Kokkinos P, Kalogeras D, Levin A, et al. Survey: Live Migration and Disaster Recovery over Long-Distance Networks[J]. ACM Computing Surveys, 2016, 49(2): 1-36.

[15] Andrade E, Nogueira B, Matos R, etal. Availability Modeling and Analysis of a Disaster-Recovery-as-aService Solution[J]. Computing, 2017, 23(6): 34-40.

[16] Anderson J, Meling H, Rasmussen A, etal. Local Recovery for High Availability in Strongly Consistent Cloud Services[J]. IEEE Transactions on Dependable and Secure Computing, 2015, 99(2): 1-2.

猜你喜欢
灾备可用性数据中心
关于间接蒸发冷机组在数据中心中应用的节能分析
2018年数据中心支出创新高
2017第十届中国数据中心大会榜单
三大MOOC平台Coursera、EdX和Udacity的可用性比较研究
深蓝云海“云灾备”正式上线
共享灾备走向智能化
灾备建设的新思路
GDS将建19个数据中心