基于CDP技术的数据容灾系统设计与实现

2023-08-21 11:02林家全
现代信息科技 2023年12期

摘  要:随着教育信息化的转型升级,信息系统数据存储安全和容灾保护成为学校安全防护的热点问题。如何确保数据在发生灾难性事件后能够快速恢复,保障信息系统数据不丢失成为学校网络安全的重要课题。CDP技术是一种全方位的防范灾难性技术,介绍了CDP技术的备份原理、恢复过程、关键技术点,针对贵州经贸职业技术学院数据容灾需求,设计本地备份系统和远程容灾系统,提出了基于CDP技术的数据容灾系统设计方法,并在实际工作中取得良好效果。

关键词:CDP技术;备份技术;恢复技术;容灾系统

中图分类号:TP311.5;TP309  文献标识码:A  文章编号:2096-4706(2023)12-0147-05

Design and Implementation of Data Disaster Recovery System Based on CDP Technology

—Taking Guizhou Vocational College of Economics and Business as an Example

LIN Jiaquan

(Guizhou Vocational College of Economics and Business, Duyun  558022, China)

Abstract: With the transformation and upgrading of education informatization, the security of information system data storage and disaster recovery protection have become the hot issues of school security protection. How to ensure the rapid recovery of data after a catastrophic event and ensure that the information system data is not lost has become an important topic of school network security. The CDP technology is a comprehensive disaster prevention technology. This paper introduces the backup principle, recovery process and key technical points of CDP technology. Aiming at the data disaster recovery requirements of Guizhou Vocational College of Economics and Business, it designs local backup systems and remote disaster recovery systems, and puts forward a design method of data disaster recovery system based on CDP technology, which has achieved good results in practical work.

Keywords: CDP technology; backup technology; recovery technology; disaster recovery system

0  引  言

隨着学校信息化教学转型升级,学校信息化建设、管理和应用能力成为评价学校办学能力的指标之一。信息系统的安全稳定运行成为当前信息化教学的热点和难点工作,如何做好信息系统和数据的容灾备份工作,当出现灾难性系统故障时,如何保障数据不丢失,快速恢复和启动系统成为学校的关注点。

1  学校在数据容灾中存在的困境

1.1  数据容灾系统缺失

学校在信息化建设过程中,大部分学校只重视信息系统的建设,在系统的管理和安全运维上缺失。信息系统的建设大多数基于传统的单机服务器模式,没有进行虚拟化云存储集中统一管理,数据备份只能做传统的数据库备份和文件备份,而且是定期备份,数据不能做到实时全量和增量备份。信息系统一旦出现灾难性故障,数据恢复需要专业的运营团队才能完成,数据缺失现象严重。

1.2  数据备份不能实现镜像备份

传统的数据备份只能靠备份计划进行,一般选择业务量访问较少的时候进行。数据备份不能够备份镜像系统,只能备份重要的数据库和相关文件,具有一定的局限性。数据恢复不能恢复镜像系统,如果系统出现灾难性事件,需要从头部署系统环境,系统恢复时间长。数据恢复对带宽要求高,恢复能力有限。

2  数据容灾系统需求分析

数据容灾系统需求如下:

1)数据灾备系统要支持所有主流数据库、操作系统镜像备份和恢复。高校信息系统主要以Oracle、MySQL、SQLServer为主,数据容灾系统要全面支持Oracle、MySQL、SQLServer等主流数据库的备份与恢复;要充分考虑支持VMware、HCI、OpenStack等主流虚拟化、云平台的无代理备份;在高校混合云平台建设过程中,要支持以租户为单位无代理备份和恢复支持系统镜像备份。

2)数据灾备系统要具备离线恢复功能。由于高校信息系统繁多,数据量比较大,恢复比较慢,数据灾备系统要具备数据库离线恢复能力,即备份数据可直接恢复至数据库,同时也支持将备份数据恢复成文件,恢复的文件可以以离线的方式在异地直接恢复至异地数据库,完全不依赖备份系统,同时也不需要在异地搭建备份系统。

3)具备异地灾备和秒级恢复的能力。高校数据中心大多数采用超融合服务器集群搭建而成,灾备设备与超融合服务器一般不在同一集群中,甚至在不同楼栋,当中心机房发生灾难性事件后,信息系统能够快速恢复。灾备系统具备应用级别容灾,保证业务系统承载服务器宕机实现秒级切换。

针对上述需求,需要对数据库、虚拟化、文件等进行备份恢复。数据中心采用超融合服务搭建而成,针对学校的业务系统、数据库、文件的承载及存储均采用的本地云平台进行承载。因此对数据库、虚拟化、文件的存储和运行都在虚拟化环境里,所以采取CDP持续数据保护方案,对整个云平台上的虚拟机进行备份即可对数据库、虚拟化、文件等的备份恢复。针对应用软件的容灾备份需求,同样采用CDP持续数据保护方案,因为应用软件一般部署在操作系统之上,而操作系统一般装在虚拟机里,虚拟机用云平台承载,所以我们对云平台上的虚拟机进行备份恢复就可实现应用级的容灾。

3  数据容灾系统设计方案

3.1  系统架构设计

以贵州经贸职业技术学院数据中心灾备系统为例,学校建有标准的网络中心机房,具备数据存储和信息系统运行环境的能力。由于学校信息系统建设是根据需求分期建设,系统的运行依靠独立的服务器单独部署运行,无法实现集中统一管理,数据备份只能备份数据库及重要文件,无法实现系统镜像的备份。数据备份采用本机备份或者2台服务器之间互相备份,都是在同一机房进行,不满足等级保护异地备份要求。

基于上述情况,学校数据灾备系统设计采用CDP技术,利用超融合服务器搭建主集群,利用旧服务器搭建辅助集群,建立学校数据中心灾备系统,实现主集群和辅集群实时备份。构建数据中心异地灾备机制,防范数据中心机房到灾备机房环境故障风险及区域自然灾害风险。从中心机房到灾备备机房对系统数据(含数据库数据和文件系统数据)进行备份,以达到同城容灾的目的,可实现对物理机、VMware平台、超融合云平台的统一灾备能力。学院中心机房的核心交换机采用堆叠形式组网,确保数据的交换能力和冗余备份能力,核心交换机到灾备机房采用万兆全光网络,点到点直达存储设备,确保数据秒级传输,达到实时快速备份和恢复的作用。

在学校数据灾备系统设计中,首先要采用合理、高效、先进的远程数据复制技术来支持数据的异地备份,支持全量及增量的数据复制,综合考虑对带宽等资源的占用,避免对生产环境运行的影响;其次,异地备份应支持按照数据量及网络带宽灵活调整数据备份或远程数据复制的频率。异地备份的频率可以灵活配置,便于对不同级别应用系统按实际情况设置不同的备份频率,达到最优的容灾效果,数据容灾系统网络拓扑图如图1所示。

3.2  设计要点

3.2.1  应用级容灾

中心机房服务器主机与容灾主机规划在同IP网段,实现服务器主机数据实时同步至容灾主机。服务器主机发生软件、硬件故障,容灾主机自动接管业务。

3.2.2  数据级容灾

服务器主机与容灾主机规划在不同IP网段,实现服务器主机的数据实时同步至容灾主机。通过容灾环境恢复最新数据,或通过容灾环境应急恢复业务。实现物理机到虚拟机的P2V容灾、虚拟机到虚拟机的V2V容灾。

3.2.3  在超融合云平台创建虚拟机

部署容灾方案,实现物理机到超融合云平台的P2V本地/同城容灾,实现其他虚拟化平台到超融合云平台的V2V本地/同城容灾,保障学校数据安全和业务连续。

3.3  业务访问过程

正常情况下,用户通过域名访问DNS服务器,主数据中心上的虚拟机开机提供业务,备数据中心上的容灾备机关机,DNS服务器通过全局负载服务器的监控,得知主数据中心上的虚拟机可以访问,将域名解析为IP1,并通过地址转换访问到主数据中心的虚拟机。

容灾切换之后,主数据中心的虚拟机处于关机状态,备数据中心上的容灾备机开机并提供业务,DNS服务器通过全局负载服务器的监控,得知主數据中心上的虚拟机无法访问,备数据中心上的虚拟机可以访问,将域名解析为IP2,并通过地址转换访问到备数据中心的虚拟机。由于配置了地址转换,在容灾的切换前后,同一个业务在主、备数据中心无须修改IP。

4  CDP灾备实现的原理分析

4.1  CDP备份原理分析

CDP备份数据由RP日志文件和BP备份文件组成,备份实现原理主要为BP点和RP点的生成原理,如图2所示。

1)启动虚拟机时,同时开启业务(QEMU)和CDP功能(cdp_worker),并为该虚拟机开辟一块内存(默认2 GB),作为主业务和CDP模块的共享缓存区(shared buffer)。

2)CDP模块(cdp_worker)位于虚拟机的qcows2文件层,可直接下发备份指令,对qcow2文件进行备份形成全备和增备BP,首次开启CDP功能,需要进行一次全备生成基准点,后续根据设置的定期备份频率(小时级别),定期生成BP点;BP点以备份文件的形式存在CDP数据存储区。

3)采用旁路架构+IO分流技术,经过共享缓存区,实现从主业务异步复制IO到CDP日志存储区(IO仓库),以IO日志的形式存在;根据设置的IO日志间隔时间(RPO=

1 s/5 s),定期生成RP点,单独利用RP并不能够恢复数据,所有的RP均依赖于对应的BP。

4)对生成的BP点和RP点均标记上时间戳,便于故障时定位恢复点。

4.2  一致性备份

数据备份过程中,需要对多磁盘上存储数据做一致性检测,保证每个恢复点数据正确性和有效性,一致性CDP备份示意图如图3所示。下面就如何确保数据备份的一致性作以下说明:

1)如图3所示,CDP存储有3个磁盘,每个IO写入并形成id标识的RP点,3个磁盘上的id相同的RP点则认为属于同个一致性RP。

2)id为3的RP点在3个vdisk上都存在,因此RP3是一个有效的一致性RP,可以展现在页面上,用于恢复虚拟机。

3)id为6的RP在vdisk2中缺失了,因此RP6不是一個有效的一致性RP,不能展现在页面上,不能用于恢复虚拟机。

4.3  CDP恢复实现原理

当业务发生故障(病毒,误删除等)需要通过CDP备份文件进行虚拟机恢复时,可根据时间点查找对应备份文件,通过增量备份和IO仓库创新设计,支持快速浏览备份文件,实现文件级和业务级恢复,流程如图4所示。

如图所示:CDP备份文件包括3个BP备份文件(BP、BP1和BP2)和8个RP日志文件(RP1到RP8);当选择某个RP点进行恢复时,需要将目标恢复点之前的所有BP点和最近一个BP点至目标恢复点的所有RP点进行数据合并和业务恢复。以RP5进行业务恢复为例,关键步骤如下:

1)终端界面提出浏览14:00:20生成的IO日志(即RP5)的请求。

2)从qcow2备份文件中提取该恢复点之前的全部备份文件,即全量BP和增量BP1。

3)从IO仓库中提取从最近备份点至目标恢复点的所有RP点,即RP4和RP5。

4)将获取到相关备份文件和RP点文件进行合并,得到该恢复点的最终结果。

5)客户可通过找回文件恢复特定文档,或者直接恢复该时刻的整个虚拟机。

5  CDP快速恢复的应用

当业务系统出现故障不可用时,若开启CDP功能进行数据备份保护,此时通过查找备份文件恢复虚拟机到最近的业务正常运行点实现业务恢复。

备份恢复一般做法:一是迁移备份数据至运行位置;二是等待数据迁移完后,在运行位置拉起虚拟机恢复业务;此时如果业务数据量大,数据迁移时间长,导致业务拉起时间长,意味着业务恢复的RTO会很大。为此,对备份恢复功能进一步进行优化。

5.1  快速恢复原理

在满足一条限制条件的情况下,可以快速恢复虚拟机备份,仅需几分钟时间便可完成备份恢复并开机;通过先拉起虚拟机实现业务快速恢复,业务运行的同时迁移备份数据至目标存储的方式实现业务快速恢复上线。快速恢复原理如图5所示。

5.2  快速恢复步骤

5.2.1  快速拉起虚拟机运行业务

在业务恢复位置上新建空白镜像,QEMU进程会通过该空白镜像拉起虚拟机,此时业务可正常运行。如图恢复位置中的第一行,形成一个空白镜像。

5.2.2  业务读数据优先恢复位置

业务运行过程中,优先从恢复位置读取数据,如果恢复位置没有该数据,需要从备份文件池中将该位置数据迁移到恢复位置中,然后进行数据读取。如图恢复位置中的第二行,业务需要读取位置1的K和位置3的M数据。

5.2.3  业务写数据位置为恢复位置

业务运行过程中,虚拟机新产生的数据,则直接写入新镜像中。如图恢复位置中第三行和第四行,分别在位置3和位置1写入O和P。

5.2.4  备份数据不断从备份文件池迁移至恢复位置

在恢复虚拟机进行业务运行的同时,虚拟机QEMU进程中还会有一个默默在后台持续将备份恢复池的数据搬运到恢复位置上的虚拟机镜像中,我们称之为备份数据整理,数据整理完成后,该虚拟机恢复为普通虚拟机。如图恢复位置的第三行和第四行,在第三行状态时,QEMU发现恢复位置中的镜像文件中位置2和没有数据,此时将这位置2的数据从备份文件池迁移至恢复位置,当所有数据迁移完成后,如恢复位置的第四行状态,意味着虚拟机完全恢复,成为一个普通虚拟机。

快速恢复做到快速恢复业务的同时保证数据不会丢失。快速恢复首先通过在恢复位置新建空白镜像快速拉起虚拟机,实现业务快速恢复;其次优先恢复业务运行的热数据,在短时间内提高业务运行性能,然后以不影响主业务运行的速度迁移备份文件池中其他数据(冷数据)到恢复位置中。

5.3  CDP数据恢复注意事项

本次CDP数据灾备方案包含两部分:一是由计算虚拟化、网络虚拟化、存储虚拟化、硬件服务器搭建的云平台,主要用于业务系统的运行;二是由CDP持续数据保护,EDS分布式存储设备搭建的备份恢复。

因此,如超融合云平台数据丢失,可通过CDP方式立马进行数据恢复,整个恢复过程是将业务系统的虚拟机(包含操作系统、软件、应用程序、存储文件)全部恢复。但若现规划的云平台出现全部宕机,例如:地震、火灾等不可控因素。需要恢复至其他地方,或在其他地方进行业务拉起,保证业务不中断,需要在异地部署同样环境的云环境方可实现。我们可以用利旧的服务器及存储设备,将三台配置相同的两路服务器搭建一套计算虚拟化+外置存储方式的资源池,在发生主数据中心全部宕机时,核心业务系统会迁移至备数据中心,保障核心业务不宕机。

6  结  论

CDP技术是一种全新的容灾备份技术,CDP技术与超融合服务器平台有机结合,可以满足系统的镜像备份,可以回到任意时间节点的历史轨迹。CDP技术可以实现分层次恢复,大部分数据恢复在本地即可完成,具有独特的带宽优化功能,可以确保在网络带宽有限的情况下快速异地恢复。在学校的数据灾备系统设计过程中,发挥超融合服务器云平台的作用,合理利用现有的服务器,搭建超融合集群服务和辅助集群,通过万兆全光网络保障数据的全量和增量实时备份。在学校的灾备演练中,数据恢复用时少,数据没有丢失现象,达到预期效果。

参考文献:

[1] 钱涛.等保2.0背景下高职院校容灾备份技术的探究和实践 [J].中国信息化,2022(1):75-76+74.

[2] 张先哲,马晓.基于混合云的数据容灾备份方案研究 [J].网络安全技术与应用,2022(2):86-87.

[3] 李小林.基于CDP技术建设同城数据容灾中心——设计与实践 [J].中国信息化,2021(11):85-87+84.

[4] 陈刘忠,展亚南,张旭东.云平台容灾技术研究与实现 [J].网络安全技术与应用,2021(5):87-89.

[5] 陈波.基于CDP技术的灾备系统实践 [J].福建电脑,2018,34(6):142+162.

作者简介:林家全(1987—),男,汉族,贵州遵义人,讲师,网络信息中心副主任,本科,研究方向:大数据技术、网络技术。

收稿日期:2022-12-27