虚拟化技术在计量检定信息管理系统容灾恢复中的研究与应用

2015-06-09 06:39刘羿彤
计量技术 2015年10期
关键词:容灾备份虚拟化

张 明 李 丽 智 峰 刘羿彤

(中国计量科学研究院信息中心,北京 100029)



虚拟化技术在计量检定信息管理系统容灾恢复中的研究与应用

张 明 李 丽 智 峰 刘羿彤

(中国计量科学研究院信息中心,北京 100029)

随着信息技术在量值传递体系中的不断深入应用,计量检定信息管理系统的应用及数据安全成了量传体系能否顺利开展的关键因素。在互联网环境下,来自网络的危险是无法预测的,一旦支撑系统运行的软硬件设备出现异常,整套系统将无法运转。出于计量检定信息管理系统的高可靠性要求考虑,并结合实际业务情况进行分析研究,以虚拟化技术为基础,在单一物理主机中虚拟出可同时运行的多台虚拟服务器,结合Replication and High Availability应用可用性保护解决方案,提出了一种可实现对系统应用及数据快速恢复的新方式,保障了量值传递的安全进行。

虚拟化;量值传递;容灾恢复

0 引言

计量检定工作越来越依靠信息系统来处理关键业务流程,计量检定信息管理系统无论是在院内,还是与外部合作伙伴交互均是如此。该系统的完整性及其提供业务连续性的能力至关重要[1]。发生可用性或信息完整性受影响的每一分钟都会直接导致无法挽回的经济损失,意外的灾难、服务器停机、平台迁移和过时信息都是必须解决的威胁因素,信息流的中断会对计量检定业务造成沉重的打击[2]。

为了保证业务系统的连续运行,传统上都会配置相应的容灾恢复方案以保证意外情况发生后对系统进行恢复。但是传统方法普遍存在恢复时间长、时效低、恢复不完整等问题,备份服务器一般都与实际服务器在数量和质量上保持一致,在经济性和节能性上有较大缺陷。下面,将介绍一种新的容灾恢复方式,以单一物理主机中虚拟出可同时运行的多台虚拟服务器的虚拟化方法为基础,结合Replication and High Availability应用可用性保护解决方案(以下简称RHA),可实现对系统应用及数据快速、准确地恢复,从而保障了量值传递的安全进行。

1 需求分析及研究

1.1 计量检定信息管理系统及数据特征

本业务系统由应用系统及数据库两大部分构成,应用系统由Browser/Server(浏览器/服务器模式,以下简称BS)和Client/Server(客户端/服务器模式,以下简称CS)两种架构组成,数据库统一采用SQL Server[3]。

1.1.1 应用系统特征

为了保证接待大厅内工作人员可高效地操作系统,故接待、客服、证书打印及财务人员使用CS架构程序,并且业务大厅采用与院区局域网隔离的专网直接与数据库相连。为了保证检定人员可以不受地域限制地使用本系统,故使用BS架构设计我院业务能力维护系统及检定测试系统。

1.1.2 数据库特征

支撑业务系统的数据库,数据类型多样,我院现有国家计量基准127项,标准258项,有证标准物质1062种(一级354种,二级708种),国际计量局(BIPM)公布的国际互认的校准和测量能力1011项,需要动态管理这些业务能力相关的大量文档及图形文件。

此外,本系统数据增长迅速,自上线以来,每年都有十几万份证书生成,仅仅证书数据每年增长量就约50G。

1.2 现有网络环境特征

目前系统由2台IIS服务器和3台数据库服务器构成,所有机器均配置双网卡分别连接至不同网段。网卡1进行各服务器间内部通信,为万兆网卡,网卡2进行与局域网用户数据交互。和平里院区与昌平院区内均为千兆局域网并已部署流量控制系统,两院区之间有一条专线进行连接。

2 实现方案

基于以上的需求分析,我们考虑采用ARCserve公司RHA应用可用性保护解决方案对计量检定信息管理系统的数据库及应用系统加以保护[4]。核心应用持续性保护拓扑如图1所示。

图1 核心服务器应用持续性保护拓扑图

采用ARCserve RHA实现对SQL/IIS数据文件的实时复制,保证数据的完整性及灾难后的快速重建。同时采用 Assured Recovery对备用主机的数据进行定期的自动测试,以确保数据丢失后得到快速、可靠的故障恢复。为确保应用系统时时刻刻的可靠运转,我们在方案中设计了实时保护系统。由于现有系统中有5台Windows服务器,其中三台运行MS SQL数据库,采用针对所有服务器进行1对1数据复制以及高可用的保护。出于成本及恢复效率两方面的考虑,五台服务器的备机通过本地虚拟服务器主机操作系统window server 2012数据中心版自带的hyper-V虚拟化技术实现的虚拟服务器来实现。虚拟出的五台虚拟服务器对主关键服务器做数据实时的数据保护,并将所有应用数据传送给异地容灾中心。同时,部署一台服务器作为备份服务器,对上述5台服务器中的所有数据进行集中备份[5]。

为确保系统在遇到灾难性破坏后能够得到恢复,我们在处于昌平院区的异地设置一台服务器作为灾备服务器,它的设置方式与本地虚拟服务器完全相同。在此远程虚拟服务器中启动5台虚拟机,与主应用服务器的5台服务器做一一对应实时复制。当主机房主应用服务器和虚拟服务器都出现故障时,此灾备服务器才会接管中心机房的服务器工作,保证业务的不间断。

ARCserve RHA实时对实际在用的业务系统及数据库中的被保护信息与虚拟机中的虚拟系统进行对比,一旦发生对比两部分内容校验不通过的情况,则在用系统将被挂起,由虚拟机中的备份系统接管业务。接管完成之后,RHA软件将继续对本地虚拟机及异地虚拟机进行对比,倘若此校验再次不通过,将把虚拟机中的系统挂起,由异地备份系统接管业务。待在用系统被修复,重新接入网络之后,灾难恢复系统中的本地及异地系统都将挂起,并将主用系统宕机过程中发生的数据变更自动同步至主用系统,最终保证三地数据统一。最终切换回主用系统主宰应用,两地备份系统恢复至待用状态。

采用的完整系统方案独立于应用程序,可以将整个物理服务器所有系统状态信息,传送到支持活动虚拟机服务器的操作系统的虚拟副本服务器上。来自物理主机的数据未被复制到物理副本主机,而是复制到存储在虚拟机上的虚拟硬盘(VHD)文件上。该虚拟服务器机运行在虚拟平台主机的Hyper-V上,并被配置有ARCserve RHA Engine。当主服务器发生故障,需要切换时,物理主机将被禁用,新的虚拟机在虚拟平台主机上被创建,VHD文件被挂接为磁盘。启动新的虚拟机,部署集成服务[6],对应关系如图2所示。

图2 虚拟机与物理主机对应关系

ARCserve RHA是在Replication平台的基础上构建的,该平台保留了完整的数据库和应用服务器的全面备份功能。这些同步的服务器既可分布于本地,也可位于昌平院区,使实时复制在局域网上完成。如果由于意外的故障或维护的原因而导致服务器宕机,则由一个同步拷贝自动、即时地联机,保持高可用性,无需任何人为介入。

综合连续数据负载技术,当主服务器因为某种原因不可用时,如:硬盘故障,SQL数据库服务不可用等,故障切换被触发,备份服务器被激活保证服务的不间断,实现系统最高的可用性。ARCserve RHA监视所有可能引起服务中断的事件,包括主生产服务器整机的故障、数据库服务或者邮件服务器的故障,命令或者初始化失败等等。由于主机与备机同处于同一局域网内,可以进行IP切换,即主机与备机的IP地址设置为相同的,保证故障切换对用户透明,不受任何影响。

3 系统容灾性能测试

完成系统部署之后,各个服务器之间有一个较长的数据同步过程,在此过程中,物理主机与各虚拟机的CPU占有率、内存占有率及网络带宽均处于一个较正常情况下略高的水平,但未超过80%这一警戒线,各实际业务使用流畅度及正确率并未受到影响[7]。待同步过程结束之后,各服务器及网络设备各项运行指标逐渐恢复到正常水平,此同步过程大约持续了17个小时,其中大部分为非工作时间,对现有系统正常运行无任何影响。

以下从系统发生故障后各种情况切换过程以及切换过程中网络带宽占用两方面,详细介绍使用效果。

3.1 故障切换

在模拟测试环境中,通过以下几种测试用例对系统的容灾性能进行了测试。

3.1.1 物理IIS服务器系统故障

通过停止物理服务器中IIS服务的方式模拟此种情况发生。用户对业务系统的访问会显示无法连接,此时备份虚拟机中的IIS服务将接管此项服务。经过约3秒钟的系统中断,业务系统访问恢复,为可接受范围内的恢复时间目标(以下简称RTO)及恢复点目标(以下简称RPO)[8]。

IIS服务恢复之后,用户对业务系统的访问不受影响,无缝切换回物理主机支撑业务系统运行。

3.1.2 物理IIS服务器网络中断

通过禁用物理服务器网卡模拟此种情况发生。用户对业务系统的访问会显示无法连接,此时备份虚拟IIS服务将接管此项服务。经过约2秒钟的系统中断,业务系统访问恢复,为可接受范围内的RTO及RPO。

恢复网卡正常运行之后,用户对业务系统的访问不受影响,无缝切换回物理主机支撑业务系统运行。

3.1.3 物理SQLServer服务器故障

通过停止物理服务器SQL服务的方式模拟此种情况发生。用户对业务系统的访问会显示无返回数据,此时备份虚拟IIS服务将接管此项服务。经过约5秒钟的系统中断,业务系统访问恢复,为可接受范围内的RTO及RPO。

恢复物理主机SQL服务正常运行之后,用户对业务系统的访问不受影响,无缝切换回物理主机支撑业务系统运行。同时,通过对比物理主机与虚拟备份机中数据库表格中的新增数据,发现主备机之间数据无差异,受损期间数据已经通过软件同步回正常状态。

3.1.4 物理SQL Server服务器网络中断

通过禁用物理SQL服务器网卡模拟此种情况发生。用户对业务系统的访问会显示无返回数据,此时备份虚拟IIS服务将接管此项服务。经过约2秒钟的系统中断,业务系统访问恢复,为可接受范围内的RTO及RPO。

恢复网卡正常运行之后,用户对业务系统的访问不受影响,无缝切换回物理主机支撑业务系统运行。同时,通过对比物理主机与虚拟备份机中数据库表格中的新增数据,发现主备机之间数据无差异,受损期间数据已经通过软件同步回正常状态。

3.1.5 备份虚拟IIS服务器系统故障及网络中断

通过停止虚拟备份服务器IIS服务及禁用网卡的方式模拟此种情况。用户对系统访问无任何影响。在停止IIS服务之后对发布文件进行删除,故障恢复之后,经过约10分钟,虚拟备份服务器中被删除文件得到恢复,可继续为系统提供保障。

3.1.6 备份虚拟SQL Server服务器系统故障及网络中断

通过停止虚拟备份服务器SQL Server服务及禁用网卡的方式模拟此种情况。用户对系统访问无任何影响。在停止SQL服务之后对数据库文件进行删除,故障恢复之后,经过约2小时,虚拟备份服务器中被删除文件得到恢复,可继续为系统提供保障。恢复期间,物理主机及虚拟备份机CPU占有率出现偏高的现象。

3.2 网络带宽占用

通过流量监控软件观察,在故障情况发生之后的恢复过程中,网络带宽占有率会稍有偏高,如图3所示。同步完成之后,网络流量将恢复到一个平稳的状态,如图4所示。各种情况所占用的网络带宽均在可接受范围之内。

图3 故障恢复过程网络占有率

图4 平稳状态网络占有率

综合上述测试用例的结果及网络带宽占用情况可以看出,本文设计的容灾恢复方案可以满足实际应用的需求。由于运行5台虚拟机的服务器采用了较高配置,故分配给各虚拟机的硬件资源都可以与对应的实际在用物理主机相匹配。经过极端试验测试,启动三台虚拟机接管实际系统的情况可以保证业务系统的基本流程运行,但是启动四台虚拟机接管实际系统后,卡顿的情况发生几率明显增加。由于三台实际系统主机同时出现故障的情况极小,所以可以得出本系统可以满足设计要求的结论。

4 结束语

通过研究先进的虚拟化技术及热备技术,将它们与计量检定信息管理系统的实际情况相融合,完成了本次研究。通过一段时间的运行,未发生长时间系统访问中断的情况,保证了系统的高可用性和高可靠性。经过一段实际的观测,发现虚拟化技术不仅仅节约了服务器购置的经济成本,而且提高了机房可用空间,大大降低了系统运行能耗。

此外,与传统的采用物理主机作为系统备机相比,虚拟主机接管系统的速度明显比传统方式要高很多,可更有效的保证系统的高可用性。并且可用根据运行经验,灵活为虚拟机划分有效物理资源,可为承担高负载的虚拟机提供更高的处理能力,为承担低负载的物理机减少资源划分,进一步提高管理效率。

[1] Liu Yitong,Li li,Zhang Ming. Effectiveness evaluaction of information management system based on modified normal cloud model[C].Information technology applications in industry I,2013:411-414

[2] 刘羿彤,李丽,张明.计量管理软件系统建设及其安全性分析[J].中国计量,2011(3):103-104

[3] 智峰,张明,韩超,钱振宇.计量业务网络升级工程实施及安全性研究[J].计量技术,2014(10):72-74

[4] 王德军,王丽娜.容灾系统研究[J].计算机工程,2005,31(6):43-45

[5] 王吉,包卫东,朱晓敏.虚拟化云平台中实时任务容错调度算法研究[J].通信学报,2014,35(10):171-180

[6] 项国富,金海,邹德清,陈学广.基于虚拟化的安全监控[J].软件学报,2012,23(8):2173-2187

[7] 姚文斌,王帅元.基于虚拟化的容灾系统任务关键性判定方法[J].哈尔滨工程大学学报,2009,30(11):1256-1260

[8] GB/T 20988.2007 信息安全技术信息系统灾难恢复规范

10.3969/j.issn.1000-0771.2015.10.07

猜你喜欢
容灾备份虚拟化
“备份”25年:邓清明圆梦
创建vSphere 备份任务
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
虚拟化技术在计算机技术创造中的应用
关于建筑企业容灾备份系统方案的探讨
基于中兴软交换的电力通信网络容灾系统建设
旧瓶装新酒天宫二号从备份变实验室
基于数据容灾技术在企业信息系统中的应用研究
爱立信HDBSC容灾方案的研究