人力资源和社会保障局双活数据中心容灾方案设计

2020-03-16 02:31张正欣

电子技术与软件工程 2020年24期

张正欣

（江苏省盐城市社会保障信息中心江苏省盐城市 224001）

1 引言

高可用性：数据集中意味着风险集中和响应集中。计算机软件和硬件出现意想不到的故障几乎是不可避免的，业务连续性和数据完整性中断对企业持续运营来说是致命的，而新一代数据中心的高可用性可以程度地减少业务中断对企业核心业务的影响。

融合：数据统一管理加大了业务维护复杂度，随着企业业务的无限拓展，数据中心IT 基础设施越来越密集，基础架构也将越来越复杂，当该架构达到一定规模后将难以扩展且输入成本也在持续增加，无法满足企业业务拓展的需要。这时有很多新的融合技术被越来越多地被应用于数据中心，例如LAN 和SAN 合并，计算和存储合并，网络和安全合并。

虚拟化：虚拟化是数据中心的常见功能，它让安装部署业务变得更加灵活，同时提高了业务连续性和设备使用效率，也使数据中心变得更加绿色并降低了总投资成本，随着服务器和存储虚拟化应用程序的日益普及，当前网络虚拟化技术也成为数据中心建设和规划的热点。

智能：随着下一代数据中心变得越来越复杂，仅依靠运维人员的个人能力进行日常管理和故障排除也变得越来越困难，如果发生错误将需要很长的时间来查找和解决问题，因此越来越多的新兴数据中心管理工具正被推广使用，使用这些工具可以直观地观看数据中心的运行情况，当发生系统错误后，可以快速找到并解决问题。

2 容灾定义

引起业务灾难的原因很多，灾难的定义有不同的说法，没有统一的理解。我们将灾难定义为影响系统正常运行的不可预测事件或不可预测的影响。灾难可影响数据中心的正常操作，以下是定义的五个灾难级别。

一级：攻击威胁。如果有人声称知道业务系统具有后门准备发动或发起病毒攻击，则可以视为受到攻击威胁。在这种情况下用户必须加强安全技术或管理手段以拦截攻击者。

二级：漏洞。数据数据中心系统存在技术或管理上的漏洞，且系统漏洞使入侵者获得敏感信息，则可视为漏洞引起的灾难。这种情况虽然不会影响数据系统，但仍然是企业或机构需要解决的问题。

三级：单个系统故障。单个系统故障脱机时间超出了几分钟或更长的时间，则可视为单个系统故障。脱机时间取决于对系统威胁的严重性，在这种情况下应立即将应用程序转移到本地备份系统，否则必须将系统从磁带还原到备份硬件上面。通常这些情况不会对业务运营产生重大影响，但是应尽快解决故障问题。

四级：单个致命错误或多个非致命错误。这种情况已经对业务运营产生了直接威胁，但数据中心仍在正常运行。可以还原到备用硬件或进行本地应用程序转移，应急响应的时间也变得非常重要。

五级：数据中心正在发生故障或已发生，如停电，间谍活动，恐怖活动和自然灾害都可以归为此类，唯一的选择是应用转移或使用磁带备份数据来重建数据中心，在此级别上实施时间过长将会导致生产设备长时间不能使用。

图1：灾难恢复示例图

图2：RTO 和RPO 关系示例图

图3：同城灾备中心例图

图4：异地灾备中心例图

3 容灾恢复定义

根据国际标准SHARE 78 的定义，从低到高有7 个级别的灾难恢复操作，取决于不同的投资成本和恢复时间。

第0 层：无异地数据。未构建信息存储和备份硬件平台，也未制定应急计划，数据仅在本地备份和还原。

第1 层：卡车运输。将必要的信息通过卡车运输的方式运送到异地进行存储，然后根据灾难恢复的特定需求有选择地构建备份平台，有制定应急计划，但异地备份事件不在计划内。

第2 层：卡车运输访问模式+热备份中心。基于第1 层，热备份站点设置在异地，站点上有主机系统，只需要通过数据备份介质恢复数据，当发生灾害时使用主机系统恢复数据，在这种情况下备份介质会被运送到异地，而运送需要花费时间，因此会丢失一天或一周的数据。

第3 层：电子链接。基于第2 层，使用光纤或通信线路将由本地备份软件创建的数据发送到异地备份，不需要任何传递工具，而且灾害恢复的速度会加快。

第4 层：在线数据库图像和日志。第4 层的灾害恢复是两个站点同时激活，管理彼此的备份数据，因此可以向两个方向进行备份操作，但接收方的硬件物理上必须与其他平台分离，这种情况下可以在两个站点之间共享工作负载。

第5 层：两中心两阶段确认。基于第4 层，第5 层管理在考虑满足更新请求之前选择的数据（即本地和远程数据库的实时更新数据）。第5 层更新了应用程序站点和备份站点的数据，恢复时间只有几分钟，例如使用专用的数据复制软件和硬件的使用。

第6 层：零数据丢失的远程磁盘镜像与自动切换。第6 层保证数据在保持数据丢失率为零的状态下自动地向备份站点传送，第6层被认为是灾难恢复的最高水平，在更新所有本地和远程数据的同时，我们可以利用多余的在线存储和完整的网络进行交换。

根据灾难恢复时间和数据恢复程度等不同的灾难恢复要求，将这七个灾难恢复备份模式分为三个级别。

（1）冷备份：灾难恢复系统不设置在与生产系统相同的运转环境中，不在备份系统中加载应用系统数据，在发生灾害的情况下，安装、设置必要的操作环境，使用数据备份介质复原应用数据，手动备份数据

优点：保护投资，降低通信成本，减少通信环境要求。

缺点：恢复时间通常是几天到一周，严重影响数据的完整性。

（2）预热备份：灾害恢复站点配备的基础设施环境与正式生产系统的环境配置一致。安装的应用程序系统会在灾难恢复站点定期备份数据。在发生灾害的情况下可以直接使用以往的备份数据。

优点：保护投资，降低通信成本。

缺点：恢复时间较长。

（3）热备份：灾难恢复系统实时在线与生产系统联动，数据实时同步。通过高速通信线路实时向灾害恢复系统发送数据。灾难发生后可以通过灾难恢复系统定期恢复生产系统上的数据。

优点：恢复时间通常从几分钟到几个小时都很短，数据完整性和一致性最高，数据丢失的可能性最小。

缺点：投资成本增高，对通信环境要求较高。

4 容灾恢复的技术指标

从理论上讲，构建灾难恢复系统的目的是防止由于意外数据丢失而导致系统服务中断。以下两个重要指标可以帮助评估灾难恢复系统对系统业务回报的有效性。

图1 从最左数起，是系统执行灾难恢复备份的时间，图1 的中间部分显示了由于灾难导致的数据丢失，图1 的右侧显示了数据服务恢复时间。 RPO（恢复点对象）表示灾难发生前的数据丢失量，RTO（恢复时间对象）表示发生灾难后系统的恢复时间。显然这两个指标的值越小越好。

图2 较好地反映了RTO 和RPO 的关系。

5 容灾系统的组成

与可持续业务运营相比，灾难恢复强调灾难发生时关键业务的响应和恢复能力。换句话说，通过尽可能最快，最全面的企业业务恢复操作，将灾难造成的损失降至最低。当然也不能保证不会有业务中断，实际上，灾难恢复系统的整个灾难恢复过程都将导致一段时间停机。

图5：两地三中示例图

图6：冷备模式灾备中心例图

图7：热备模式灾备中心例图

图8：双主灾备中心网络架构示例图

通常，提高系统可用性的任何努力都可以称为容灾，如主机集群本地灾难恢复：如果主机服务器出现故障并且无法正常运行，则另一台主机可以替换该主机继续工作。通常提到的灾难容灾，通常是指远程灾难容灾，远程灾难恢复可以理解为：不同行业的IT 系统必然有非常重要的部分（尤其是核心部分）组成，这被称为新中心，为新中心配备一个远程备份中心，并且在新中心内部实施了各种数据保护。无论采用哪种方法进行保护，在发生火灾，地震等突发性灾难的情况下，当新的中心瘫痪时，远程备份中心都可以接管生产系统并继续提供网络服务。

高可靠性计算环境能够保障数据中心中计算机系统硬件、软件和应用程序的单点故障不会影响整个数据中心的数据处理功能。

建设一个远程备份数据中心来应对注入因火灾，地震，停电等灾难引起的业务中断。

主数据中心在灾难恢复后，业务数据必须能够快速切换到主数据中心运行。

灾难备份中心业务系统应由服务器层、网络层和数据层三个部分组成。

由于中心的业务系统是由服务器层，网络层和数据层这三部分组成，为了保障系统的可用性和业务的连续性和去除单点故障，应从这三个不同的层面分别进行合理性设计，而整个容灾系统也是由这三个层面的保护措施组成的

6 数据容灾中心建设模式探析

从管理方式上看，人社单位具有明显的纵向特征，但就构建数据中心本身而言，为了确保业务系统和数据的高可用性，通常必须并行构建多个数据中心进行灾难恢复，以下从纵向和横向描述人力资源和社会保障局数据中心的建设。

6.1 数据中心纵向建设

通常，可以根据人社单位的规模来构建不同级别的数据中心，构建一个数据中心在很大程度上依赖于国家信息网络，数据安全问题也更加突出，数据中心的建立应基于诸如数据的本地化属性，根据数据量以及数据更新频率之类的因素来确定。可以根据需要构建最多3 个级别的数据中心。

总部数据中心；

区域/省级数据中心；

区/县级/数据中心。

三层数据中心网络相连接，实现实时数据交换和数据统一更新，确保数据的一致性，及时性，准确性和完整性并确保数据实时共享。

数据中心的垂直层次结构是为了更好地适应人社单位的管理模式，在这种分层配置模式下，集中管理的原则应优先考虑IT 应用系统的部署，确保系统集成和使用最佳软件。集中管理在总部，如果由于技术限制而无法实施集中管理，最好考虑使用分布式管理，集中管理和分散管理各有优缺点，因此需要根据实际情况进行选择。

集中管理：管理措施更完备，提供的支持更有有效，采购价格的性价比也更高；

分散管理：易于实施，满足分支机构的需求，能提供更快的支持。

6.2 数据中心横向建设

对于上述的三层数据中心垂直配置，为确保数据中心提供服务可靠性，应在每个数据中心考虑业务连续性和数据灾难恢复，因此应该为三层数据中心的每个级别考虑水平的多中心灾难恢复配置，目前灾难恢复中心有三种主要的建设模式。

图3 所示，同城双中心。生产中心和灾难恢复中心在同一城市，并且通常使用DWDM 或光纤互连，可以轻松地实现数据的同步镜像，确保数据完整性和零数据丢失，业务备份通常通过第2 层群集等技术完成。生产中心和灾难备份中心相对物理位置较近，实现数据的同步镜像比较容易，保证了数据的完整性。同时它也可以防止潜在的危险，例如火灾和建筑物损坏，但是较小的容灾半径使其无法应对战争，地震和洪水等隐患。

异地双中心：

图4 所示，异地双中心。生产中心和灾难恢复中心跨城域，距离通常为数百公里。同城互联使用高速专用线路，例如155 / 622M SDH，大的容灾半径防止了诸如地震，洪水和战争之类的隐患，但是由于生产中心和备份中心跨城域并且距离相对较长，因此当同步远程镜像时，事务处理效率太低，通信成本也很高，无法通过异步镜像或复制进行数据备份以保证零数据丢失。

图5 所示，两地三中心。是同城两中心和异地两中心的结合并继承了它们的优点。

6.3 数据中心业务容灾模式

将人社单位数据中心和灾备中心进行垂直和水平整合的构建模式中，为数据中心选择业务灾难恢复模型将直接影响数据中心的构建成本以及关键的评估指标恢复时间目标（RTO）和恢复点目标（RPO）。典型的业务灾难恢复模式包括冷备用，热备用和双活模式。

如图6 所示，冷备容灾。在冷备模式中，备份系统没有安装在与主系统相同或相似的操作环境中，并且应用系统数据未加载到备份系统中，发生灾害时，必须手动或自动安装，设置必要的操作环境，使用数据备份介质恢复应用数据，恢复孤立的数据。

优点：保护投资，降低通信成本和降低通信环境要求。

缺点：恢复时间长（通常超过几天），并且数据完整性和一致性差。

灾备等级：3 级。

如图7 所示，暖备/热备容灾。在这种模式下，备份系统和主系统的后台数据层通过高速通信线路将数据实时传输到备份系统，以使备份系统和生产系统的数据保持同步，并且还可以恢复备份系统的数据，在应用程序级别，备用系统的应用程序系统和业务网络通道处于待机状态。换句话说，应用程序系统和业务网络设备已打开电源，但未加载相关的配置文件。在发生灾难的情况下无需补充或仅需少量补充孤立数据，通过仅加载应用程序服务器和业务网络设备的配置文件，备份系统可以快速接管主系统的操作并恢复生产。

优点：恢复时间非常短，通常从几分钟到几个小时，数据完整性很好，而且数据丢失的可能性最小。缺点：大型设备投资，高通信成本，高通信环境要求，更复杂的常规运行和维护。灾难恢复级别：4 到5。

如图8 所示，双活容灾。数据中心采用双活动数据中心网络架构，可同时提供服务。数据中心的应用架构基本上是被划分为web层、应用服务器层和数据库层的多层应用体系结构。主模式在各层实现。Web 层通常不是基于状态连接，而是基于HTTP 连接，因此，在默认情况下，应用程序可以连接到任意的数据中心的Web 层。应用服务器层可以在非状态应用中实现主状态模式。数据库集群太长。太长距离将难以获得数据库访问时间和同步策略。

优点：恢复时间通常与最好的数据完整性一致，数据丢失和短短几十秒几分钟。

缺点：在软件和硬件设备上的大量投资，较高的通信成本和较高的通信环境要求。

灾难恢复级别：6 级。

7 结语

实现数据中心双活，不仅依赖于应用程序、操作系统、网络系统、存储系统的全方位双活架构设计，也要关注各系统模块之间的整体协同性，当设备故障需要自动切换时，各系统之间仲裁时间的设定将直接影响，双活数据中心架构遇到故障时能否正常切换。[1]面对复杂的数据中心双活架构，设计时应充分考虑细节，实践时需多维度测试，以保证数据中心双活架构的有效性。[1]