基于双活电网运行管理系统的可用度分析与应用∗

2019-07-10 08:17王海柱邓大为卢建刚闫训超
计算机与数字工程 2019年6期
关键词:单机可用性集群

王海柱 邓大为 卢建刚 周 波 闫训超

(1.广东电网有限责任公司电力调度控制中心 广州 510600)(2.南瑞集团公司(国网电力科学研究院) 南京 211106)

1 引言

电网运行管理系统(OMS)作为电网调度规范化、流程化和一体化管理的技术支撑与保障手段,是电力企业的基础系统之一。传统的OMS 系统采用主备用方式,正常情况下在主用系统中运行,发生故障时手工或自动切换到备用系统中运行,在一定程度上保障了电网调度业务连续性。近年来,随着电网负荷的快速增长,以及大区电网互联的逐步形成,电力企业对电网调度业务连续性的要求不断提高,需要新一代的一体化OMS 系统具备更高标准的可靠性和稳定性[1]。虚拟化、云计算等新兴技术的兴起,双活系统已成为大势所趋。相对于主备用方式,双活系统的两个系统均处于业务运行状态,在发生故障或灾难时能够进行业务无中断的自动切换,保证了数据的完整性、正确性、可靠性。同时双活系统避免了以往处于冷备状态的系统常年处于闲置状态而造成的浪费,提高了业务的服务能力[2~5]。本文将利用双活集群应用技术,提出一套基于存储、数据库和文件服务的OMS 双活方案,并运用马尔可夫模型对此双活方案进行可用度分析,通过实际试点应用,该方案的设计和实施能够达到数据安全存储和应用容灾的效果,可以完全保证电网调度业务的完整性、可用性和连续性。

2 OMS双活方案

OMS 系统双活方案需要涉及到网络、存储、数据库、文件、应用服务等技术层面的统筹考虑,并根据OMS 系统自身技术特点选取合适的双活集群应用技术进行周密设计,才能实现整个系统层面的双活[6~10]。

1)网络双活

网络系统是用户访问OMS 系统的通道,也是OMS 系统硬件环境内部各层级相互传输数据的桥梁。在“双活”模式下,外部访问利用负载均衡技术,实现流量在不同应用服务器集群之间的调度以及在单应用服务器集群内多服务器的负载分担。内部传输通过裸光纤线路实现,能够提供较高的链路质量和带宽。

2)存储双活

存储系统是OMS 系统存储各类数据的基础平台,使信息能在数据库服务器之间共享、存取或移动。存储双活利用存储虚拟化功能和数据镜像功能,将各种不同的存储系统在逻辑层面联合成为单一资源,使得数据存储的过程对OMS 系统保持透明。双活的存储设备均处于运行状态,共同承担数据的访问与读取工作,且互为备份,提高了整体服务能力和系统资源利用率。

3)数据库服务器双活

数据库服务器用来对结构化数据进行统一组织管理。数据库双活采用ORACLE 扩展的11G RAC技术,其中一台数据库服务器由于硬件或者软件原因宕机,则Oracle数据服务会自动切换到另外一台服务器的数据库服务,不会影响系统的正常使用,同时可以有一定的时间及时处理宕机的数据库服务,从而提高了数据库安全使用性,降低了系统的故障率。

4)文件服务器双活

文件服务器用来对非结构化数据进行统一组织管理。文件服务器双活采用Linux环境下的逻辑卷管理器(Logical Volume Manager,LVM)机制,实现双活存储之间的附件数据同步问题,保证数据不论从哪个存储写入都能被同步到另外一台存储上。

5)应用服务器双活

应用服务器是OMS 系统对外提供服务,对内访问数据的中间环节。应用服务器双活通过服务器集群技术结合中间件集群技术实现,在应用处理层面实现了完全冗余,使得服务能力成倍增加,业务连续性和稳定性得到了大大的提高。

3 OMS双活可用度分析

IT 系统的可用性(Availability)是衡量其服务水平的重要指标,主要用来反映IT 系统在执行任务的任意时刻能正常工作的概率[11~15]。本文利用可用性来评估OMS 双活系统从发生问题开始直到重新工作的能力。

OMS 系统的可用性基于OMS 系统的可靠性(MTTF)与可维护性(MTTR),是一个比率。其可用性公式如下:

其中,可靠性(MTTF)通常用系统平均故障时间(Mean Time To Failure)来表示,可维护性(MTTR)通常用系统平均修理时间(Mean Time To Repair)来表示。

在OMS双活环境下拥有主/冗余节点。如果其在相同时刻同时出现问题且无法正常工作,此时对于OMS 双活系统来说,则处于故障状态。利用Markov过程[10],可以设定:

1)针对OMS双活系统的每个组件均有工作/故障两种状态;

2)排除OMS 双活系统的每个组件设备之间的差异性;

3)针对OMS 双活系统的每个节点,其彼此可正常切换并能够承担对方业务;

4)时间区间为(t,t+Δt),各独立节点若出现问题,则可用λΔt表示当时概率。同时对问题出现时间进行分析,发现其符合指数分布特性;

5)时间区间为(t,t+Δt),各独立节点若出现恢复,则可用μΔt表示此时概率。同时对恢复出现时间进行分析,发现其符合指数分布特性;

6)λ(问题发生率)也属于常量,μ(问题恢复率)属于常量,η(节点切换成功率)属于常量;

7)关于出现问题与出现恢复的关系是彼此独立的,并且和另外的情况也彼此独立。

在OMS 单机系统的情况下,其状态机组成部分为日常运行状态(0)与发生问题状态(1)。用E={0 ,1} 表示总的状态集合。其中,W={0 } 表示单机系统运行情况;F={1} 表示单机系统出现问题情况。

依据概率论定理(全概率公式),推导出OMS单机系统的可用度线性方程组。

计算出:

则在单机环境下Markov 状态转移图如图2 所示。

图2 单机环境下Markov状态转移图

单机环境下,可用度A(t)的值为

在OMS 双活系统的情况下,其状态机组成部分包括0/1/2/3 等情况[11],其中“0”表示OMS 双活系统的所有节点处于工作模式;“1”表示OMS 双活系统的节点由于运行问题,彼此正常切换并承担对方业务;“2”表示OMS双活系统处于工作模式的节点数为l;“3”表示OMS 双活系统所有节点无不能工作。

OMS双活系统中用E={0 ,1,2,3} 表示总的状态集合。其中,W={0 ,2} 表示双活系统运行情况;F={1 ,3} 表示双活系统出现问题情况。则根据Markov状态转移图可见。

图3 双活环境下Markov状态转移图

计算得出OMS双活系统的可用度:

若假定节点能够彼此切换并承担对方业务,即

推导结果说明:在系统故障率方面,拥有主/冗余节点的双活系统故障率更小。或者说在系统瞬时可用度方面,拥有主/冗余节点的双活系统更优。

4 结语

随着大电网发展的需求和保障安全运行的压力,对OMS 系统的业务持续性服务能力提出了更高要求。传统的主备用数据中心的部署模式其前期建设成本与后期运维成本均比较可观,且备用数据中心只在灾难发生时才发挥作用,在一定程度上造成闲置资源的浪费。因此,在保障OMS 系统安全稳定可靠运行的前提下,如何实现系统建设与运维的降本增效成为一个值得研究的课题。近年来,随着云计算、虚拟化等新技术的飞速应用,“双活”系统已成为大势所趋。本文在研究双活集群应用技术的基础上,提出了新一代OMS 系统的双活方案。并运用马尔可夫模型对此双活方案的可用度进行推导分析,数据表明双活方案具有很高的可用度,能够保障OMS系统的安全、稳定运行的需求。

目前,采用双活模式的部署架构已在南方电网新一体化电网运行智能系统(OS2)省级主站OMS系统中得到很好的应用,通过全冗余、高可用的软硬件架构,实现高等级的数据可用性和业务连续性,彻底消除以往存在的单点故障风险,最大限度地保障了OMS 系统的可靠性及可用性。本方案的应用能够顺应时代发展的要求,对电网安全稳定运行具有重要的意义。

猜你喜欢
单机可用性集群
核电站DCS可用性测试应用研究
热连轧单机架粗轧机中间坯侧弯废钢成因及对策
一种单机式涡流探伤仪电性能校准装置
功能性新材料产业集群加速形成
机构知识库网站可用性评价指标的计量学分析
海上小型无人机集群的反制装备需求与应对之策研究
宇航通用单机订单式管理模式构建与实践
培育世界级汽车产业集群
云科学工作流中任务可完成性预测方法
勤快又呆萌的集群机器人