岛桥隧大型综合监控系统高可靠性的设计与实现

2018-03-22 01:31李周雨
电子技术与软件工程 2018年1期
关键词:冗余集群分布式

李周雨

综合监控系统是确保岛桥隧可靠安全运营的重要保障,因此系统的高可靠性在岛桥隧日常运行管理中就显的尤为重要。本文结合了服务分布式设计、主中心的集群设计、主备中心冗余设计、数据存储灾备设计等技术设计了一套高可靠性岛桥隧大型综合监控系统。该系统具有较高的自动化程度和可靠性,实现了岛桥隧的监控一体化,效果显著。

【关键词】分布式 集群 冗余 主备中心

1 前言

岛桥隧大型综合监控系统由通风、给排水、供配电、环境气象、交通信号、交通诱导、视频检测、照明监控、视频监控等20多个子系统组成。综合监控系统是确保岛桥隧可靠安全运营的重要保障,因此实现综合监控的高可靠性显得尤为重要,本文针对如何提高岛桥隧综合监控系统的可靠性进行了研究和探讨。

2 系统总体结构设计

本方案共设置两个中心(主中心、备中心)。主中心通过热备方式提高系统的可靠性,保证日常情况下,系统的监控都在主中心上实现;同时考虑到主中心整个系统遭到灾害性事故而整体停运时,备中心可以通过人工干预的方式启用系统实现监控,如图1所示。

3 系统冗余切换设计

本项目冗余设计主要包括应用服务分布式设计、主中心的集群设计、主备中心冗余设计、数据存储灾备。

3.1 应用服务分布式设计

本监控系统涉及的子系统多、设备种类多、监控信号点多达几十万点,因此设置了两组综合监控服务以分担负载,避免单台服务器负荷过大而影响系统性能。

本系统中供配电子系统和照明监控子系统点数规模非常大,故设置综合监控服务1,用来接入该两个子系统。综合监控服务2负责除其他系统的接入。

3.2 主中心集群设计

上述两组综合监控服务均采用主、备机的成对方式部署。系统冗余服务通过定期的心跳信号(系统心跳检测频率在200ms,心跳包内容:主备机彼此的问答信号、主机健康度评分,即各个关键进程状态)进行主备机的检测。心跳检测信号连续5次以上丢失,或者健康度评分满足切换条件,冗余系统将将视为主机状态异常,触发冗余切换动作。主备机之间的数据,由冗余服务从主机一侧向备机一侧操作实时数据库同步,确保两侧数据一致。

集群冗余切换将考虑两种异常情况下的切换策略设计:

(1)当各综合监控子系统的通讯链路出现异常,引发导致系统异常时,系统将通过心跳状态监测,传递的故障信息。系统将进行冗余切换,切换至备机开始尝试由备机的通讯链路尝试连接待各监控子系统。与设备通讯连接正常后,完成系统切换,主机采集服务停止工作,实时数据同步方向改为,从备机向主机开始同步。直至用户人工选择恢复主机后,系统才将恢复至初始主备机功能状态。

(2)当主机系统采集服务、数据服务、数据转储服务、报警服务异常且满足切换冗余切条件,或因主机硬件设备异常,引发导致系统异常时,系统将通过心跳状态监测,判断主机系统异常,进而触发冗余切换操作。

当人工选择恢复主备机运行状态后,备机移交采集和控制功能回归主机,同时开始从切换节点恢复备机运行期间所采集的实时数据库数据。并恢复相关心跳检测数据。

3.3 主备中心冗余实现设计

正常情况下,主中心和备中心的工作站都通过主中心节点的服务器进行信息采集和管理控制。如果主中心节点内出现某一服务器软硬件故障,那么可以自动进行热备硬件的切换,实现系统无扰动切换。如果主中心节点内出现两台服务器或者存储硬件故障,那么需要启动主备中心切换模式,切换到备用中心。

备中心作为灾备中心,正常情况下集成监控1和集成监控2服务器上的应用服务端不启动,磁盘阵列上的数据是通过远程数据镜像同步的方式,与主中心的磁盘阵列上数据保持一致。当采用设备故障切换模式时,须进行人工干预,先将主中心的综合监控服务器1和综合监控服务器2中的应用服务端关闭,再启动备中心的综合监控服务器1和综合监控服务器2中的应用服务端,待服务开启后,主中心和备中心的工作站上的客户端,通过核心交换机与备中心服务端进行通信,即可以进行工作。

3.4 数据存储灾备设计

在主中心和备中心均设置基于SAN 架构的数据存储系统。主中心和备中心配置的数据存储系统能够实现两地数据的实时同步。在正常情况下,两地同时存储数据,对于上层应用系统来说就像虚拟成一套存储一样使用;当某地系統出现故障时,另一地系统独立承担数据存储功能,故障恢复时,故障系统自动同步更新为最新数据。

4 结论

可靠性是系统工程,需要从多维度进行综合设计。本文将应用服务分布式设计、主中心的集群设计、主备中心冗余设计、数据存储灾备设计等技术应用到岛桥隧综合监控领域,极大的提升了综合监控系统的可靠性。

参考文献

[1]何小良,陈志远.地铁大型综合监控平台高可靠性设计研究[J].通讯世界,2016(15):263-264.

[2]雷涛,井鹏程.基于WMI的计算机监控系统的设计与实现[J].计算机技术与发展,2010,20(12):232-235,239.

[3]孙怀义.冗余设计技术与可靠性关系研究[J].仪器仪表学报,2007,28(11):2089-2090.

作者单位

上海宝信软件股份有限公司 上海市 201203

猜你喜欢
冗余集群分布式
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL