基于移动互联网的高效运维管理模式研究

2021-12-20 10:42姜东参扶湘典黄紫翎
中国水运 2021年11期

姜东参 扶湘典 黄紫翎

摘 要:三峡通航目前已经建设了调度系统、安检系统、远程申报系统、综合监管系统、CCTV系统、PTN系统等大量信息系统。随着新系统、新设备投入建设和使用,以及移动互联网的迅速发展,原有的运维管理模式不足以满足信息化水平的发展。对于如何优化设备运行维护方式,提高运维管理效率,成为当前形势下三峡通航信息化系统运维面临的实际问题。本文结合实际,在IT运维监管平台的基础上,结合局内各业务系统的现状,进行系统运维的功能分析和技术分析,就如何实现高效率的系统运维提供了经验和解决技术方案。

关键词:三峡通航;IT运维监管平台;系统运维管理

中图分类号:692           文献标识码:A            文章编号:1006—7973(2021)11-0047-03

1 三峡通航系统运维现状分析

按照“十三五”信息化发展的要求,三峡通航已经建成了IT运维监管平台和故障管理系统,在设备监控、故障管理方面发挥了重要的作用,监管对象主要包括调度系统、安检系统、CCTV系统、数据中心和网络系统的部分设备,但未能完全实现主动运维、精细运维的目标,距离现代化运维管理要求有一定的差距。随着新增业务系统的上线,现有的运维管理模式无法满足信息系统维护需求,主要表现在以下几个方面:

(1)三峡局新增业务系统较多,对新增的业务系统无法实现运维监测。

(2)IT运维管理平台的监控对设备的状态监控时能发挥较好的作用,但是对生产业务层面的监控较为薄弱,对一些重要的接口、服务无法做到实时监测状态。

(3)IT运维监管平台监管对象划分不清晰,指标设置不能完全满足精细运维的要求。

(4)故障申告系统具备故障申报记录和故障处理的信息录入功能,缺乏对故障的流程管理和故障反馈的评价。

这些问题将会导致故障发现不及时,影响系统的可用性。因此基于IT运维监管平台完善对相关业务的监管提升运维管理效率是非常有必要的。

2 提升运维效率的技术应用分析

2.1技术应用分析

现有的移动互联网技术具备覆盖范围广、数据通信容量大的优势,IT运维管理平台是三峡通航系统运维必备的系统,将他们融合起来,开发出适应新需求和发展的功能服务模块,是当前迅速实现要求有效的解决方案。

目前比较常用的有手机APP和企业微信两种方式。手机APP安装在移动终端上的软件,以实现特定的功能;企业微信是专业化办公管理工具,可以利用企业微信丰富的接口实现移动办公的需求和应用,对比两种技术,在开发难度、维护便捷性、交互性、网络安全等方面进行统一考量,企业微信方式相对比较适合故障告警信息在移动互联网客户端推送。

2.2系统功能需求分析

2.2.1故障告警

通过移动端接口和内部IT运维监管平台进行对接,系统产生故障后移动端自动推送信息给相应负责人员进行及时处理,实现故障告警提醒,需要对当前综合运维管理系统的监管对象和指标进行梳理,调整监管对象、优化性能监管指标,明确哪些设备属于哪个系统。按照系统类型,对设备进行详细分类与补全,将之前没有纳入IT运维监管平台的设备添加进去,弥补以往单一根据设备类型分类的不足,增加按照业务系统分类的分类方式,根据业务系统划分负责人,明确告警信息发送对象,同时,告警内容详细丰富,界面简明。

2.2.2 設备分类及指标优化

优化对设备状态监控,添加需要监控的设备状态,做到对各个系统以及通信信息设备做到全方位监控,优化不必要监控的状态,防止因为过于追求监控效果,导致监控项增加,占用过多系统资源,进行影响系统的运行。此前,受监控设备的分类比较单一,只按照设备类型分类,如操作系统,数据库,中同件,Web平台,虚拟化平台,网络设备,CCTV,光纤交换机,存储设备,动环及PTN等设备类型,没有明确该设备所属的系统,一种类型的设备可能会存在多个系统之中,这样系统产生故障并分派维修员时,容易造成不必要的麻烦。所以需要对受监管设备进行详细分类,按照设备类型以及所属业务系统分类,明确系统责任人,按照所属业务系统对设备进行分类,即GPS系统,数据中心系统,政务网站系统,保障系统,VTS系统,CCTV系统,网络系统、调度系统等。明确主机名,IP、业务系统、管理员以及位置。示例如表1:

同时需要对监控指标进行优化,此前根据不同的系统,用不同的监控方式。网络系统每三分钟 ping 一次,判断是否通断:业务系统需要在服务器上安装代理收集系统状态信息,然后根据设定的阑值判断是否发送告警信息。ping 间隔时间过短,代理监控内容过多,发送告警的指标与实际情况有出入。需要将 ping间隔时间改为十分钟,减少因为偶尔丢包而产生的误告警:去除不必要监控的指标类型,防止因为监控内容过多,对 CPU产生更多负荷:优化指标的阈值,根据有关标准,结合当前实际,优化告警的值,示例如表2:

2.2.3信息集中展示

将故障告警信息统一展示,对故障进行分级,一般警告通过界面集中展示,影响业务的警告通过平台发送至设备运维人员的移动端。

2.2.4 接口监控

将API监控采用shell脚本的方式进行实现。脚本放在监控服务器上,通过主监控服务器代理,定时执行shell脚本,采集API接口数据,并根据数据进行判断,如果不符合预期数据,则产生告警。

2.2.5报表统计

(1)故障汇总:按选定的时间段导出已经处理完成的故障。

(2)事件汇总:按选定的时间段导出已经处理完成的事件。

(3)统计分析:按选定的时间段对故障率、故障时间进行汇总分析。

(4)月报导出:将故障和事件按月导出,进行分类估计和汇总统计。

3 实际应用中的主要技术措施

3.1故障告警功能实现

在明确监管对象以及指标以后,确定各个系统的负责人,根据后台终端以及企业微信的不同特点,对告警信息进行处理,使数据适合在不同平台上展示。

3.2设备分类及指标的优化实现

根据需求,对设备进行分类,明确了监控的设备对象,在此基础上,优化设备监管指标。

3.3接口监控的实现

根据需求,明确了具体监控的接口,通过增加接口url地址,可以采集到对应接口的返回数据,当前通过访问接口地址监控所添加的接口状态,如果出现异常则进行告警。

4 结语

根据梳理三峡局信息系统目前主要的业务,分析设备运维的基本需求,在已有的IT运维监管平台上结合企业微信,完善设备分类,增加接口监控,使运维管理工作更加精准高效。此外,有些功能目前还需要和其他业务系统对接才能实现,有些功能还需要进一步提高和完善,让信息化为提高系统运维效率和安全提供更多的保障。

参考文献:

[1] 梅沁、蔡晶晶.基于ITM的电力信息系统智能监控管理的应用[B].江苏电机工程,1009-0665(2010)03-0063-04.

[2] 索燕.基于ITM的第二代支付系统运维监控平台建设[B].金融科技时代,2014(022)008.