机场业务智慧运维监控系统设计与实现

2024-01-27 16:44穆浩泽陶欣王晓辉王健刘凤陵刘青刘晓疆
电脑知识与技术 2023年36期

穆浩泽 陶欣 王晓辉 王健 刘凤陵 刘青 刘晓疆

摘要:随着国内民航业的迅猛发展,为应对日益提高的业务量和运营管理要求,机场业务系统的数量和复杂度呈爆炸式增长,系统的运维管理压力剧增,传统的运维方式已无法满足当前的运维需求。本文论述了针对民航业务的智能运维监控系统的设计及实现,通过对机场各业务系统运行产生的各类指标、日志、链路数据进行收集、融合、统计和分析,结合运用自动化数据采集、大数据存储、云计算、人工智能算法等热门技术,实现对机场各业务系统全方位、多层次、全流程的智能化监控与运维支撑,提供实时监控、事前预警、事中辅助、事后追溯的辅助运维手段,提升运维工作效率,降低整体IT运维服务成本。

关键词:运维监控;人工智能算法;事前预警;事中辅助

中图分类号:TP311.1    文献标识码:A

文章编号:1009-3044(2023)36-0087-04

开放科学(资源服务)标识码(OSID)

0 引言

民航业作为现代交通运输的重要组成部分,直接关乎人民出行和国家经济发展。机场各业务系统是保障民航业有序、高效、安全运行的基础,因此保障机场各业务系统的稳定运行是重中之重[1-2]。

随着国内民航业的迅猛发展,我国机场尤其是大型机场的运量逐年递增,在带来可观经济效益和显著社会效益的同时,超大型机场由于航班时刻编排紧密,机场资源长期饱和,系统、设备长时间满负荷甚至超负荷运转,加之接近使用年限,故障率开始增多,机场运行的各类系统和设备的故障问题开始凸显,传统的运维方式难以满足机场安全生产要求,主要表现在:

1) 資产管理混乱,缺少对业务系统、设备、软件、基础设施等资产进行集中、规范管理的手段。

2) 监控覆盖度低,部分业务系统未采取监控措施,或仅针对本系统进行零散监控,缺少集中、全面的监控手段。

3) 故障难预警,缺少故障预警机制,故障发生率高。

4) 故障处置难,缺少故障处置辅助手段,出现故障依赖特定技术人员人工排查,过程复杂且耗时长。

5) 巡检任务重,缺少自动化巡检手段,依靠人力巡检,工作量巨大且易遗漏、出错。

6) 运维管理信息化程度低,运维任务依靠人工线下沟通和纸质记录方式,人员协同度低、任务闭环难、流程追溯难。

针对以上问题,机场业务智慧运维监控系统提供完备的解决方案,可以提高运维工作效率,降低服务成本,对机场的安全运行具有十分重要的意义。

1整体架构研究与设计

系统自下而上划分为监控资源层、数据采集层、业务能力层、深化应用层四个层级。

监控资源层为纳入系统监控的目标资源,包含基础设施[3]、硬件设备、操作系统、组件服务、业务应用、业务系统等多类监控目标,针对监控目标类型定义监控对象模型,由资产中心统一管理。

数据采集层负责对监控目标运行相关数据进行采集,如指标、日志、链路、行为、异常、业务数据等,通过多种接入方式将监控数据汇聚至平台进行统一存储及进一步加工、分析,作为业务能力层的数据基础。

业务能力层按运维业务领域划分为资产中心、监控中心、告警中心、运维中心、数据中心等五个中心,提供运维监控系统核心业务能力。

该系统以资源为核心、监控为基础、流程为导向、客户为中心,打造一套机场特色的智慧IT运维管理平台,为机场注入全面的IT资产管理能力、资产数据采集与监控能力、主动故障预警能力、智能化的故障与风险分析能力、全生命周期的运维流程信息化能力,以下将从资产中心、监控中心、告警中心、运维中心等核心能力维度分别论述。

1)资产中心

资产中心负责对机场资产进行统一建模与实例管理,包括资产的全生命周期管理及资产间的逻辑、物理关系,构建一套统一、权威的资产数据源。

2)监控中心

监控中心负责管理监控目标的监控模型,并通过统一采集、统一管理、统一视图、统一分析,将机场所有业务系统及相关资源纳入监控,并提供统一、多维的监控视图,帮助运维人员随时随地掌握应用和资源的健康状态,保障业务稳定安全运行。

3)告警中心

告警中心负责管理监控目标的告警模型,基于监控数据进行告警模型分析,推送告警通知并进行闭环管理。支持多种数据源的监控数据分析与静态规则、动态规则预警模型的灵活设定,并提供多种通知渠道实现预警及时通知,帮助运维人员提前预知问题,从而规避故障的发生。

4)运维中心

运维中心负责日常运维工作,如运维任务工单管理、值班管理、交接班管理、系统自动巡检等。系统对运维日常工作进行信息化管理,提高了工作效率,规范了管理流程。

5)数据中心

数据中心是系统所有数据的管理中心,汇聚监控、告警、运维业务等全量数据,提供集中治理、关联分析、共享交换等能力。针对监控、告警、运维业务产生的海量数据,系统提供多样化的数据存储方案,同时对数据质量和标准进行把控,保证数据的标准化及权威性。基于海量数据,从多维度进行关联分析,提取深层价值,应用于运营管理决策支撑。支持数据共享,提供接口、文件、报表等多种途径的共享交换方式,为上层应用和各级用户提供灵活、高效、安全的数据支撑。

2 关键技术研究与设计

2.1多源监控数据采集

系统集成prometheus、zabbix[4]、elk、skywalking等现有监控平台,利用其数据采集能力,并结合自研探针、自定义协议、Webhook上报等方式,实现对业务系统、应用服务、中间件、操作系统、硬件设备[5]、基础设施等资源的运行数据进行全面的采集汇聚[6]。其整体流程如图2:

监控中心针对资产实例定义监控模型。采集平台从监控中心拉取监控模型,针对监控模型生成各类监控工具的监控配置,同步给监控工具。各类监控工具按照监控配置执行监控数据采集任务,去监控目标终端采集监控数据,返回采集平台。采集平台接收监控工具采集的数据,进行汇聚,存储入数据中心,用于监控呈现或后续应用。

1)自研探针

自研探针分前端探针和后端探针两类,前端探针包括Web端SDK、Android端SDK、IOS端SDK、JavaFx端SDK、.Net端SDK5类,分别适配不同语言、平台下的前端应用,接入方式为侵入式,须在代码开发阶段引入探针SDK,SDK将自动采集客户端页面性能、前端页面异常、用户行为等数据,上传至监控服务端;后端探针主要针对Java语言程序,接入方式为无侵入性,在Java程序启动时以java-agent形式挂载探针,agent将自动采集Java程序内的线程、线程池、内存用量、CPU用量等数据,上传至监控服务端,服务端支持通过agent对Java进程执行特定的操作,如线程栈转储、堆内存转储等,流程如图3:

2)自定义协议

针对摄像头、门禁、传感器等现有监控平台无法接入的设备,采用自定义协议的方式进行数据采集,系统支持常见协议的定义与扩展,如SNMP、ICMP、TCP/UDP等,由采集平台向监控目标发起相应的协议请求,解析返回数据,清洗后存入数据中心。

3)Webhook

针对已有监控系统,本系统支持外部监控数据的接入。支持自定义Webhook接口,外部监控系统按其数据格式定义上传数据参数,本系统自动生成Webhook接口,提供数据接收服务。

2.2智能故障自愈控制

系统具备灵活的告警自愈能力,针对服务级别的告警系统将定时自巡检,实时探测服务的最新状态,并自动恢复;针对故障级别或来电上报的告警,此类需要人工确认事件的影响范围后再处理的告警,系统支持通过配置的形式设置告警恢复周期和恢复方式,以便运维人员确认告警的影响。

在运维监控系统的告警集成中,也可以通过配置告警恢复规则,当告警内容中某个字段的值满足条件时,视为恢复告警。根据该告警的其他字段的内容寻找对应的告警进行恢复。

2.3 智能呼叫中心和一体化事件管理

有别于传统运维模式下工单管理存在的派单效率低,工作过程不透明问题,智慧运维监控系统可以采用来电弹屏[7]、工作流、智能派工算法等技术,实现IT事件工单的全流程管理和可視化分析,覆盖从异常事件的发生到归档的全生命周期。

1)来电弹屏技术

通过在运维监控系统中集成呼叫中心,基于websocket和sip协议与呼叫中心服务器进行交互,结合业务系统中预存的用户数据,实现用户来电快速获取客户个人信息和所在位置,帮助运维人员快速创建工单。

2)工作流引擎

工作流是实现运维事件管理的先决条件,有效的事件管理计划是一个端到端的处理流程,workflow引擎的集成,可以帮助运维监控平台具备个性化定制工单处理流程的能力,通过模板化定制多个不同的工单类型,覆盖部门、工种和派单流转方式,能够保证系统功能和工单模板与负责部门精确匹配,从本质上带来服务效率的提升。

3)自动派工算法

运维监控系统具备自动派工的能力,客户派单人员可按照问题的紧急程度,快速对工单进行分级处理,以便更好地调配人力资源和有针对性地执行任务,系统可以根据故障问题的需求和优先级,自动地将工单请求分配给最适合的运维人员,同时检索故障案例库,推荐最合适的解决方案,减少人工判断和操作,提升整体工单流转的效率。

2.4 一键生成巡检报告

运维日常的设备和系统巡检皆人工或者半自动化的方式进行,每次例行巡检往往需要专人去登录相关设备,手动输入巡检指令,根据命令的执行结果手动捕获关键信息,将结果记录到巡视本中,设备多的情况下往往重复上述工作,耗时长且不利于巡检报告的流转。

运维监控系统提供了自动化的巡检技术[8],对10+种型号300多个设备进行巡检,覆盖常见的10项指标,每日巡检3次,单次巡检耗时由1h+,减少到20min;针对6大平台200+主机的20+指标进行应用巡检,单应用单次巡检耗时由45min缩短到5min。

1)设定巡检规则和计划

系统结合promtheus、zabbix等开源监控工具,基于metric级别的监控指标,通过可视化的方式,提供巡检规则的配置和启用,支持PQL语法格式。巡检规则的配置是系统实现自动化巡检的前提条件,巡检规则的内容包含巡检项、阈值、通过条件、PSQL语句等,完整的配置结束后,系统会进行语法格式的转换,以兼容监控工具配置文件的格式,对异常配置会进行实时的提醒。

2)一键实施巡检

巡检人员根据设定的巡检计划,执行巡检任务,业务后台将通过HTTP API的形式进行监控接口的访问和巡检结果集的抓取,并对json返回值进行格式化重新封装,对巡检结果结合巡检规则进行自动分析和失败判定,如上述流程图所示,最终将巡检结果反馈给前端运维人员。

3)分析巡检报告并采取措施

运维监控系统会自动上传采集到的数据,并生成相应的PDF报告。对于采集到的数据和报告,管理人员进行分析,并根据分析结果采取相应的措施。这可以包括设备维护、故障修复或更换等,确认之后进行电子签名上传,最终完成整个巡检过程的闭环。

3 系统开发与成效

系统部分核心业务包含告警大屏,一键巡检等。

1)告警大屏

告警大屏以中型机场IT规模为例,报警及时,可以快速接收故障通知或提前预警,可实现300+服务器的运行态势监测;实现单服务器200+指标项的数据抓取,500+类型的告警实时监控。

2)一键巡检

自动巡检按照运维人员日巡检10个系统30台服务器,巡检2次为例,通过系统的自动化巡检导出报告,替代人工巡检。原来每个系统巡检5分钟,采用工具巡检,巡检时间约为10s,效率提升50倍。

通过本系统的应用案例统计,上线本系统,能够减少90%以上的人工运维工作量;80%以上的故障可以通过预警提前规避;报警准确率、告警响应率均为100%,故障处理时间降低80%。初步计算可以节约客服处工作人员2人、区域内巡视4人、故障处理员2人,每天8人,三班倒共计节约24人,再加上正常休假等情况可节约27~30人,节约大量人力成本,极大提升IT运维效率。

4 结束语

本项目研究的机场业务运维监控系统是集成一体的平台化产品,是集预警告警、故障处置和运维体系管理于一体的一站式管控平台,实现多维度数据共享,全流程高度协同,业务流闭环管控,打造面向智慧机场的专业化运维平台,经过在青岛胶东机场和乌鲁木齐机场投产验证,并取得了较好的效果,主要表现在:①资产可视化,可以快速查看资产当前使用情况。②能辅助定位故障,便于快速排查故障。③实现工单闭环,提升运维管理能力。④能集中监控、巡检系统,减少运维工作量。综上,机场业务智慧运维监控系统能极大提高机场运维效率及质量。

参考文献:

[1] 王汉宸.关于机场运维设备的智能在线监测探讨[J].机场与航班,2019(14):77-78.

[2] 梁毅.大型机场运维管理模式优化与应用[J].民航管理,2017(11):65-67.

[3] 韩荣飞.大兴机场数字化运维平台IT运维监控管理体系研究报告[J].中国航班,2022(34):12-14.

[4] 陈颖.基于ZABBIX的空管数据中心运维监控系统[J].科学与生活,2021(17):23-25.

[5] 韩嘉骝.机场智能化设备的运维管理[J].中国航班,2021(16):35-36.

[6] 顾佳欢.聚焦:H机场空管设备运维管理系统建设方案[J].机场与航班,2021(1):12-23.

[7] 曹阳.机场综合运维管理系统设计与实现[J].微电子学,2020,50(4):24-26.

[8] 曾莹.信息技术在机场运维管理中的应用[J].信息技术与信息化,2020(3):55-56.

【通联编辑:梁书】