新冠肺炎疫情防控态势下的医院智慧运维监控平台设计与实现

2021-04-21 08:47王新国高文燕
实用医药杂志 2021年4期
关键词:网络设备日志运维

王新国,高文燕,张 霞,许 林

新型冠状病毒肺炎(简称新冠肺炎)疫情的不断蔓延对医院信息化建设、数字化转型提出了更高的要求,防控工作的常态化迫切需要人力、资金、防护物品等战略资源的持续精准供应,做到科学防疫、精准防疫。建立统一信息集成系统、推动数据开放共享成为确保疫情防控工作落实到位的重要支撑;另一方面,在线问诊、协同办公、远程医疗等各类应用信息系统数量、规模的持续扩大,各系统间的高度集成、耦合使得不同系统的软硬件故障相互牵制与影响越来越多,潜在风险也不断增加,对信息集成系统的运维管理带来愈加严峻的挑战[1,2]。在新冠肺炎疫情的常态化防控态势下,为了能够对各信息系统的运行状态进行实时监控,对各类系统故障做到有源追溯、高效运营、闭环管理,并在第一时间采取有效措施,确保各信息系统业务的连续性,迫切需要一个智慧化集成运维监控平台,将以技术、设备为导向的运维转变为以服务、流程为导向的智慧运维[3],这也成为打赢此次疫情防控战的关键环节。

1 需求分析

随着疫情防控态势下互联网+等各类智慧医疗业务的推进,智慧化医院IT 构架不断拓展,各业务系统运行需要依赖和调用的软硬件资源种类和数量越来越多[4,5],系统运维面临以下几方面的挑战。

1.1 烟囱式的信息资源配置模式使运维难度增加医院信息系统多是分批分期建设,软硬件设备虽是捆绑式增加,但各系统多是彼此独立的烟囱式分布,这种离散式系统架构使故障定位与分析排除日益复杂;同时,业务系统迭代速度加快,升级更新频繁,对运维管理和响应时间提出了更高要求。

软件方面,除了内网中部署的传统医院信息管理系统、电子病历系统、医学影像系统、检验系统外,基于物联网技术实现患者与医务人员、医疗机构、医疗设备之间信息交互的系统也在大量增加,特别是疫情防控期间在线问诊、远程会诊等各类应用信息系统数量、规模持续扩大,这些系统通常需要通过部署在医院的前置机实现医院内网数据与外网进行信息转换、数据集成,医疗信息系统从医院内部的局域网扩展到了互联网网络范围。硬件方面,医疗业务系统的运行环境也从传统的网络设备、服务器、PC 机,扩展到虚拟机、云平台、手机APP、微信平台、智能终端等,还包括LED 显示、分诊呼叫、分屏显示、公告视频、监控宣教等显示和语音设备,这些系统多采用大屏幕电视或液晶显示器显示队列、监控宣教信息,它们与医疗业务系统的集成融合越来越紧密,但经常处于无人值守状态,一旦出现问题会极大地影响患者就诊体验,加大了对整个医疗业务系统监管监控的要求和难度。

1.2 缺乏有效的运维流程应用众多、系统分散、管理困难的运维现状要求信息科工作人员定期对各业务系统进行巡检,评估在用资源、系统性能、并消除故障隐患,特别是临床医疗工作依赖的关键性业务系统更需要做到运行状态的实时监控、及时报警或提示。传统运维系统多侧重于对网络设备、服务器、数据库的监控,对医院的语音呼叫、显示展示设备则只能通过人工定时巡检监控系统的运行状态,耗时耗力,且难以及时发现故障隐患。因此,智慧运维平台要既能通过对运营平台各组件的集中式管理实现业务运行环境的监控,又要能通过日志分析反馈系统运行状态给运维人员,才能真正方便运维人员及时响应各类故障请求,提升运维效率。

2 智慧运维平台的设计与实现

笔者通过分析整合医院业务运维需求设计开发了智慧运维平台,主要包括两个方面内容,一是综合运用各类监控技术及显示屏画面分享技术拓展监控范围,将硬件资源的监测信号通过多个展示屏集成显示,通过对硬件资源的定时检测和远程桌面管理实现对业务运行环境的监控;二是通过开源ELK 系统实现集中式日志管理,将各业务系统日志定时收集、处理并产生分析报告,实现业务应用状态的监控管理。智慧运维平台通过一体化监控和智能化运维,将以技术、设备为导向的被动故障应对转变为以服务、流程为导向的主动运维服务,使原来孤立分散的事务管理转变为医院范围内统一的、标准化的流程管理,确保业务系统的可用性和连续性。

2.1 业务运行环境的运维监控(1)资源监控。是对各种网络设备、各服务器硬件环境的监控,通过定时检测服务器、网络节点、网关等网络设备的请求响应是否正常,以确认各网络设备工作是否正常,发现异常,则消息提醒。(2)服务监控。是对 web服务、云平台系统各项服务的监控,通过定时请求相关的服务是否能正常响应,发现异常,则消息提醒。(3)远程桌面显示管理。是对各业务系统的显示设备进行监控,如手术麻醉系统的手术进度展示、排队叫号系统的外屏显示等。这些展示屏幕的监控无法通过网络端口或日志系统实现,笔者选用低延迟、高帧速率屏幕共享VNC 服务器,通过多屏显示及分屏技术,将重点业务系统的显示屏信息集成到一台或多台显示器组成的监控平台实现远程显示桌面管理,通过自动比对发现系统异常情形。监控平台仅使用一台或多台显示终端就可以实现多个以至数十个系统或桌面的监控,集成度高,可定制性强,运行成本低,扩展性强,支持 vnc、rdp、http 协议,可捕捉桌面或独立窗口系统的显示界面,并支持进一步集成声音、短信报警等多种提醒方式,达到预警阈值后及时通知运维技术人员。

目前该监控平台集成了远程会诊系统、手术麻醉系统、省、市医保自助机、排队叫号、运维监测、数据库、服务器时间、短信服务器等各业务系统显示屏,如图1 所示。值班人员可随时监测各个系统的运行状态,一旦发现异常可以迅速定位及时修复,有力保障了医疗业务工作的连续性。

图1 运维中心监控平台

2.2 业务应用状态的运维监控应用状态的监控是通过日志分析实现对各项业务应用的监控。所有业务系统运行所依赖的网络设备、服务器、操作系统均通过日志分散地存储在不同的机器上,如果依次登录每台机器去查阅日志,效率低下且难以进行分析和检索。笔者使用开源的ELK(ElasticSearch、Logstash 和Kiabana) 系统构建了集中式日志平台,通过Logstash 工具对所有网络设备、服务器、应用系统的日志进行定期收集、过滤,汇总后存放到ElasticSearch 集群中,Kibana 工具则对 Logstash 和ElasticSearch 提供各类Web 界面格式的日志分析图表报告,帮助运维人员汇总、分析和搜索重要数据,从而快速定位错误,提前预知风险。日志可分为系统日志、应用日志以及业务日志,系统日志给运维人员使用,应用日志给研发人员使用,业务日志给业务操作人员使用,通过对日志分析、统计分析、基线管理确定整个系统运行的正常指标范围,当发现指标性能偏移正常许可范围时,系统进行预警提示,提醒值班人员及时干预处理,解决可能存在的故障隐患。

3 应用体会

智慧运维监控平台强化主动监控,通过线上与线下相结合,实现7×24 h 自动巡检,做到事前预警,所有故障提前感知、智能定位、智能解决,消除被动服务,快速排查问题根源,缩短处理时间,真正做到智能高效运维。通过智慧化集成运维监控平台实现运维流程化、主动性管理以来,有效防止了计划外停机故障的发生。通过建立一体化监控和智能化运维服务平台,提高了IT 部门的工作效率和管理水平,提升了临床、医技科室在信息化使用方面的满意度。

随着智慧化医院建设的飞速发展,疫情防控工作的常态化运行,医院智慧运维的要求会越来越高,运维平台还需要不断完善,更加精细、人性化的后续功能仍在开发实施中。系统可改善之处主要包括运维流程改造[6,7]、运维部门的精细化管理[8,9]等,需要与应用部门进一步磨合并持续改进某些烦琐流程,应用大数据分析技术对运维工作量按照不同颗粒度进行趋势分析、辅助管理决策等,借助信息化建立更加有效的运维管理和评价机制,提高IT部门的工作效率和管理水平。

猜你喜欢
网络设备日志运维
高速公路智能运维平台
网络设备的安装与调试课程思政整体设计
一名老党员的工作日志
扶贫日志
一种基于C# 的网络设备自动化登录工具的研制
运维技术研发决策中ITSS运维成熟度模型应用初探
雅皮的心情日志
雅皮的心情日志
配电线路的运维管理探讨
基于一体化的变电标准运维模式