计算机联锁系统的自动化运维技术

2021-12-09 14:53黄鲁江
铁道通信信号 2021年11期
关键词:工控机运维工具

黄鲁江

铁路信号集中监测系统(Centralized Signaling Monitoring,CSM)不仅对室内信号系统的关键设备进行监控,还监测室外道岔、信号机、轨道电路的状态等[1]。计算机联锁系统中的电务维修机,主要负责记录联锁系统中联锁机的运行状态、采集和驱动、站场表示、各种板块故障等信息,但仍然缺乏对一些关键设备(如交换机、工控机等)运行情况的监测。从运维方面来看,计算机联锁系统并没有一个完整的维护工具(软件)来监控整个系统内各个关键设备的运行情况,既缺少系统整体运行情况的关键信息,也缺少支持自动化维护的详细数据。

自动化运维能够大幅度提高维护的自动化程度,弥补人力维护质量不高、响应速度不快的缺点,已广泛应用于电力、IT等行业[2-4]。它在计算机联锁系统中的应用,将弥补部分关键设备的监控缺失,提高手动维护模式的效率和准确率,解决现阶段缺乏高效的运维机制和运维工具的难题。

本文将自动化运维的概念引入到计算机联锁系统的维护中,使计算机联锁系统的维护和监测变得更加准确和完善,从而为进一步的智能化维护提供基础数据。

1 自动化运维目标

计算机联锁系统自动化运维的目标是在最少的人工干预下,通过自动化运维工具,保证计算机联锁系统7×24 h高效稳定运行。

1)实现设备监控自动化。对计算机联锁系统中运行的各种关键设备状态进行实时监控,随时发现各设备已经发生的或潜在的异常情况;输出系统中关键设备的日常运行报表,进而评估系统整体运行状况。

2)完善故障预警和处理流程。采用可视化技术,提供更加直观、完善的故障报警信息和故障处理操作指导,提高故障定位准确率,降低维护人员故障定位和故障处理的难度;同时,根据不同等级的故障对维护人员进行通知,减少故障时间,降低故障影响。

3)实现预测性维护。它是自动化运维的一个最重要目标,自动化运维获取的大量设备数据都是实现预测性维护的数据基础,预测性维护将在不断提高维护人员工作效率的同时,准确地预测系统异常,可提高计算机联锁系统运行的稳定性。

4)提高计算机联锁系统安装、调试、运营、维护各阶段的效率,完善维护体验。自动化运维是通过自动化的手段协助维护人员提高产品运行的可靠性,所以功能的简洁、直观和高效可以最大程度降低维护人员的掌握和操作难度。

5)实现故障的预警、恢复、存档一体化功能。在故障出现之前,维护人员应该能在任何时间、任何地点接收到告警信息,并及时处理问题,消除故障隐患;当故障发生后,需要有足够完善的故障处理策略和指导措施,帮助维护人员在最短时间内将系统恢复正常。自动生成故障报告并存档相关故障数据记录,方便后续查阅。

2 系统功能架构

自动化运维覆盖计算机联锁系统产品从安装调试到运营维护多个不同阶段,可分为2类工具:一类是安装调试及数据升级阶段的自动化部署和配置工具;另一类是产品正式投入使用后的运维监控和维护诊断工具。

2.1 安装调试阶段

安装调试及软件数据升级阶段的主要目标是实现软件、数据、工具等的自动部署、自动配置和批量操作。

1)自动部署。在传统的安装调试阶段中,工程师在安装部署维修机、操作机的软件、数据、工具时,需要经历原始文件的拷贝、手动点击安装工具、人工选择数据及配置的路径、进行反复多次的复制黏贴操作,工作效率低,易出现遗漏和错误。

自动化运维工具实现自动完成数据软件部署和工具安装。工程师只需要将联锁系统安装调试所需的相关数据、软件、工具存放在U盘中(或者指定文件夹),插上U盘后即可自动完成工具的自动安装、软件数据的版本(MD5)核对和自动部署。同时可以生成自动部署报告,用于工程师核对和项目归档。

不同于权限,敏感API信息包含每个API的平均调用次数,所以恶意特征的表现方式会更加明显,通过反编译得到每个应用的API调用情况,结合调用次数建立基于敏感API的特征向量,并输入分类器中。实验结果如表3所示。

2)自动配置。在传统的安装调试阶段,工程师需要进行工控机的多项系统配置,甚至某些配置相对复杂,工程师每次都需要根据手册一步步进行操作,工作量大。

自动化运维工具只需要工程师通过前端交互页面,选择配置清单,即可自动根据配置清单修改机器中系统的相关配置;同时还可以产生自动配置报告,用于工程师核对和项目归档。

3)批量操作。虽然单站的计算机联锁系统中工控机数量并不多,但如果是一条线几十个站都需要对工控机进行部署和配置,就需要工程师进行大量重复的工作。

自动化维护工具使工程师可以通过运维工具前端交互页面,选择多台机器,配置需要进行的操作,即可实现工具的批量安装、软件数据的批量部署和系统配置的批量修改等。

4)自动化测试。计算机联锁系统安装调试阶段,除了有些必须人工参与的安装调试过程,还有一些可以通过自动化实现的过程,比如继电器的点对点测试。传统的方式需要人工进行核对,但是人工核对方式无法做到枚举。比如测试一个继电器的吸起,人工很难监测只有一个继电器吸起而所有除该继电器外的其他继电器都没有吸起。但是如果通过自动化工具完全可以实现继电器的点对点测试。诸如此类的一些测试,都可以开发并合到自动化运维工具中。

2.2 软件数据升级阶段

软件数据升级阶段依然可以通过自动化运维工具的自动部署功能,完成软件和数据的版本核对、软件和数据的自动部署;同时可以自动生成升级报告,用于工程师核对和项目归档。

2.3 运营阶段

计算机联锁系统的维护子系统,现阶段仍停留在主要对联锁机的相关硬件及软件监督和分析上,缺失其他重要设备的关键信息。

而运营阶段的自动化运维,是对计算机联锁系统中主要设备的监控、报警、维护指导及系统运行报告的生成。其功能包括如下几部分。

1)工控机类。工控机是系统中维修机或操作机软件运行的载体,其稳定运行是计算机联锁系统稳定运行的基础,所以对工控机的监测内容主要包括:CPU占用率、内存占用率、网卡发送接收速率、网卡发送接收异常数据统计、硬盘使用率、重要进程运行状态监督及内存占用率;工控机出厂时间、连续运行时间;硬盘使用率;操作系统异常日志的报警、异常进程监测;维修机或操作机软件运行时间、软件异常报警等。

2)网络类。计算机联锁系统各运行设备之间通过网络通道进行通信,因此网络的稳定是计算机联锁系统稳定运营的重要前提,其主要监测内容包括:交换机的CPU占用率、内存占用率,每个端口的流量统计、异常数据统计;交换机和各端口的运行时间、交换机电源状态、交换机负载监测和预测;网络流量监测和预测、网络中各设备通道状态监测、网络数据备份。

3)联锁机类。联锁机是计算机联锁系统的核心设备,是计算机联锁系统安全、稳定运行的关键。其主要监测内容包括:板卡性能的CPU占用率、温度、内存占用率、电压;系统及板卡的连续运行时间;故障的自动报警、自动分析、处理措施指引等。

4)系统类。主要功能包括:定期的系统检测报告;日志自动拷贝、自动分析;系统各设备的电源监督和报警;UPS的运行参数监督和报警。

5)环境变量监测。监测系统运行环境的温度、湿度、灰尘等,有助于系统的稳定运行和对设备寿命的预测报警。

6)版本管理。主要功能包括:板卡、工控机等设备的硬件序列号及版本管理;维修机软件、操作机软件、联锁机软件及联锁数据的版本管理,版本变更确认;交换机软件及配置版本管理等。

2.4 维护阶段

传统的计划性维护是一种预防性维护,是按照固定周期进行的一些常规性检查和测试。预测性维护不是基于固定周期的维护策略,而是利用收集到的设备历史数据对设备进行评估,进而计算出需要维护的时间,或者判断是否有必要进行维护操作。而自动化运维的重要性,在于保证计算机联锁系统在维护阶段能高效、准确地实施维护措施,可取消周期性维护中不必要的工作,减少人工维护的工作量。系统不再需要定期的维护,而是利用大量的设备历史数据,编制预测性维护策略和预估设备剩余使用寿命。

自动化运维在此阶段的主要功能包括:硬盘使用寿命评估和预测;工控机寿命评估和预测;电源类设备寿命评估和预测;联锁机硬件板卡寿命评估和预测;系统负载使用率统计及预测(帮助维护人员了解继电器或者室外设备的使用频率)。

2.5 故障排查和处理阶段

对于突发性故障,自动化运维工具提供了更合理、更完善的故障排查策略和指导措施。主要功能包括:电缆、配线的可视化显示;联锁逻辑关系和故障逻辑的可视化显示;故障排查步骤的直观引导等。

当故障发生时,故障排查步骤不再是纸质形式的流程图,而是更直观、更具有操作性的引导步骤,使得维护人员对故障的排查处理更加便捷和高效,帮助维护人员减少故障处理时间,降低故障影响。

3 关键技术

计算机联锁系统的维护仍然停留在人工维护阶段,主要原因在于系统中无法提供支持自动化运维的相关数据。自动化运维的全面实现将依靠并推动以下几方面关键技术的发展。

1)人工智能算法及数据挖掘技术。该技术已经在相关行业有了广泛的研究和应用。例如:网络质量的监测、原因定位、预诊断[6],硬盘寿命预测[7],电源寿命预测[8],工程图纸的电子化[9]以及基于数据挖掘技术的故障诊断[10-11]。虽然相关的技术发展迅速,并且已经实际投入应用,但是在自动化运维领域的研究并不多,一方面相关智能算法在参数寻找、调优等方面仍具有较大的应用困难;另一方面相关设备的数据来自不同厂商、不同时期的产品,可能存在较大数据差异,而且对算法的泛化能力及参数适用性也带来挑战。人工智能算法将自动化运维向智能化运维推进,存在挑战的同时也面临着巨大的机遇。

设备寿命预测、故障分析、图像识别等技术必将在自动化运维方面带来深远的影响和广泛的应用。

2)硬件监测技术。受限于硬件技术,现阶段的计算机联锁硬件产品相对落后,主要的硬件资源都用于核心业务(安全校验、联锁逻辑计算)的运算,没有足够的资源去完成监测类任务和诊断类任务。随着硬件技术的更新迭代,计算机联锁系统中的硬件设备将具备更高的计算机速度和内存容量,有更多的资源去完成监测类和诊断类的任务,这些改变对计算机联锁系统的监测有着重要意义,也使得自动化运维成为可能。自动化运维的需求也将推动计算机联锁系统中软件和硬件的发展。

3)可视化技术。作为人机交互技术的综合体现,当自动化运维产生了庞大的数据信息时,可视化技术相比其他呈现方式更加具有直观性、高效性、前瞻性、趣味性等强有力的特点。自动化运维中的可视化包括4个方面:监测指标、设备状态、硬件结构原理、逻辑关系(联锁逻辑和故障逻辑)等。

4)远程通信技术。计算机联锁系统是一个封闭系统,为保障系统的安全性,传统计算机联锁系统的网络与外网是隔离的。自动化运维的一个重要功能是系统发生异常或者报警时,能及时通知维护人员。随着第五代移动通信网络(5G)的应用,实现信息安全、高效、稳定的远程传输,将进一步推动自动化运维在计算机联锁系统中的应用。

4 结语

计算机联锁系统产品提供商,不仅仅提供安全、可靠的计算机联锁产品,同时应该提供更加专业的、用户体验更好的运维工具,为维修人员提供更加自动化和智能化的维护策略,使得计算机联锁系统更加稳定可靠运行。

随着技术的发展,计算机联锁系统也经历着产品的升级和迭代,系统运维愈发重要。自动化运维工具不仅能覆盖现阶段计算机联锁系统维护的缺失部分,还可以提高系统的维护效率、准确率,使系统运维管理更加规范化、标准化。计算机联锁系统的自动化运维主要实现了监控、部署、维护事件、系统健康检测、报告生成等多项自动化。自动化运维工具既为计算机联锁系统的维护提供了重要手段,也将进一步促进计算机联锁系统的发展。

猜你喜欢
工控机运维工具
波比的工具
波比的工具
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
准备工具:步骤:
“巧用”工具
普通台机替代工控机成功应用
印刷网络化解决方案中工控机系统的设计与实现
控制舱测试系统及其BIT设计
电子政务甲方运维管理的全生命周期