城市轨道交通通信系统智慧运维平台设计

2023-10-16 02:10
交通科技与管理 2023年18期
关键词:运维统一应急

陶 然

(中国铁路设计集团有限公司华南分公司,广东 深圳 518000)

0 引言

近年来,城轨云设计理念在各城市落地的普及,地铁的智慧运维应用探索层出不穷,其中通信系统作为包含十几个子系统的综合专业,随着线网和运营规模的不断扩张,设备系统数量剧增,缺乏智慧运维的管理手段和平台。

1 智慧综合运维平台总体架构

线网智慧运维平台,从系统架构上,可分为数据采集、大数据存储、数据分析、数据服务、平台基础应用、平台专业应用、平台统一作业界面(含手机App)、平台统一对外接口等(如图1),由各专业共同开发,实现统一的线网级智慧运维平台。

图1 智慧综合运维平台总体架构

2 智慧运维应用系统部署方案

智慧运维应用包含数据采集、数据存储、大数据分析、数据服务、系统应用、接口程序、客服端等多种程序。

智慧运维的设备数据主要来源于生产网各系统,相关数据基于生产域DaaS、PaaS平台部署,部分数据作为线网设备监察及展示的数据,进行生产调度;同时部分数据可以通过客户端人工录入,可在管理网部署人工录入数据采集程序,负责收集从各类客户端路数录入的设备数据。

基于数据湖实现数据共享;人工录入数据,通过生产网与管理网间的数据交换平台接入生产网大数据平台;使用生产网DaaS、PaaS平台提供的各类数据分析工具,进行数据分析,并以微服务的方式为各类线网级应用提供数据接口。

不同专业对智慧运维系统的功能需求,由相关系统集成进行定制开发,为生产网及管理网的各类用户提供智慧运维系统服务。

为实现智慧运维平台与既有相关系统的自动化集成,接口部署在管理网,负责实现智慧运维平台与管理网EAM、人力管理、工单管理、施工管理、财务管理、智能仓库等系统的数据接口。

在管理网部署客服端访问后台程序,各系统技术人员办公电脑及有关人员的移动终端App可通过此后台程序完成相关可视化界面和流程处置。

3 平台系统功能设计

3.1 通信与IT设备管理

为了能对地铁所有线路的设备进行有效管理,通信与IT设备管理系统为分布式部署,在中心机房部署服务器,操作工作站主要放置在各条线路的各工班,各类配备电子标签的设备主要分布在各条线路设备房等地。通信与IT设备管理系统之间通过内部网络进行通信,系统外部与通信、PIS、ISDS、ISCS等系统存在外部接口[1]。

设备档案库功能,用于管理设备基础信息。应用二维码/RFID等标签为每个设备赋予唯一的身份识别码,对设备运行维护、检查、盘点、报废等过程进行全寿命周期追踪和管理。

无人值守库房主要对从仓库领出的易耗品、备品备件等物品进行出库、入库、库存盘点、库存检索等管理。将二维码等标签贴于仓库领出物品上,为每个物品制定唯一的身份识别标签。移动端通过无人值守库房功能模块,完成易耗品、备品备件等物品的出入库等操作。

无源无纸化标签制定是指按照一定的格式要求,完成设备标签的制定,确定此设备的身份信息,如设备名称、设备位置、所属车站等信息。

设备标签绑定是将无源无纸化标签ID号与相应设备绑定,赋予设备唯一的身份识别信息。在服务端设备标签管理模块,通过读卡器获得设备标签的ID号,选择相应设备,将设备与标签进行绑定。

3.2 组态表单管理

组态表单管理主要完成设备巡检、设备检修、预防性维护、紧急维修、大中修流程、外协维修工单等作业表单的制定。操作人员根据现场实际对应的作业表单,配置各表单的作业项,如作业标准、作业项目、记录数据,以及作业参数、完成情况、备注等。

3.3 设备巡检

系统设备巡检功能模块用于实现设备巡检工作电子化,实现现场设备运行状态的追踪管理及巡检工作规范化管理,并为运维情况统计分析提供基础数据支撑。

3.4 设备检修

针对不同类型的设备和维修作业排定相应的计划,如:月度、季度、年度检修计划等,日补充及临时补修计划、临时抢修作业等[2]。通过计划制定、计划审批、任务安排等完成一个周期性的设备检修。服务端排定周期检修计划,安排作业区域、作业时间和检修负责人等。

3.5 设备故障管理

维护人员接报故障或者发现故障后,进行故障处理工作。在处理过程中或故障处理完成后,在移动终端或服务端的按照故障记录模板对故障处理情况进行登记。

维修人员接到故障处理任务,查看接报故障信息,在故障处理完毕后,填写相应的故障处理信息,可添加图片、视频等附件。

故障检索记录来源于故障处理现场移动端的实时填写,或在后台根据故障处理报告等文字材料的转录。工作人员可在移动端或服务端通过故障检索模块根据一定检索条件查询历史故障记录,需支持多重条件查询。

故障库以故障诊断树的形式展现,通过关键字检索,以树形目录形式一步步展开完成故障处理,帮助维修人员判断故障源并迅速定位,按照规范第一时间完成故障处理。

3.6 作业统计分析

作业统计分析主要是以巡检、周期检修、故障处理等各项工作信息为基础,依据部门、车间的管理要求,进行多层次、多角度的数据统计,并形成各类作业情况统计信息,为工作人员的绩效考核提供数据支持,不同权限的人员可查看不同的统计信息。

3.7 设备运行统计分析

通信与IT设备管理系统通过与综合监控系统对接,实时统计关键设备的运行状态信息,分析评估设备状态、并以此为依据来安排检修计划,实现有效的预防性维修。系统提供设备实时状态监视功能,以供设备运维管理人员随时查看。

3.8 基础监控子系统

通信各系统设备由云管平台统一进行管理,将既有线路、新线路的IT基础设施网管进行统一整合,形成面向运维的统一基础监控系统,实现统一网络设备监控、统一主机监控、统一存储监控、统一视频资源监控、统一数据库监控、统一中间件监控、虚拟化监控、大数据组件监控、微服务监控等功能。

3.9 事件管理与告警子系统

当出现大规模IT故障时,运维人员同时会收到来自各个监控系统、各个主机的大量告警通知,对正常的工作造成了极大困扰。使用统一事件管理与告警子系统,将各个系统的告警消息进行统一汇聚和整合,让运维人员在一个平台上接收、处理所有故障消息。

统一事件管理与告警模块支持REST API、Agent主动采集、URL回调等多种告警源接入方式,能够接入基础设施监控、日志、应用性能管理等多种告警源。实现IT运行态势感知、告警采集过滤、告警展示过滤、告警集中查询、告警信息展现、告警信息操作、告警通知、告警推送、告警抑制、告警静默、告警升降级、告警统计、事件报表、警报报表和关联分析等。

3.10 ICT服务管理子系统

以ITIL4、ITSS为理论基础,以大数据和人工智能技术为支撑,适应地铁业务发展与IT架构的特点。将地铁技术资源中各类要素(人、事、财)进行科学组织与管理,帮助地铁公司合理调配人力资源、有效管理信息化软硬件、提高运维管理工作水平、提升运维整体效能。个人工作台为运维管理人员和支持人员提供统一的工作界面,包括待办、已办、通知、公告、知识查询等。

3.11 应用系统连续性管理

(1)应急事件监控:实现技术监控、应用监控、用户体验监控精准化监控,需要能够提供更好的用户体验,加强用户参与感,让用户切身感受到应急事件的响应和处理。

(2)预案体系:建立文档化应急预案流程,提供统一、明确的业务处置手段,平台应做到结构化关键业务应急预案,还应做到图形化定义恢复步骤。

(3)应急模板工具:在总部层面建立统一的应急模板工具。应急模板需整合到预案体系的业务恢复步骤中,应当覆盖各线路的应急需求,总部需要清晰地掌控企业关键业务替代解决方案执行情况。

(4)事件级别分类:支持定义一般事件、重大事件、灾难事件,梳理事件处置流程,例如与手动记录、监控应急等流程进行关联。

(5)应急处置策略:根据地铁线路应急业务的需要,梳理应急处置级别。由地铁总部监控中心统一指挥、协调各线路处置不同级别的应用业务,保证业务持续、稳定地运行。

(6)监控体系与应急管理体系无缝集成,将监控技术与应急管理功能全面整合,使监控措施深度参与到应急管理整个生命周期中:保障事前预警、事中监测、事后检测。

(7)制定灵活、可配置的监控告警制度,并根据制定的业务系统监控策略,收集问题,解析潜在威胁,触发应急事件,真正做到先于用户发现问题,保障核心销售业务持续、稳定运行。

(8)演练管理:实现常态化演练,将管理职能与技术恢复手段(应急模板、灾备)进行统筹、有序整合。

3.12 ICT资源属性管理子系统

ICT资源属性子系统用于对ICT设备(含网络和安全设备、服务器与存储设备等IT设备及专网通信等CT设备)进行全生命周期管理,以及针对各类型资源对象(硬件、软件、应用、业务等)的配置管理。

ICT资源属性子系统提供资源数据收集、资源模型管理、资源数据维护、资源数据使用和资产全生命周期管理等五项核心管理能力,实现地铁资源管理数据库数据的完整性、准确性和可用性。

3.13 设备知识库管理

主要通过建立设备知识库管理,实现共享数据共享;设立信息分类原则,工单信息数据存储时的自动分类;设备管理工单信息归档时实现关联更新功能;知识库案例具备人工录入功能;知识库支持信息检索功能,输入关键字段能够快速查找功能。

3.14 数据处理模块

实时运维处理模块能够实时高效地接入地铁多种运维数据源,收集环境中的IT运维数据,进行统一的管理和存储,通过便捷和强大的建模分析工具,将数据进行关联分析和业务建模,结果实时输出给大屏展示、仪表盘以及其他应用,并且通过数据与算法结合,为将来实现智能化运维场景提供基础。

实时查看和监控大数据平台的各项数据管理视图;在统一管理界面对所有数据源进行查看和管理,支持流式数据源和数据库等数据源各类数据源的定义、配置和管理;统一数据处理管理界面,提供数据处理流程的查看和管理;数据分析通过创建数据模型对来自数据源的数据进行查询分析,查询结果可以输出给数据呈现自定义视图、大屏展示、业务指标监控等业务应用;提供仪表盘、多维度数据视图,自定义数据可视化呈现。

4 结语

智慧综合运维管理平台是利用计算机网络技术和计算机本身的高速数据处理能力,对通信系统、IT系统进行集中管理,将ICT系统的运行状态集中反映到控制中心的计算机,当有故障发生时,平台可通过多种方式获得告警信息及关键参数,并通过告警触发机制,将故障信息进行推送,使通信、IT维护人员能及时、准确地了解整个ICT系统设备的运行状态、故障信息及关键设备信息,以便于维护人员结合调度需求,协助指挥人员对紧急突发故障进行处理,使平台能与业务应用联动起来,实现高效的故障定位功能。

猜你喜欢
运维统一应急
人民的期盼就是应急青年的使命
坚持严管和厚爱相统一的着力点
碑和帖的统一,心和形的统一,人和艺的统一
完善应急指挥机制融嵌应急准备、响应、处置全周期
运维技术研发决策中ITSS运维成熟度模型应用初探
统一数量再比较
风电运维困局
应急管理部6个“怎么看”
杂乱无章的光伏运维 百亿市场如何成长
国际新应急标准《核或辐射应急的准备与响应》的释疑