铁路局信息系统安全运行维护体系的构想与实现

2012-11-29 08:39
铁路计算机应用 2012年4期
关键词:技术支持大运运维

徐 铭

(北京铁路局 信息技术处,北京 100860)

近年来,随着客运专线的陆续开通运行和调度系统的不断整合,对信息系统运行安全、运行质量提出了更高的要求。以客票系统为例,随着京津城际的开通,列车运行间隔缩短到10 min左右。这就意味着如果客票系统故障延时超过10 min,就可能影响到车站的售票和乘车秩序。同样,随着列车的不断提速,调度系统、施工命令等项目一旦中断,将直接危及行车安全。因此,保证信息系统安全运行成为我们第一位的任务。

1 存在问题

多年来,在信息系统的运行维护管理上,信息技术部门更多地习惯于经验型、粗放型管理,基本处于故障先导的应对处理,目前存在的问题主要有:

(1)缺少有效的运行维护管理机制。虽然探讨过多种加强运行维护管理的办法和措施,但运行维护管理、专业技术支持和厂商保修之间管理责任不清、分工不明,难以形成机制,造成出现故障分析难、定责难、整改措施落实难的现象。

(2)没有建立明确的故障分析机制。对于发生的每一件故障,缺少分析和追踪力度,运行维护管理的品质得不到根本提升。

(3)监测技术手段不足。随着路局和站段投入运行的软件系统、硬件平台越来越多,系统结构也越来越复杂,出现问题的环节也越来越多,而既有监测手段存在范围不足、信息不全等问题。

2 总体构想

在应用项目实时性越来越高、机房设备越来越多和安全问题越来越被重视的情况下,为了保证信息系统稳定运行,我们提出了建立“铁路局信息系统安全运行维护体系”的总体构想:以信息系统运行维护安全为出发点和落脚点,建立以集中调度为主导、以专业管理为基础、以流程化管理为核心的整体运行维护模式,在加强日常运行维护管理的基础上,突出专业技术支持作用,加大设备巡检巡视力度,形成信息系统3重安全防护,从机制上保障设备和系统的完好率,减少各类故障发生,提高信息系统运行的稳定性。

2.1 体系架构

铁路局信息系统安全运行维护体系(以下简称大运维)由运维管理体系、运维作业体系和运维支援体系组成,其架构如图1。

图1 大运维体系架构图

2.2 体系内涵

运维作业体系是大运维核心体系,由基层维护层、巡检监视层、调度响应层和核心维护层4个部分组成,是大运维体系的第1道防线;运维支援体系是整个运维体系另1个重要环节,由技术支援层(上级技术部门)和协作支援层(外部厂商)构成第2道防线,是对运维作业体系的有力补充。运维管理体系是基于行政管理和专业管理双重管理架构下的信息技术处专业归口管理体系,重点是通过行政体系的干预,从业务流程的高度协调各个业务系统和单位,打破部门间的条块分隔,弥合系统和部门之间的缝隙,实现各种维护行为的流程化管理,是大运维体系的第3道防线。

2.3 组织模式

大运维打破传统的以科室、部门为运维主体的传统运维格局,建立以信息技术处集中调度为主导、以专业维护为基础、以流程化维护为核心的整体运维模式。

(1)信息技术部门全员都是运行维护工作的主体,都是运行维护工作的参与者和执行者。通过人人确立运行维护岗位分工、人人明确运行维护职能责任、人人遵循运行维护工作流程,构成“全员大运维”。

(2)运行维护部门是大运维牵头组织部门,负责日常信息系统运行生产的调度指挥和运行维护安全情况统计分析;设备部门负责设备状态、运行质量管理;各专业技术部门负责系统维护,提供“全天候”技术支持。

(3)在运行维护组织活动中产生的任何组织和协调工作,均通过行政管理体系反馈至处领导,通过纵向专业管理机制反馈至处专业部门,形成所内联动、处内联动以及相关厂商联动的大运维格局。大运维组织模式如图2。

图2 大运维组织模式

3 体系建设

建立大运维体系,是对传统信息系统技术支持体系的发展和融合,是运行维护以效益维护为前提、以集中维护为主导的深化和体现。

3.1 提高对运行维护安全的重视

按照建立大运维体系的总体构想,我们在全局信息技术系统进行宣传贯彻,不断加深全员对“大运维”理念和“状态修”标准的理解,全系统上下安全意识有了进一步提升,“大运维”的理念有了进一步的树立,“状态修”的标准有了进一步的深化,更丰富了运行维护安全的内涵。

3.2 不断深化运行维护安全管理工作

在全局信息机房统一和规范运行维护管理细化措施,统一要求做到“五个一”。即:“做好每一次巡视、盯准每一个部位、重视每一件故障、严管每一项施工、畅通每一个情况”。制定了《机房生产值班一日作业流程》,作为值班人员的每日工作标准;制定了《中心机房巡视关键部位明细表》;编制了《机房重点部位巡视线路图》。每次巡视结束后,当班人员准确记录巡视情况,发现问题及时通知相关人员进行处理,并做好追踪和记录。

高度重视发生的每一件故障和隐患。建立了明确的故障分析机制,加大对故障的分析和追踪力度。对全局发生的影响信息安全的故障,视故障影响范围、影响程度,分别由各电子所领导、处领导组织分析,做到件件故障有分析、有记录,查找故障原因,采取有力措施,避免今后类似问题再次发生。

3.3 不断细化“全天候”技术支持措施

信息系统运行维护工作是系统工程,在加强运营值班管理的基础上,组织运行维护、网络、客票、设备等专业细化“全天候”技术支持措施。客票和网络专业,责任落实到人,巡视检查内容具体化。设备专业加强对设备的动态管理、保修管理,加强对硬件设备巡检质量的分析。各专业技术支持措施以2011年信息技术处1号文件颁布执行,构成“大运维”专业技术支持体系,形成保障运行维护安全的第2道防线。

3.4 不断强化设备保修管理工作

设备状态稳定是信息系统安全运行的基础,维修维护是提高设备运行质量的关键。按照建立“大运维”体系、实施“状态修”标准的总体构想,落实“计划管理、过程控制、结果考核”的具体要求,狠抓设备保修工作,使保修管理工作得到进一步的规范和加强:

(1)制定流程,三方责任得到落实。设备科作为管理部门,负责对承保公司的管理、保修合同的签订、服务质量管理以及保修整体情况总结通报等管理工作;各专业技术部门负责配合承保公司进行设备巡检和故障处理;各承保公司按照合同规定,按时进行巡检维护,消除故障隐患,及时处理发生的故障,确保设备正常运行。

(2)明确标准,巡检作业得到规范。信息技术处颁布了《北京铁路局信息技术设备保修服务标准》,设备管理部门根据设备状态、承载项目的重要程度对保修设备进行分类,分别制定服务质量标准,并将相关内容列入合同条款;承保公司根据承保设备的类别,制定全年巡检计划,各专业科室、电子所相关技术人员根据承保公司的巡检计划,在全力做好配合工作的同时,对保修工作进行督导,并在巡检记录上签字。承保公司巡检结束后,将有用户签字认可的巡检记录带回,交设备科签字确认后再返给用户。实现了巡检过程闭环管理,规范有序。

(3)严格管理,考核机制得到建立。围绕 “大运维、状态修”的理念及标准要求,在保修工作上着力实现“计划管理、过程控制、结果考核”的工作目标,发布了《北京铁路局信息技术设备保修管理规范》、《北京铁路局信息技术设备保修工作考核办法》,对设备保修管理工作中的方案制定、合同签订、巡检计划、设备巡检、故障处理、故障、安全问题分析、服务质量考评及保修设备备件管理都逐一进行了规范。对每月保修工作情况及发生的问题进行汇总并通报, 2011年共发通报12期,表扬7次,包括5家承保公司;批评6次,涉及5家承保公司。

(4)深入推进,质量分析得到加强。初步建立了保修服务质量分析制度。根据设备保修服务中存在的服务质量问题,诸如不按时服务,故障延时过长,备件不到位等问题,及时召集相关承保公司负责人,召开服务质量分析会,分析原因,落实责任,避免类似问题再次发生。2011年共召开保修服务质量分析会4次,涉及5家承保公司,此举得到各承保公司的重视。

3.5 采取技术手段提高运行维护管理水平

根据信息技术处建立“大运维”体系、实行“状态修”标准总体构想,为把运行维护安全管理工作落实到实处,信息技术处自主研发了“大运维管理信息系统”,搭建了运行维护综合管理平台,将运行维护安全过程管理信息化。该系统于2011年3月投入试运行,4月1日正式投产运行。实现了运行维护管理、设备管理、保修管理、计划巡检、专业巡视以及施工管理等的动态管理,为“大运维”、“状态修”的具体落实提供了信息共享平台。

该系统通过构建运行维护管理体系、作业组织体系和技术支援体系,形成统一的专业维护技术支持标准,强化全员参与、注重运行维护细节,使运行维护组织工作更加精细化、有序化、高效化,使全处运行维护工作的纵向专业管理和横向行政管理得以有机结合,极大的提升了“大运维”管理水平。

4 实施效果

在2年的运行维护体系建设和实施过程中,围绕提高值班巡视质量、建立“全天候”技术支持体系、强化设备保修管理、加大故障分析考核等方面,采取了一系列行之有效的措施,将“大运维”理念及“状态修”标准落到实处,收到了初步效果。

4.1 运行维护实现了被动到主动的转变

通过大运维体系的建立和不断落实,加强了值班人员日常巡视管理,对值班巡视实行“定量定标”管理,要求日常巡视要走到、看准、听清,从设备正常运行的状态中比较出差异和不同,将渐进类的问题提前确定,提升了值班巡视质量,及时发现可能发生问题的每一次报警。各专业技术支持人员,也由以前被动、事后处理信息系统出现的异常事件和故障,变为现在“全天候”技术支持,从每周一次到机房实地对分管设备进行外观状态巡视,到每日对分管设备系统运行状态、日志提示等信息的检查,在一个更高的技术层面上做预防性的维护工作。既是对机房值班人员日常巡视的一个补充,又是对值班人员在专业技术上的支持。

4.2 设备运行质量得到提高

通过实行“状态修”标准,设备巡检次数得到保证,特别是在春运、暑运、“五一”等特殊时期前,巡检力度明显加大;通过巡检发现处理故障、消除故障隐患比例在提高,应急处理故障次数在减少。特别是通过采用技术监测手段,发挥故障预警功能,及时发现可能发生故障隐患,达到预防为主、降低故障率的目的。2011年,全局共发生信息故障31件,月均2.6件,与2010年相比下降幅度较大。具体数据见图3及表1。

图32011年全局信息系统故障统计图

表1 2011年度与2010年度故障统计对比

4.3 安全保障效果得到提升

在“大运维管理系统”中建立了信息系统运行安全综合管理监控子系统,将日志分析、网络管理、综合监控和视频等功能集成为一个综合监控平台,实现对全局网络拓扑结构的实时监测、对各类关键设备的日志实时采集分析、短信报警和对机房环境的综合实时监测,最终实现对机房信息系统安全的全方位实时监测,收到良好效果。2011年在路局和3个电子所共产生各类日志报警72次、主动发现故障所占比例由年初的21%上升到目前的82%,在信息系统安全生产中发挥了重要的作用。

5 结束语

铁路局信息系统安全运行维护体系建立以来,通过组织体系的建立,实现 “大运维”的要求;通过具体作业流程的落实,达到“状态修”的标准,使“大运维”理念和“状态修”标准不是停留在口号上,而是真正落实到实际工作中。全方位加强了全局信息系统运行维护安全的快速响应能力和消除设备隐患的能力,在保障全局信息系统安全运行方面上了一个新台阶。

[1]葛世伦,尹 隽. 信息系统运行于维护[M]. 北京:电子工业出版社,2012.

猜你喜欢
技术支持大运运维
“红小编”带你看“大运”
AR技术支持下部编版教材的教与学
大运之河
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
提升技术支持能力, 深化“林肯之道”
配电线路的运维管理探讨
精准扶贫需要技术支持
iPad技术支持下的翻转课堂模式探索*——暨“分式方程”的翻转课例展示