校园一体化运维平台建设探索

2023-06-21 01:59孙洪磊刘长龙
智能计算机与应用 2023年6期
关键词:工单运维流程

郭 涛, 孙洪磊, 刘长龙

(哈尔滨工业大学网络安全和信息化办公室, 哈尔滨 150001)

0 引 言

随着信息化应用越来越广泛,网络环境也变得日益复杂。 复杂的环境、复杂的配置、系统集成管理、硬件软件故障、人为操作失误、恶意攻击、系统设备陈旧、设备更新等种种问题,使各个系统平台越来越难于管理[1-2]。 为了确保学校各类系统稳定可靠的运行,建设网络监控管理平台的需求越来越迫切。

目前,学校应用的网络运维工具主要有基线网络监控系统、MRTG 开源链路流量负载监控系统。使用状况大致如下:基线网络监控软件是通过简单网络管理协议获得被监控网络设备、通讯链路的状态数据,系统操作员可手动将需要管理区域的网络设备及拓扑添加到显示区域内。 学校网络区域划分为一校区、二校区、科学园3 个校区办公楼宇、学生公寓、家属区住宅的200 多栋楼宇的有关数据,包含千台设备、上万节点的网络拓扑,但随着学校网络规模的扩大,设备的剧增,该软件已经无法管理学校规模庞大、网络设备众多、拓扑复杂的网络。 由于网络庞大,拓扑内网络设备过多。 监控系统每次通过简单网络管理协议(SNMP 协议)获取网络设备的网络状态数据都需要很长时间。 若设备发生故障,网络管理人员很难快速发现并予以处理。

MRTG 是通过SNMP 协议得到设备的流量数据,并将流量负载以图形文档方式显示给用户。MRTG 为免费的开源软件,成本较低,因此在社会上有广泛的应用性。 该软件虽然实用但功能单一,只能监测流量占用情况,对于网络运行环境中是否存在压力等其它指标无法进行准确检测。

综上,一体化运维平台应用需求日益强烈,建设统一的运维管理体系可以对校园内网络、设备、数据库、中间件及应用系统等资源进行全面监控,有利于各部门对其负责的资源进行管理;有效的ITIL[3-4]流程,可以对日常运行维护工作提供高效的管理框架,建立更好的部门间沟通平台。 统一运维管理体系的建设将很大程度简化运维流程、提高运维效率,同时可使面向全校各级部门的信息化服务质量和水平得到大幅度提升。 为了更好的网络管理和运维,学校当前急需一个统一的运维管理体系平台,此平台需具备规范化、透明化、智能化、互动化运维服务能力。

1 一体化运维平台需求分析

综合的运维管理平台需要从理念、架构、工具、系统等多方面来设计,应具有前瞻性、可扩展性[5]等重要特性。 其中,网络资源管理要具备统一且完善的安全机制,以此做好被管设备信息资源的信息安全[6]。

1.1 监控网络运维设备需求

根据学校实际情况,需要对多厂家设备进行统一管理:除了对H3C 的网络设备管理外,还需对主流厂商(如:华为、思科、华三等)网络设备进行分类和识别;对设备状态和基本信息的管理,不仅要包含设备的运行信息、接口信息、性能数据和告警信息,还应在增加其他组件后,显示扩展的业务信息。

资源监控管理可通过SNMP/PING 协议监控纳管设备,将所有网络资源纳入系统中统一管理,提供全面的丰富多样的管理和配置功能,将网络中的所有设备状态信息和运行数据,通过图形化的手段,清晰、直观的展示,实现从核心到汇聚再到接入层网络设备的全部覆盖。

1.2 ITSM(IT 服务管理)服务管理需求

运维平台将采用IT 服务管理标准(ITIL)的最佳实践和服务台技术平台功能,并针对客户的具体业务需求,在事件管理流程方面实现如下IT 支持服务功能:

(1)确定合理的IT 支持服务模式和服务台架构,实现所有用户的IT 事件统一处理,提供高效高质量的IT 服务[7]。

(2)制定合理的人员角色和职责考核机制,通过SLA 的管理模型,对于维护人员处理工单的相应时间、处理时间与事件处理正确率进行控制,对于超时或违反操作规范的事件进行上报与升级,以实现对运维人员的量化管理和资源的有效利用。

(3)从技术和流程相结合的角度,对事件内容进行梳理,形成标准事件分类支撑的服务目录,确保问题事件记录处理的正确性与完整性。

(4)制定通知策略,定义合理的事件通知机制,使管理人员第一时间收到待处理的问题,加快故障的解决时间,及时将处理结果通知给用户,并快速得到用户对服务的反馈,以此提高服务质量与用户的满意度。 采用通知的方式包括企业微信、微校园,微信公众号等。

(5)通过与知识库的集成,加快知识积累和传播,帮助执行人员快速解决问题,提高故障的解决效率和质量;对于一些通用的解决方法,可以提交为知识库进行共享。

(6)将服务台与其他系统(如:监控平台、统一身份认证平台、数据共享平台、大屏展示平台等)进行联动,建立数据通信接口,使得整个IT 管理平台联为一体,信息统一,集中展示,加快故障的解决时间。

(7)设立合理的业绩绩效指标(KPI),利用开发视图等手段对流程的执行提供查询、统计、分析和监控等功能;用户可查看本人提交的服务申请处理进程和状态,查询相应的知识和解决方案等;避免人工录入产生的差错;使得支持人员可以快速解决大量事件,也可以从大量重复事件中迅速总结出问题,实现和问题流程关联,对一些需要追查故障根源的事件发起问题单。

1.3 数据可视化展示的需求

随着大数据和互联网时代的到来,传统的统计图表很难适应现代复杂的需求。 相对于传统可视化工具开发的图表和数据仪表盘,可视化大屏可以搭载地理轨迹、区块、3D 地图/地球,多图层叠加等技术,打破数据隔离,通过数据采集、清洗、直观实时地将数据可视化,呈现隐藏在瞬息万变且庞杂数据背后的业务洞察,能更加生动友好地活化数据,同时也能结合丰富的交互功能,让数据开口说话,传达超出本身的信息。

网络中心使用大屏的方式展示数据,可以将实际运维过程中一些关键信息进行展示,如设备告警状态、设备连接状态、各出口使用情况等。 当相关设备出现问题时,有关人员可以第一时间看到问题所在并进行跟进,其它人员也能实时地观看到维修进度。

2 平台系统架构及功能设计

2.1 系统设计

系统架构采用运维管理平台与呼叫中心集成,如图1 所示。 最底层是IT 基础设施层,其包含学校网络与信息中心运行管理的管理对象,其中包括网络设备、安全设备、服务器、存储设备、系统应用、中间件、虚拟化资源等。

图1 运维平台整体功能架构图Fig. 1 The overall functional architecture of the operation and maintenance platform

运行监控管理模块主要实现对IT 基础架构的监控,通过监控采集数据和进行数据处理,实现对被管理运行对象的监控,掌握运行资源的配置状况、监控对象的运行状态和性能参数。 其采集数据支持第三方监控集成,同时可将告警、性能、数据处理分析信息提供给其他系统,实现如告警自动派发工单、短信通知等功能。

2.1.1 采集层

采集层由各种协议适配器构成,使用SNMP、TELNET、SSH、TRAP 及第三方接口。 主要采集3 个园区(一校区、二校区、科学园区)的IT 基础设备信息,其中涵盖网络、存储、数据库、服务器、虚拟化等数据资源。 同时具备强大的历史记录能力,可实现45 万KPI 的指标数据至少存储1 年;可对每个设备分别按照周/月/季度、1 年等时间段进行整体趋势分析,从历史层面分析出业务运行规律,方便发现业务运行异常;多指标相对分析,实现管理对象的纵向比较,找到异常的指标集。

2.1.2 处理层

所有采集的基础数据由于设备类型不同,分成不同的数据维度,如告警维度、性能维度、拓扑维度等,每个维度相对独立,且之间的关系均为松耦合。层次与层次之间的沟通均通过API 接口,各个业务模块面对统一的数据模型,使其对资源的管理方式一致并处于单一的可控路径下,方便对资源进行权限管理。 将采集的数据经过数据聚集,再进行数据清洗和过滤、最后通过数据分类后写入数据库,以供展示层从数据库调用监控数据;同时也用于处理展示层传递的用户操作与设定。

2.1.3 展示层

主要将数据处理层处理后的数据进行分类展示,展示层完全以B/S 方式来展示各个管理模块,用于监控拓扑展示、3D 机房呈现、统计报表、大屏呈现,提供统一的Portal,以及告警、报表、历史记录、智能分析、数据统一展现等。 实现与用户互动,响应用户的操作与设定,利用分布式总线实现各逻辑层之间的通信,功能模块之间通过内部定义数据接口,利用消息总线进行交互式操作。

2.2 功能设计

一体化运维平台功能包括资源监控管理(IOM)、资源配置管理(CMDB)、 IT 服务管理(ITSM)、定制可视化大屏(CVC)等模块。 平台能够对监控对象进行分组分类,可根据不同用户实现分权分域管理,结合IT 服务管理模块,实现高水平的服务质量、服务请求和IT 资源管理;通过服务水平协议(SLA),制定符合学校实际业务的指标规则,并无缝兼容市面上的多种呼叫中心系统;结合IP 电话与坐席,实现自动建立工单,并能将电话的录音留存;偶遇突发状况时,可以发布语音公告和文字公告,大大降低故障报修数量,提高运维的工作效率。

2.2.1 呼叫中心

呼叫中心是客服中心统一接入平台,以集中式坐席为服务热线和企业微信线上自助报修的形式,将数据信息统一管理,24 小时不间断地提供服务。

如图2 所示,呼叫中心采用新一代多媒体呼叫中心系统,其功能强大,而且性能稳定、维护简单,集合了先进的计算机技术、通信技术、网络技术、数据库等技术,实现了语音、传真、VOIP、短消息、等多种方式。 其中包含自动语音应答、自动话务分配、电话录音、来电弹屏与ITSM 集成功能,实现不漏接任意资源、报修电话,并自动记录、录音,便于事后追溯。

图2 呼叫中心架构Fig. 2 Call center architecture diagram

2.2.1.1 来电关联工单

呼叫中心通过与一体化运维平台中的ITSM 组件关联,实现系统收到报修电话后,则根据报修人信息自动创建工单。 话务组收到工单后,再对用户进行反馈,或转派给其它对应部门进行处理。

一线维修人员通过企业微信通知打开工单,可以看到报修工单的故障内容摘要、报修人地址、电话等信息,从而进行相应操作处理。

2.2.1.2 自助服务台

将呼叫中心系统与ITSM 系统进行深入对接,并在ITSM 系统增加呼叫中心配置界面,为每位话务人员配置具体的接口地址、ACD 队列号与注册号。 实现电话铃声响起时,系统自动创建工单,同时在表单中同步显示来电用户的姓名、住址、来电号码等信息的功能。 话务组人员只需要判断故障类别,记录故障内容,选择故障地点,即可快速提交工单,使该条工单进入到工单处理环节,最终实现工单的秒接、秒办。

2.2.1.3 运维工作区

运维用户可定制个性化工作区,可在工作区中提供和自己相关的运维工作内容。 其中包括“流程监控”、“待处理的任务”、“我创建的流程”、“与我相关的流程”、“我管理的流程”等。

ITSM 提供了服务、请求/事件/故障、问题、知识库等管理功能。 所有的运维活动,都可以在这个运维工作区中衔接完成,管理人员可以将各种故障处理的步骤和方法写入知识库。

按照运维管理的相关规定,规划建立相应的故障处理工作流程,提供方便易用的用户工作界面。

2.2.2 资源监控管理模块

管理中心以业务管理和业务流程模型为核心,采用面向服务(SOA)的软件设计思想,基于主流的J2EE 架构平台,在保持技术先进性、扩展性的基础上,采用子系统、层次化、模块化的设计理念,以全开放的、组件化的架构原型,通过消息总线进行集成,将实现基础设施监控、CMDB 配置管理、运维流程管理等功能整合成一个综合平台。 此外,平台还提供了分布式、分级式的部署模式,二级代理支持横向扩展,提供可靠的、可扩展的、高性能的一体化运维管理平台,并具备开放的restful web services 接口,用来集成。

如图3 所示,资源管理模块由资源管理及日志采集适配层、系统功能层及web 应用层组成。 资源管理和日志采集适配层支持丰富的设备访问协议,通过SNMP、CLI(telnet/SSH)、netconf、TR069、FTP、TFTP、SCP、RADIUS、HTTP 等协议实现传统网络及SDN(软件定义网络)网络等设备和软件的统一监控和配置管理;通过IPMI、SMI-S、SNMP、SSH 等协议实现对服务器、存储等设备的硬件监控和操作系统自动安装;通过RESTful 接口、SOAP、powershell 等实现对各大主流厂商等虚拟化产品的统一管理;通过WMI、JDBC、SSH、Telnet、SOAP、http/https 等协议实现对操作系统、数据库、中间件、应用系统的统一监控和管理。

图3 资源管理模块数据架构Fig. 3 Resource management module data rrchitecture

系统功能层包含了资源监控、CMDB、运维流程管理模块。 其中,资源监控将协议适配层采集的各类告警和性能数据存入到统一的性能数据及告警库中;CMDB 采用开放可持续集成框架,使用者可定义个性化的定义模型,并且可通过资源监控模块实现数据配置信息的自动发现和更新。 运维流程管理组件基于开源的JBPM 流程引擎,在此之上开发了事件管理、问题管理、变更管理等多种流程实例,实现运维管理流程化。

2.2.3 告警管理模块

告警管理亦称故障管理,为用户提供统一的全流程故障管理体系。 通过设备运行日志自动上报与主动轮询双向处理,确保快速准确发现网络故障。通过实时告警关联分析,屏蔽重复无效告警,分析告警生成原因。 通过实时告警与拓扑提示、告警板声光提示、手机短信、Email、微信等远程提示,快速将详细准确的故障信息通知到网络管理员。 通过固化用户维护经验,为后续相关告警处理提供经验参考与快速定位指导。

2.2.4 ITSM 模块ITSM 服务流程管理模块遵循国际ITIL 标准,采用平台设计理念及模块化设计,系统功能全面、操作简便、高度集成、性能稳定。

采用ITSM 服务,可以提高信息系统运维的可视化水平、提升运行质量及运行效率,为业务稳定、高效、安全、持续的运行提供保障。 最终达到提高服务管理效率,优化运维流程,提高高校运维服务部门的IT 综合服务和维护管理水平。

将管理者设计理念与管理想法融入到流程与制度中,让一线运维人员明确故障& 事件的分级、处理时间要求和处理流程,明确事件& 故障的处理职责和分工界面,提升故障的处理效率。

2.2.5 CMDB 模块

随着IT 技术的进步与发展,高校IT 基础设施和信息系统越来越复杂。 数量庞大、品种繁多的IT设备及以这些IT 设备为基础的各种技术服务很难被有效的管理。 系统通过配置管理数据库(CMDB)对校园的IT 资源进行维护、检查、识别和控制,从而高效控制与管理不断变化的网络基础架构与信息技术服务。

同时,由于高校的IT 环境在不断变化,为了更好的评估某个设备或服务发生的问题或变化对应用的影响,以及为其它流程提供当前系统准确的配置信息,需要准确及时的记录设备数目和状态的变更,精准记录每个设备的状态,必要时即时准备替补资源。

2.2.6 自助报修模块

自助报修模块采用图形化流程定制功能模块,通过简单直观的操作和配置,定义符合高校特色的应用流程活动与角色,实现图形化流程定制功能,由用户自行进行流程的重定义,以及流程的随时调配。用户可以通过PC 端/微信服务大厅根据故障类型提交故障报修,一线维修人员收到工单后,会在规定时间内受理工单。

自助报修模块的总体架构如图5 所示,为确保系统安全,采用单点登录的方式。 可以方便的与第三方系统进行集成,流程生成和处理采用了自动化流转的方式。 后端数据存贮使用了MySQL 数据库,前端主要使用了H5 技术,如图4 所示。

图4 自助报修系统结构Fig. 4 Self-reporting system structure

图5 大屏轮播Fig. 5 Large screen rotation

3 性能分析

性能分析可以快速识别系统运行时产生的异常状况。 平台实时采集纳管设备的运行信息,资源管理包含了学校纳管的所有设备的分类统计和运行状态概览。 以视图的形式呈现核心设备链路出口的收发速率及带宽占用率。 实时采集平台纳管设备的设备日志运行信息,过滤重复设备日志运行信息的同时比对阈值,若超出标准值立即触发告警通知。 当前平台监控网络设备1 879 个节点,监控无线AP 设备23 126 个节点,实现对这些节点的实施监控,快速采集与精准分析都需要占用较大的系统资源,平台资源占用情况见表1。

表1 平台性能图表Tab. 1 Table of platform performance

参照校园地图所提供的位置搜索等功能,这种用户体验,平台提供了折线图、柱状图、饼图、雷达图、地图等数十种图表, D3.js 的JavaScript 库,其利用现有的Web 标准,通过更简单的(数据驱动)方式来展示可视化效果

监控大屏轮播展现3 个校区的楼宇地图,当楼宇内设备出现告警,所对应楼宇开始闪烁,点击楼宇亦可看到告警设备数量,并根据对应数值,查看告警详情页面。 采集到的告警信息,会同步推送到手机APP中,运维人员通过手机实时掌握设备的运行状态和告警消息,发现异常指标及时响应,使设备快速恢复正常运行状态。 如图5 所示。

结合监控数据库空间使用情况分析,可见项目试运行上线2020 年7 月至今数据库空间占用总量为130 G,日志文件3 G。 设计空间800 G 满足平台5 年数据增长量。

为实现数据的通讯、传输、报警、查询、趋势图分析等功能,需要对采集的数据进行长达一年期的无压缩存储,并对每类资源的数据单独划分独立的库存储,同类资源数据存储在同属性的库中。 并根据每一类监控资源节点数量,合理划分每个库的空间大小,自动进行数据库系统运行状态的监控。 由图6 可见,图形化呈现数据库的空间利用率及日志空间占用情况,既能减轻平台维护人员的工作压力,也能更进一步增强平台运行的稳定性。

图6 数据库空间Fig. 6 Database space

对于用户来说,实现便捷的自助报修,平台的设计十分重要。 考虑到目前大部分人手机的使用要远多于其他终端,因此结合之前已存在的微信服务大厅,整合实现成了移动端的自助报修功能。用户可以通过单独设计的H5 页面进行报修,该平台与已经存在的ITSM 模块进行对接结合,通过微信服务大厅进行的故障上报将会自动生成工单,并且发送给相关负责人员。

4 结束语

本文构建的网络运维管理平台已实现了IT 资源跨地域层次化的统一管理;实现了对高校各业务支撑系统的设备管理、性能管理、数据库管理、应用管理、报表管理、资产管理等功能;实现了对各个应用子系统的运行状况进行集中监控,实现声音、短消息发送、钉钉,微信等报警手段;对各系统的运行性能进行监控、分析和统计;完成了数据库及应用管理,能够保证数据库及应用服务管理满足运行维护的需要。

一体化运维管理平台的建设,大大地简化了运维流程、提高了运维效率,同时使得面向全校各级部门的信息化服务质量和服务水平得到大幅度提升。

下一步正在有计划的将其它软硬件资源纳入系统中,实施从传统工作模式向信息化工作模式的全面转变。 随着平台的深入使用,相关工作人员解决问题的效率得到了明显的提升。 所构建的系统大大提高了工作效率,达到了预期目标。

猜你喜欢
工单运维流程
基于量化考核的基层班组管理系统的设计与应用
基于transformer的工单智能判责方法研究
吃水果有套“清洗流程”
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
违反流程 致命误判
杂乱无章的光伏运维 百亿市场如何成长
基于HANA的工单备件采购联合报表的研究与实现
本刊审稿流程
析OGSA-DAI工作流程