数据中心智能运维管理方案设计

2021-06-01 10:33严代彪
计算机与网络 2021年6期
关键词:运维数据中心管理系统

严代彪

本文针对数据中心的特点,以智能化运维管理为目标,提出了数据中心智能运维管理方案,设计了运维门户及展示管理、运维资产配置管理、运维服务管理、运维监控监测告警管理、运维自动化管理及开放接口管理等主要内容,为数据中心智能运维管理系统建设提供指导。

云计算、大数据、物联网及人工智能等新一代信息技术蓬勃发展,数据中心的规划、设计、建设和运维呈现出绿色节能、向资本效率转型、智能化和智能运维管理等特点。随着信息化进程的日渐深化,智能化运维在数据中心的作用已经不仅限于基础设施的建设、应用及工具的维护,数据中心业务对智能化运维的依赖程度越来越大,这决定了智能化运维已经成为数据中心价值链中不可或缺的重要一环。本文针对数据中心的发展趋势和特点,以智能化运维管理为目标,提出了数据中心智能运维管理方案,设计了智能运维门户及展示管理、运维资产配置管理、运维服务管理、运维监控监测告警管理、运维自动化管理及开放接口管理等主要内容,为数据中心智能运维管理系统建设提供指导。

数据中心面临的挑战

管理角度

首先就是经济性,包括网络资源、空间资源和动环资源如何有效地利用,以及缩减能源和维护人员的运行费用;其次是灵活性方面,包括如何识别和降低过度部署和冗余、灵活扩展空间、制冷和供电容量,及更快地响应业务;第三就是可用性方面,如何实现精细化管理、及时排除隐患、处理复杂故障以及实现动态资源管理;第四就是管理性方面,如何进行有效地数据分析支撑决策和规划、实现系统一体化、系统统一协作和快速响应、满足大客户服务等级协议(SLA)和自服务管理等。

技术角度

首先面临的挑战就是运维海量数据的存储、分析和处理问题。运维人员必须随时掌握服务器的运行状况,除了常规的服务器配置、资源占用情况等信息外,业务在运行时会产生大量的日志、异常、告警和状态报告等事件。通常每台服务器每个时刻都会产生大量这样的事件,在有数万台服务器的场合下,每天产生的事件数量是数亿万计,存储量在TB级别的。数据中心的服务器规模往往比较大,如何统一、自动化处理这些事件的需求很强烈,毕竟登录查看日志这种方式效率很低,而当前的监控软件只能收集和处理众多事件中的一部分,当服务器数量多了以后,其扩展能力、二次开发能力非常有限。

其次面临的挑战是多维度、多数据源的复杂性问题。多维度数据不仅包括常用的时间、地点(哪个服务器或组件)、内容(错误码或状态值),还应当包括地区、机房、服务池、业务线、服务和接口等,而数据分析人员则需要使用各种维度、组合各种指标来生成报告、告警规章及Dashboard等。如何从异构的数据源获取数据,还要考虑当其中某个数据源失效、服务延迟时,能否不影响整个系统的稳定性。多数据源还有一个关键问题就是如何做到数据和展现分离,如果展现和数据的契合度太高,那么随便一点变更就会导致前端界面展现部分的更改,带来的工作量会非常大。

第三个技术挑战就是复杂业务模型下的故障定位。业务模型(或系统部署结构)复杂带来的最直接影响就是定位故障很困难,发现根源问题成本较高,需要多部门合作,开发、运维人员相互配合分析(现在的大规模系统很难找到一个能掌控全局的人),即使这样有时得出的结论也不见得各方都认可。在复杂、异构和各种技术混杂的业务系统中,如果想发现问题并定位故障,在各个系统中就必须有一个可追踪、有共性的东西。然而,在现实中若想用某个体系来“一统天下”基本不可能,因为各种非技术因素可能会让这种努力一直停留在规划阶段,尤其是大公司,部门之间的鸿沟是技术人员无法跨越的。

因此,面对以上挑战,数据中心应建设“集中化运维、一体化管理、智能化分析、流程化控制”的智能运维管理系统,才能实现智能化运维的管理目标,减少运维人员和维护成本,优化资源管理,从整体上提高智能化运维系统运行协调性、安全性和资源共享性,发挥信息化建设的最大效益。

总体设计

总体原则

智能运维管理方案立足体系建设的角度进行设计,总体原则遵循以下4个方面:

以完善的运维服务制度、流程为基础

为保障运行维护工作的质量和效率,应制定相對完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度与流程的规范和约束下协同操作。

以先进、成熟的运维管理平台为手段

通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效化。

以高素质的运维服务队伍为保障

运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维工作。

以智能化运维管理为目的

智能化运维管理需要实现智能监控、智能检测配置变更以及智能提示3个主要功能,自动提示报警信息,自动触发智能运维变更流程,方便运维管理人员及时采取应对措施。

2.总体架构

数据中心运行智能运维管理系统由基础设施运维、支撑服务运维、应用系统运维和安全防护系统运维4部分组成,针对数据中心建立的网络设备、计算设备、存储设备和安全防护设备等进行设备管控,同时对操作系统、数据库和中间件等基础软件,以及一体化探测网络应用软件、数据传输系统应用软件、信息处理与服务系统应用软件等提供软件运行实时监测,智能运维管理系统总体架构如图1所示。

资源层

是数据中心中所有的IT资源,是运维服务的主要对象,包括基础动力环境、网络通信资源、计算存储资源、云资源和应用业务系统资源。

服务层

包括资源接入服务、数据资源及数据支撑服务和共用的支撑服务。资源接入服务提供各种类型资源的接入功能,负责对资源的运行数据进行采集、控制等。数据资源及数据支撑服务负责对资源的基础信息、资源状态、性能和容量等数据进行采集、存储、管理和分析等。共用服务的基础支撑软件是构建系统所需基础软件运行支撑、规范信息交换流程、提升系统间数据互联互通互操作的能力,提供系统运行、集成手段的基础软件系统,为运行管理保障系统各业务应用软件的研制与综合集成提供共性基础支撑。

监控监测告警

主要通过各种管理协议和管理接口适配,实现各类管理对象的管理信息采集和运行状态感知,收集高质量、可信和准确及时的信息,提供对上层运维服务的支撑,保障业务流程的有效运行,所管理的对象包括:网络、服务器、存储、安全、机房动力环境及应用服务系统等。

运维服务管理

是为使服务达到其质量目标而以确定的方式实施的一系列规范化管理服务。运维服务管理流程从流程的目标和范围、流程的触发、流程的输入和输出、流程与其他流程的关系、流程的活动、流程的参考设计、流程中的角色和职责以及流程的关键度量指标等方面对流程进行定义。

资源配置管理

主要包括资产管理和CMDB配置管理,资产管理服务是提供资源基础信息、配置信息等管理;

运维自动化管理

为管理人员提供运维自动化能力,提供批量调度执行运维任务,简化运维工作,应对大量简单重复运维动作,比如系统批量补丁升级。

统一门户及展现管理

提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查询和相关操作。

组成功能

通过对运维体系的分析,依托业界现有运维相关的小工具小系统,本文提出了一体化数据中心智能运维管理系统的方案,主要包括综合门户系统、资产配置管理系统、健康监测系统、运维自动化系统、运维服务管理系统和运维对外开放接口系统。这些系统可进行单独部署运行,也可组合形成大系统。系统组成功能如图2所示。

綜合门户系统

提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查看和相关操作。

资源配置管理系统

提供整合数据中心及项目资产基本信息、资产关联信息、资产生命周期的管理功能,同时对系统运行的配置信息进行管理。

健康监测告警管理系统

系统通过自动化的健康监测手段,对数据中心的动力环境、IT基础设施、应用系统进行全方位的监测,同时从状态、性能、容量多个维度判断系统的运行情况,一旦出现问题则通过声光电、短信和邮件等多种方式进行告警通知。

运维服务管理系统

服务流程管理产品遵循ITIL/ITSS等IT服务管理标准,建立以客户为中心的运维模式,将人、技术与流程进行有效地融合,通过流程管理平台,制定内部运维流程,将运维团队的服务产品化、标准化,提供了服务过程的设计、过程记录、监督与考核等事务的管理能力,同时提供了对IT的各项服务、能力进行整合的职能。服务流程管理产品以高效的自主框架为流程处理引擎,并自主研发图形化的自定义流程、流程状态监控、流程定制工具,方便用户按照实际需求进行定制流程与编制对应的工单。

运维自动化管理

通过自动化的方式批量完成运维任务,降低运维工作量,规范运维操作,同时支持故障与处理脚本关联,实现故障自愈等功能。

部署架构

一个典型的数据中心网络架构中分为业务网络、存储网络和管理网络等子网络,运维系统需要与各个子网进行对接,以接收各个子网的数据。在监控过程中采集器部署到与被监控网络互通的网络域,采集器采集数据后,发送给传输消息队列,这要求采集器与消息队列的网络能够互通。智能运维管理系统部署架构,如图3所示。

当前云计算IaaS平台的部署,经常将网络划分成不同的子网,不同的子网传输不同的流量,既方便运维管理,也方便租户使用,既安全又互不干涉。

管理网:适用于进行运维管理,传输运行数据、管理数据。

业务网:适用于业务系统的流量,适用于业务系统使用,比如OA系统等。

存储网:适用于部署了基于x86架构的分布式存储、虚拟存储或者大数据存储平台,需要独立的存储网络支撑存储流量。

SAN网:用于采取集中存储的数据存储环境,此网络属于光纤网络,监控系统不会接入到光纤网络。

工控网:使用于机房环境监控。

如果网络进行了管理、业务子网的划分,那么要求部署监控系统采集器的服务器或者虚拟机具备至少3个网卡、3个网址,分别属于不同的子网。

监控系统实现了对机房环境、网络设备、安全设备、服务器硬件、操作系统、中间件、数据库、业务系统以及日志等数据的监控,不同的监控对象,监控数据需要在不同的网络中获取。应用服务器采用双机冗余,部署资源管理、策略管理、系统管理、告警模块和报表模块等管理模块,部署消息队列、缓存、数据解析分析、外部接口等基础软件模块。

技术路径

微服务架构设计

随着微服务等新兴架构的提出,在框架轻量解耦、需求敏捷响应、结构自动演化、资源弹性伸缩等方面有了长足进步,但也会带来性能损耗、整体资源要求高以及运维复杂等缺点。在数据中心智能运维管理系统建设过程中,需要充分结合现有信息系统特点和现状要求,考虑机动环境快速构建、服务运行自动扩容等场景,借鉴并兼容微服务中基于容器技术的服务持续集成、动态迁移、弹性扩展及监控治理等技术,实现服务持续集成、部署迁移和监控治理等能力,提供更精准敏捷的信息服务能力。

基于跨平台监控管理功能的设计及应用

随着计算机技术、网络技术、通信技术和安全技术的飞速发展以及经济全球化的加速,以网络、主机、存储、数据库和中间件作为主要信息化组成部件来说,拥有着交换、传输数据等各种业务网络,其设备数量也非常庞大。运行管理技术是业务系统正常、经济效益和安全运行的重要保证。对于在复杂的多技术应用的场景下,如何使监控管理功能适配多种技术,并且能够运行在多种技术平台,是必须要考虑的技术选择问题。基于跨平台的监控管理就是通过一个管理平台对互连的多个不同专业的IT运行环境进行全面的集中管理,对所提供的业务进行端到端的管理,实施跨专业的故障定位和故障排除。它具有以下要求:管理所有IT资源、将各个系统的告警和性能信息统一到一个平台、实现故障的跨专业综合分析以及使用统一的用户界面(GUI),使网络管理和维护人员简便易学。

基于分布式架构监控管理功能的设计及应用

分布式架构设计,天然就有多个节点,很容易通过主备、冗余、哈希等手段实现计算和存储冗余备份,从而实现高可用。当然分布式架构多个节点的设计也带来了保持一致性和高可靠性上的巨大挑战,分布式系统的存储往往会设计成多份冗余,并尽可能在机架、机房甚至城市维度将冗余的数据分散在多处,以保障系统的高可用和业务连续性。随着分布式架构等新兴架构的提出,在框架轻量解耦、需求敏捷响应、结构自动演化、资源弹性伸缩等方面有了长足进步。考虑提高系统高稳定性及可连续性等业务使用场景,借鉴分布式架构等技术,采集层、分析处理器、应用层、数据库存储层实现多节点集群实现,实现服务高效稳定运行、可持续扩展等能力。

基于有代理和无代理相结合的数据采集技术

有代理Agent监控方式是国外一些大厂产品普遍采用的方式,作为整个管理系统的组成部分,Agent的主要功能是用来采集监控的基础数据。Agent监控方式的最大问题就是需要在每个被监控的系统终端安装一个代理软件,这样整个系统的部署及维护难度较大。而且运行在每个被监控端的代理一旦出现问题,还需要登录到系统上去维护。Agentless监控方式,是指在被监控应用所在的主机上面,不安装代理软件采集相应的信息,而是通过一些标准的协议,包括主机使用的SNMP,Telnet,SSH,WMI等,以及应用使用的JMX,JDBC,ODBC等实现监控。对比Agent的监控方式,Agentless在易用性、可维护性和性能损耗上的优势明显。同时,数据采集是整个管理平台的基础,负责采集平台运行需要的数据,在被监测对象上部署Agent的方式,可能对业务系统产生冲突带来不安全因素。Agent监控方式的优势包括在监控资源端采集的数据经过压缩处理后传输给监控服务器、对网络带宽占用比较低、支持二次开发等。鉴于Agentless和Agent的各自优缺点,综合2种方式的特性,支持2种方式的监控采集,尽量做到扬长避短。

基于ITIL以服务为中心的运维服务管理

ITIL即信息技术基础架构库,主要适用于IT服务管理(ITSM),ITIL为IT服务管理实践提供了一个客观、严谨和可量化的标准与规范。结合业界运维过程管理标准,本系统以ITIL和ISO20000为信息化服务流程规范,统一制定信息化服务流程,并由运维流程子系统进行统一管理,对服务流程实行统一集中监控,提供直观、美观且图形化的监控视图,动态实时反映各项服务流程的执行情况和效率。通过规范化的流程梳理,定义完善的服务台统一接入、服务请求和事件处理流程、以及其他信息化运维必须的流程。系统提供丰富多样的统计分析工具和图表展示,以报表形式形成信息化运维管理周报及月报,用于分析和统计各项服务管理流程的执行情况及效率,为不断优化服务流程、提高運维服务效率和用户满意度提供依据。

基于自动化技术的配置管理数据库搜集维护过程管理

配置管理数据库(Configuration Management Database,CMDB)存储与IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。过程管理主要是完成资产和配置的数据增删改查操作,微软的.net架构和J2EE架构是比较成熟的2类技术。采用自动化的技术对CMDB的配置信息进行自动维护,可极大地降低人工维护的工作量、提高数据的准确性,充分发挥CMDB在运维中的基础作用。本系统模块的侧重点在配置和管理系统的状态上,无需安装Agent,主机通过SSH协议与监控对象进行通信,从运维成本和维护性上来说,只需关注主机的运行状态,不会增加额外的运维成本。由于在运维服务管理选择了J2EE技术,因此本系统的基础技术路线也选择J2EE体系。保证底层技术的一致性。在CMDB数据的维护中,部分数据采用人工和基于SSH协议的自动化结合的方式进行。

数据中心的智能运维管理的实现,不仅减少了传统人工运维管理下的时间延迟,将运维管理人员从重复性工作中解放出来,提高了工作效率,而且,基于一体化运维管理平台的智能运维管理系统还可以实现自我状态监控,对运维管理中的各种风险进行预估,减少因为智能运风险导致的成本支出,在今后,特别是大型数据中心的运维管理中,将发挥越来越重要的作用。但是对于基于数据中心运行的业务系统的运维管理,还需要针对不同业务系统,开发定制具体功能模块,这也是智能运维管理系统的短板。

猜你喜欢
运维数据中心管理系统
基于单片机MCU的IPMI健康管理系统设计与实现
关于间接蒸发冷机组在数据中心中应用的节能分析
基于物联网的IT运维可视化管理系统设计与实现
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
2018年数据中心支出创新高
基于分布式数据库Cedar的高效工单管理系统设计与实现
2017第十届中国数据中心大会榜单
电子政务甲方运维管理的全生命周期
基于.NET框架的内容管理系统设计与实现