基于相关性计算的IT监控对象特征关联分析

2019-09-12 11:46龙玉江卫薇钟掖
关键词:对象监控软件

龙玉江,卫薇,钟掖

基于相关性计算的IT监控对象特征关联分析

龙玉江,卫薇*,钟掖*

贵州电网有限责任公司信息中心, 贵州 贵阳 553000

随着数据中心规模的不断扩大,业务系统越趋复杂,可用性和可靠性要求不断提高,传统的电力IT监控软件仅仅只能够监控对象特征数据指标量,但是却没法发现对象特征之间的相关关系。本文针对电力IT监控对象特征数据,提出了基于相关性计算的IT监控对象关联分析方法,针对IT监控对象特征离散指标,研究了基于卡方测试的相关性计算方法,针对IT监控对象特征连续数值指标,提出了基于相关系数与协方差的相关性计算方法。实验结果表明大部分电力IT监控的连续数值特征之间存在弱相关性,少部分电力IT监控的连续数值特征之间存在强相关性,且电力IT监控特征相关性计算有助于异常的发现。

电力系统; IT监控; 关联性分析

目前,国外的商业传统IT监控软件以HP、IBM、CA等厂商为主,国内以北塔软件、游龙科技、广通信达、摩卡软件为主,这些传统的IT监控软件,在使用过程中,仅仅监控国际通用特征的指标量[1]。但是,随着数据中心规模的不断扩大,业务系统越趋复杂[2],可用性和可靠性要求不断提高,仅仅依靠这些单一通用特征的指标量没法判断整个IT监控中深层次的关联问题[3,4]。

电力IT监控软件通常分别独立地监控主机硬件、网络设备、数据库等各项指标,然后利用人工来监视这些指标的异常情况,但是这些指标之间更加深层次的关联关系不得而知,如服务器温度和硬盘转速指标之间是否存在关联关系?交换机流量和交换机温度之间是否存在关联关系等。

传统的电力IT监控软件还存在如下几个问题:

(1)采集指标覆盖面不够。目前电网公司采购的数据采集软件,采集的监控指标覆盖面不够,需要进行二次开发才能实现。如风扇、温度、电压、硬件物理故障等硬件监控指标;负载均衡器的资源池、虚拟节点健康状态及一些特殊设备的监控指标,如DSG数据同步管理软件的监控采集指标;

(2)监控软件实施困难,当采用有代理的方式部署在大量被监控对象中的时候,每个代理程序都是一个系统,需要进行监控参数的设置,这些设置工作量大而且重复,传统的监控软件缺乏自适应的配置管理功能,不能根据监控对象类型自动设置监控指标或其他参数;

(3)监控软件维护困难,维护每个Agent都是在维护一个小系统,传统的监控软件缺乏统一的管理平台,Agent的相关脚本或者数据管理都是本地化模式,一方面是维护工作量大,另一方面是在代理程序升级修改的时候容易造成脚本或数据的丢失;

(4)缺乏采集功能差异化管理,传统监控软件不能根据被监控对象的服务级别实现监控功能的差异化管理,更不能根据监控指标的重要程度实现差异化的采集调度,它们将同类设备一视同仁,无紧急重要程度区分;

(5)监控软件平台缺乏自我监控功能,传统监控软件各个节点之间没有实现相互协同,相互监视的机制,出现监控的死角;

本文通过电力IT监控对象特征的指标量数据,利用相关性计算方法,来发现电力IT监控对象各指标的关联关系,进一步为电力IT复杂业务系统的软件以及硬件可靠性服务。

1 电力IT监控系统设计

针对电力IT监控的业务需求,系统主要包括如下功能:

1.1 用户管理

拥有用户管理权限的用户可以在此处添加、删除、编辑、启用和禁用用户,亦可通过导入用户模板、全选用户来进行批量操作。

1.2 角色管理

拥有用户管理权限的用户可以在此处添加、删除、编辑和指定角色给用户,用户通过自身角色所保有的权限对系统进行相应的操作,系统管理员不可编辑或删除。

1.3 账号配置

通过导入账号配置模板,实现自动更换主机密码的功能。一台主机设备,在模板上填写多个(例如四个)不同的密码,然后指定使用日期来控制更改使用该密码的时间,到指定日期系统即可自动使用指定的密码对设备进行监控以及采集。

1.4 模板配置

可查看预置的智能运维规则,支持编辑修改规则配置。

1.5 主机DMIIM管理

此界面可查看、管理安装运行的DMIIM客户端主机信息、状态及创建时间。

1.6 自定义脚本管理

此界面中可以创建一个SQL或SSH脚本,添加脚本后,可以选择对应的对象执行该脚本。此功能支持周期性执行脚本和一次性执行脚本,并可以点击返回结果详情查看返回结果。

1.7 非主机对象监控发现管理

可根据IP地址段和扫描周期采集非主机设备,对于新发现的非主机设备配置连接参数后可自动同步更新到监控系统中。

1.8 主机对象监控发现管理

可查看安装了DMIIM客户端的主机设备,以及该设备上安装的Oracle数据库和Weblogic中间件信息,设置连接参数后自动将新发现设备同步更新到监控系统中。

1.9 操作日志查看

此功能记录了系统运行时所有用户的详细操作,可按人、时间、内容等条件来筛选操作记录。

1.10 专项管理

提供对各种主机,数据库,中间件,存储设备和网络设备的整体运行状态,以及各种指标采集状态的监控。

1.11 故障管理

提供对各种告警规则的查看,以及所有告警信息的确认、取消、分析,及处置经验功能。

1.12 报表统计

在之前报表管理功能的基础上,会增加提供按“所在系统”维度的报表展示。

1.13 基础设置

提供对主机,数据库,中间件,IPMI设备,及存储对象和网络设备的增加,修改,和删除等维护性操作。

表 1 电力IT资源采集

2 监控对象特征的相关性计算

首先,我们实现监控Agent的批量部署功能,同时通过统一的管理视图对分布在不同被监控设备上的Agent进行统一的管理,主要包括启停、升级、维护、监视等管理功能。监控指标的增加、删除、修改、查询等功能。

随后,针对监控对象的操作系统、设备类型、功能属性、服务级别等特征及属性进行自动识别分析,形成监控对象特征库。

本文利用相关性计算方法来对电力IT监控对象特征数据进行建模。相关性计算考虑数据的两个维度之间的关联性,本文的电力IT监控对象特征指标相关性计算综合考虑指标数据的连续特征与离散特征,分别建立连续数据相关性计算方法和离散数据相关性计算方法,计算电力IT监控对象各个特征的相关关系,进一步为电力IT复杂业务系统的软件以及硬件可靠性服务。

2.1 监控对象特征离散数据相关性计算定义

定义电力IT监控对象离散数据相关系数定义电力IT监控对象离散数据相关系数是研究具有离散特性的两组变量之间线性相关程度的量。

对于电力IT监控对象的离散数据,本文提出了基于卡方检验[5]的电力IT监控特征和之间的相关性计算方法。假设采集了电力IT监控特征的个不同值的数据1,2,…,p,采集了电力IT监控特征的个不同值的数据1,2,…,q。用特征表示的数据元组能够用一个相依表来描述,其中,监控特征的个数据构成列,监控特征的个数据构成行。令(P,Q)表示特征取值p,特征取值q的联合事件,即(=p,=q)。每个可能的(P,Q)联合事件都在表中存在相应的单元。

电力IT监控对象离散数据相关系数2值计算如下:

其中,是电力IT监控数据元组的个数,(=p)是电力IT监控特征上具有值p的元组个数,而(=q)是电力IT监控特征上具有值q的元组个数。

佟庆富是沈阳郊区的一个普通农村养鱼户,承包鱼塘虽然也能为家里增添一些收益,但也没能赚什么大钱。不过,5年前的一次小经历,却完全改变了佟庆富的人生。

2统计检验假设电力IT监控特征和特征是独立的。检验基于显著水平,具有自由度(-1)×(-1)。如果通过实际数据计算可以拒绝该假设,则说明IT监控特征和特征是统计相关的。

2.2 监控对象特征连续数字数据相关性计算定义

定义电力IT监控对象连续数值数据相关系数定义电力IT监控对象连续数值数据相关系数是研究具有连续数值特性的两组变量之间线性相关程度的量。

对于电力IT监控对象的连续数值数据,本文提出了基于相关系数的电力IT监控特征和之间的相关性计算方法。

用字母表示电力IT监控特征和之间的相关系数,计算方法如下:

在概率论与统计学中,方差和协方差是两个相似的度量方法。因此,本文在相关系数的基础上,提出了基于协方差的相关性计算方法。

则电力IT监控特征两个连续数值属性和的协方差定义为:

由上式可以计算电力IT监控特征和的相关性。

(2)电力IT监控特征和完全相关的含义是在概率为1的意义下存在线性关系,于是||是一个可以表征电力IT监控特征和之间线性关系紧密程度的量。当|(,)|较大时,说明电力IT监控特征和相关程度较好;当|(,)|较小时,说明电力IT监控特征和相关程度较差;电力IT监控特征和不相关,通常认为电力IT监控特征和之间不存在线性关系,但并不能排除电力IT监控特征和之间可能存在其他关系。

若电力IT监控特征和不相关,|(,)|=0,通常认为电力IT监控特征和之间不存在线性关系,但并不能排除电力IT监控特征和之间可能存在其他关系;若|(,)|=0,则电力IT监控特征和不相关。

若电力IT监控特征和独立,则必有|(,)|=0,因而电力IT监控特征和不相关;若电力IT监控特征和不相关,则仅仅是不存在线性关系,可能存在其他关系,如2+2=1,电力IT监控特征和不独立。

3 系统实现与算法有效性验证

3.1 系统架构

电力IT监控管理自适应系统架构图如下图所示:

图 1 电力IT监控管理自适应系统架构图

整个架构包含三个部分:

(1)通过SOCKET方式与DMIIM扫描程序建立通信,接收主机(包括服务器、操作系统、中间件、数据库等在操作系统环境下的监控对象)、非主机对象(网络设备、存储、负载均衡等无操作系统的监控对象)的设备特征信息,主机对象是通过DMIIM的定时脚本扫描获取特征信息;非主机对象是通过对指定地址段进行搜索,比对地址信息表发现新增对象,并通过SNMP协议获取特征信息;

(2)通过界面服务提供统一管理平台DMIIMCMM的入口,能够对DMIIM进行集中管理监控并实现远程部署和启停操作,提供对监控模板的差异化配置管理并形成设备特征库,同时可对操作日志、监控情况、账号配置、脚本下发等进行管理;

(3)与监控系统和IT服务管理系统进行交互,从服务管理系统获取设备的等级信息,结合自动发现的设备特征,与监控模板自动进行匹配,获取监控信息并发送到监控系统。

3.2 实验采集的数据

● 主机硬件各主机硬件基本信息及各项指标如温度、转速、传感器等的相关状态,及获取到各指标相关数据。

● 网络设备监控如防火墙、交换机、路由器等设备的性能及获取各项指标。

● 主机系统对Windows、Linux等各种类型的操作系统的主机实施监控,并对各项性能指标进行监测并获取各指标相关数据。

● 均衡负载器对均衡负载器实施监控,获取相关指标信息。

● 数据库对oracle等数据库获取并监测如访问状态、表空间使用率等指标信息。

● 中间件对weblogic等中间件获取并监测如访问状态、工作状态等指标信息。

● 存储设备对IPMI等硬件获取并监测如设备相关状态信息等指标信息。

● IPMI硬件对磁盘阵列、光纤交换机等存储设备获取并监测如设备相关状态信息、工作状态等指标信息等。

● 第三方coherence软件告警监控第三方coherence软件的相关指标。

3.3 相关性计算实验分析

实验计算了电力IT监控各个特征指标量之间的相关性,由于相关性计算需要考虑数据离散性或者连续性,因此,根据数据的特点,实验分别验证了离散电力IT监控特征的相关性分布与连续电力IT监控特征的相关性分布,具体实验结果如图2所示。

(a)离散卡方测试相关性分布 Correlation distribution of discrete Chi-square test (b)连续数值相关系数分布 Correlation coefficient distribution of continuous numerical value

图2(a)表示针对电力IT监控离散数据之间的相关性分布,实验结果表明在电力IT监控的各个离散特征中,约30%的离散特征之间存在相关性。图2(b)表示针对电力IT监控连续数值数据之间的相关系数分布,由图所示可知,相关系数值在[0,0,2)之间的连续数值特征占总比例的约40%,相关系数值在[0.2,0,4)之间的连续数值特征占总比例的约30%,相关系数值在[0.4,0,6)之间的连续数值特征占总比例的约20%,相关系数值在[0.6,0,8)之间的连续数值特征占总比例的约10%,相关系数值在[0.8,1]之间的连续数值特征占总比例的约1%,实验结果表明大部分电力IT监控的连续数值特征之间存在弱相关性,少部分电力IT监控的连续数值特征之间存在强相关性。

3.4 相关性计算有效性验证

实验利用电力IT监控特征的两组指标量的异常相关性来验证相关性计算是否有效。即:

即表示相关性计算在电力IT监控中所发现的两组相关的特征能够有多大可能帮助我们来发现特征异常,简单理解就是如果我发现了电力IT监控中有两组特征之间存在相关性,且发现一组特征存在异常,则有概率为的可能性相关的另外一组特征也存在异常。

实验分析了相关性异常召回率,利用实验来验证相关性计算是否有助于平常电力IT监控中的异常特征发现。电力IT监控相关性异常召回率实验结果如图3所示。

(a)离散卡方测试相关性异常召回率r Recall rate of abnormal correlation in discrete Chi-square test (b)连续数值数据相关性异常召回率r Recall rate of abnormal correlation in continuous numerical value

图3(a)表示电力IT监控离散卡方测试的相关性异常召回率,其中横轴Threshold表示电力IT监控离散卡方测试结果阈值,阈值越高,说明相关性越高,纵轴表示相关性异常召回率。实验结果表明电力IT监控离散特征之间的相关性越高,相关性异常召回率越高,说明电力IT监控特征相关性计算有助于异常的发现,进一步可以推断在电力IT监控中,如果发现一组特征存在异常,则有概率为的可能性相关的另外一组特征也存在异常。

图3(b)表示电力IT监控联系相关性计算的相关性异常召回率,其中横轴Threshold表示电力IT监控连续数值数据相关系数结果阈值,阈值越高,说明相关性越高,纵轴表示相关性异常召回率。实验结果表明电力IT监控连续数值特征之间的相关性越高,相关性异常召回率越高,同样说明电力IT监控特征相关性计算有助于异常的发现,进一步可以推断在电力IT监控中,如果发现一组特征存在异常,则有概率为的可能性相关的另外一组特征也存在异常。

4 结束语

针对电力IT监控对象特征数据,提出了基于相关性计算的IT监控对象关联分析方法,针对IT监控对象特征离散指标,研究了基于卡方测试的相关性计算方法,针对IT监控对象特征连续数值指标,提出了基于相关系数与协方差的相关性计算方法。在未来的工作中,我们将对电力IT监控对象相关性计算方法进行更深入的研究,结合机器学习的相关理论与知识,提高监控系统的智能性。

[1] 高丽婷,温秀梅,侯满哲,等.基于以太网的电网监控系统设计[J].电源技术,2016,40(7):1498-1500

[2] 葛君伟,张博,方义秋.云计算环境下的资源监测模型研究[J].计算机工程,2011,37(11):31-33

[3] Jeswani D, Natu M, Ghosh RK. Adaptive Monitoring: Application of Probing to Adapt Passive Monitoring[J]. Journal of Network and Systems Management, 2015,23(4):950-977

[4] 李军虎.一种基于多 Agent 远程分布式故障诊断系统模型[J].计算机与数字工程,2011,39(6):58-60

[5] Sharpe D. Your Chi-Square Test Is Statistically Significant: Now What?[J]. Practical Assessment, Research and Evaluation, 2015,20(8):1-10

Correlation Analysis of IT Monitoring Objects Based on Correlation Computation

LONG Yu-jiang, WEI Wei*, ZHONG Ye*

553000,

With the continuous expansion of the scale of data center, the more complex the business system and the increasing requirement of availability and reliability, the traditional power IT monitoring software only could monitor the object feature data to refer to the scalar, but it couldn’t find the correlation between the object features. In view of the feature data of the power IT monitoring object, this paper proposed a correlation analysis method of IT monitoring object based on correlation computation. According to the discrete index of the feature of IT monitoring object, the correlation calculation method based on the chi square test was studied. The correlation coefficient and covariance were put forward in view of the continuous numerical index of the feature of the IT monitoring object. The experimental results showed there was a weak correlation between the continuous numerical features of most power IT monitoring, and there was a strong correlation between the continuous numerical features of a few power IT monitoring, and the correlation calculation of the power IT monitoring features helped the discovery of the anomaly.

Power system; IT monitoring; correlation analysis

TM744

A

1000-2324(2019)04-0619-07

2018-02-10

2018-03-29

龙玉江(1976-),男,本科,高级工程师,研究方向为信息技术. E-mail:longyj@gz.csg.cn

Author for correspondence. E-mail:47765382@qq.com; E-mail:zhongye@gz.csg.cn

猜你喜欢
对象监控软件
The Great Barrier Reef shows coral comeback
禅宗软件
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
判断电压表测量对象有妙招
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
软件对对碰
攻略对象的心思好难猜
区间对象族的可镇定性分析
即时通讯软件WhatsApp