基于概率统计模型的电力IT监控对象特征异常检测

2019-09-12 11:46卫薇龙玉江钟掖
关键词:正态分布阈值准确率

卫薇,龙玉江,钟掖

基于概率统计模型的电力IT监控对象特征异常检测

卫薇,龙玉江*,钟掖*

贵州电网有限责任公司信息中心, 贵州 贵阳 553000

随着数据中心规模的不断扩大,业务系统越趋复杂,可用性和可靠性要求不断提高,传统的电力IT监控软件仅仅只能够监控对象特征数据指标量,但是却没法对对象特征数据指标量进行异常预警,传统的电力IT监控对象特征数据异常告警仅仅依靠简单的事先阈值配置,误报率与漏报率依赖事先阈值的设置,整体异常告警性能欠佳。本文针对电力IT监控对象特征数据,提出了基于概率统计模型的电力IT监控对象特征异常检测方法,针对数据分布的特点,研究了基于一元正态分布的监控对象异常检测方法与基于混合参数分布的监控对象异常检测。实验结果表明本文提出的方法在电力IT监控对象特征异常检测的准确率、召回率、以及F值上均优于传统的事先阈值配置的异常告警方法。

电力; IT监控; 异常检测; 概率统计模型

目前的电力IT监控运维管理方法是:通过人工制定管理规则,例如对每一个监控对象设置监控哪些指标、设置每个指标的阈值、定义指标发生异常后的处理策略等[1],都是通过人工进行制定,然后由运维管理系统进行实施的。但是,随着数据中心规模的不断扩大,业务系统越趋复杂[2],可用性和可靠性要求不断提高,仅仅依靠这些通用特征的指标量没法判断整个IT监控中的异常问题[3,4]。

比如IT监控软件仅仅只能够监控服务器CPU负载指标量,但是却没法对CPU负载指标量进行异常预警,即什么样的指标量说明CPU处于高负载不得而知。又如IT监控软件仅仅只能够监控网络中的输入流量和输出流量的具体指标量,但是什么样的流量属于异常流量不得而知。

传统的IT监控软件指标预警通常人工事先指定一个阈值,指标触发越界指标则告警。人工事先指定阈值通常存在如下几个问题:(1)采集指标覆盖面不够。目前电网公司采购的数据采集软件,采集的监控指标覆盖面不够,需要进行二次开发才能实现。如风扇、温度、电压、硬件物理故障等硬件监控指标;负载均衡器的资源池、虚拟节点健康状态等指标及一些特殊设备的监控指标,如DSG数据同步管理软件的监控采集指标。

(2)监控软件实施困难。当采用有代理的方式部署在大量被监控对象中的时候,每个代理程序都是一个系统,需要进行监控参数的设置,这些设置工作量大而且重复,传统的监控软件缺乏自适应的配置管理功能,不能根据监控对象类型自动设置监控指标或其他参数。

(3)监控软件维护困难。维护每个Agent都是在维护一个小系统,传统的监控软件缺乏统一的管理平台,Agent的相关脚本或者数据管理都是本地化模式,一方面是维护工作量大,另一方面是在代理程序升级修改的时候容易造成脚本或数据的丢失。

(4)缺乏采集功能差异化管理。传统监控软件不能根据被监控对象的服务级别实现监控功能的差异化管理,更不能根据监控指标的重要程度实现差异化的采集调度,它们将同类设备一视同仁,无紧急重要程度区分。

(5)监控软件平台缺乏自我监控功能。传统监控软件各个节点之间没有实现相互协同,相互监视的机制,出现监控的死角。

本文通过电力IT监控对象特征的指标量数据,利用概率统计方法,来发现电力IT监控对象的异常特征,进一步为电力IT复杂业务系统的软件以及硬件可靠性服务。

2 电力IT监控对象特征数据采集

(由于电力IT系统涉及的设备种类繁多、应用多样,因此,我们首先对采集的数据进行层次划分与属性归类,并提出相应的采集方法,从而为后续的监控技术研究明确数据规范与标准。从监控需求出发,采集数据大致可以分为物理层、网络层、系统层、数据层、中间件层、应用层等6个不同的层次,具体的数据采集需求如表1所示。

表 1 电力IT监控数据采集需求

● 主机硬件

各主机硬件基本信息及各项指标如温度、转速、传感器等的相关状态及获取到各指标相关数据。

● 网络设备

监控如防火墙、交换机、路由器等设备的性能及获取各项指标。

● 主机系统

对Windows、Linux等各种类型的操作系统的主机实施监控,并对各项性能指标进行监测并获取各指标相关数据。

● 均衡负载器

对均衡负载器实施监控,获取相关指标信息。

● 数据库

对oracle等数据库获取并监测如访问状态、表空间使用率等指标信息。

● 中间件

对weblogic等中间件获取并监测如访问状态、工作状态等指标信息。

● 存储设备

对IPMI等硬件获取并监测如设备相关状态信息等指标信息。

● IPMI硬件

对磁盘阵列、光纤交换机等存储设备获取并监测如设备相关状态信息、工作状态等指标信息等。

● 第三方coherence软件告警

监控第三方coherence软件的相关指标。

3 监控对象特征的异常检测

3.1 监控对象特征异常定义

首先,我们实现监控Agent的批量部署功能,同时通过统一的管理视图对分布在不同被监控设备上的Agent进行统一的管理,主要包括启停、升级、维护、监视等管理功能。监控指标的增加、删除、修改、查询等功能。

随后,针对监控对象的操作系统、设备类型、功能属性、服务级别等特征及属性进行自动识别分析,形成监控对象特征库。

本文利用统计方法对电力IT监控对象特征数据进行建模[5]。统计学方法是基于模型的方法,即为数据创建一个模型,并且根据对象拟合模型的情况来评估它们。本文的电力IT监控对象特征异常检测的统计学方法基于构建一个概率分布模型,并计算特征对象有多大概率可能符合该模型。

定义1电力IT监控对象异常点的概率定义。电力IT监控对象异常点是一个对象,关于IT监控对象数据的概率分布模型,它具有低概率。

即假设正常电力IT监控对象特征的指标量被一个以Q为参数的参数分布产生,该参数分布的概率密度函数(,Q)给出对象被该分布产生的概率。该值越小,越可能是异常值。

概率分布模型通常估计指定的分布参数Q,由数据创建。本文假设IT监控对象特征的指标量数据具有高斯分布,则基本分布的均值和标准差可通过计算IT监控对象特征的指标量数据来估计。

3.2 基于一元正态分布的监控对象异常检测

正态分布是电力IT监控对象特征数据中最常见的分布。定义电力IT监控对象特征数据中的正态分布为(,),两个参数和分别表示均值和方差。

定义2 单个(0,1)正态属性的电力IT监控对象异常点。设属性取自具有均值0和标准差1的正态分布。一个具有属性值的电力IT监控对象的异常点,如果:||≥

其中,是一个选定的常量,满足(||≥。

为了使用该定义来发现电力IT监控对象的异常点,需要指定值。具体表示错误地将来自给定分布的值分类为异常点的概率。

如果电力IT监控对象的正常指标量分布是具有均值和标准差的正态分布,即(,)分布,我们需要将属性变换为新属性,具有(0,1)分布。具体的变换方法,本文使用检验(又被称为最大标准残差检验)。

3.3 基于混合参数分布的监控对象异常检测

一元正态分布在大多数电力IT监控对象特征指标量中是有效的。然后,随着数据中心规模的不断扩大及云计算技术的广泛应用,基于资源的IT监控对象的数据也更加复杂化,一元正态分布过于简单。比如IT监控对象网络设备中的流量数据相对较为复杂,一元正态分布不能够很好地对流量数据进行建模。因此,针对IT监控对象特征指标量中分布较为复杂的数据,本文采用基于混合参数分布的监控对象异常检测方法。

其中,Q1和Q2分别是Q1和Q2的概率密度函数,本文采用期望最大化(EM)算法来学习混合模型的参数1,1,2,2。正常数据将形成对应分布的簇,一个电力IT监控对象某一特征指标量的数据被检测为异常点,如果它不属于任何正常簇,即它被这两个分布的组合产生的概率很低。

上述混合参数异常点检测方法仅仅只能够发现电力IT监控对象某一特征指标量孤立的异常对象点。而实际的电力IT监控对象特征指标量数据通常表现的极为复杂性。比如电力IT监控主机硬件的温度,指标量异常值不仅仅体现几个单一的温度值,通常一小簇温度值都为异常对象。因此,假设2个分布的混合模型,一个分布为正常数据,而另外一个分布为异常点数据。

其中,是一个对象;是0和1之间的数,即异常点的期望比例。分布由数据估计,而分布通常取均匀分布。RE分别为时刻正常和异常对象的集合。初始=0,0=,而0为空。在任意时刻,整个数据集的似然和对数似然分别根据以下两式计算:

其中,Ps、PRt和PEt分别是S、Rt和Et的概率分布函数,由上式可以计算正常对象分布和异常对象分布的概率密度参数,进一步的可以发现电力IT监控对象的异常点。具体的电力IT监控对象特征指标量数据异常检测算法如下所示。

算法1基于混合模型的电力IT监控对象特征指标量数据异常检测

1:初始化,在时刻t=0,令Rt包含所有的对象,而Et为空。

令LLt(S)=LL(Rt)+LLt(Et)为所有数据的对象似然。

2:for 属于Rt的每个点o do

北京科技大学图书馆推行的辅助大学生创新社会实践案例获得了2016年全国高校信息素养教育研讨会案例大赛一等奖,案例是为满足学生创新社会实践进行前期文献调研这一临时性、应急性的需求而设计的。目的是要在短时间内将学生当下所需的知识技能以恰当的方式迅速有效地传达给学生。案例从学生社会实践文献调研的全流程进行了教学设计,内容不仅包括文献及检索基础知识框架、文献的检索、遴选、获取、管理等文献检索相关技能,同时还针对实践队要求高协同工作的特点,介绍了知识管理软件有道云笔记和有道云协作,以辅助团队提高协作效率。并结合逻辑演绎规则及学生认知规律,对学生选题及检索系统使用做了剖析和讲解。

3:将o从Rt移动到Et,产生新的数据集合Et+1和Rt+1

4:计算S的新的对象似然LLt+1(S)=LL(Rt+1)+LLt(Et+1)

5:计算差D=LLt(S)-LLt+1(S)

水上有不少篷船,船夫独居在船中,久而久之,连听到自己的声音都会吓一跳,所以几乎很少开口。另一些孤独的人却害怕安静,他们像流水一样养成了自言自语的习惯。明尼见过在一艘堆满贝壳的驳船上的男人。“下一个贝壳,”他喃喃自语道,“里头一定有珍珠。不过,就算没珍珠,至少壳也能做珍珠色的扣子。算算,我捞的贝壳做成的扣子大概能堆成几座山了……”有时候,明尼脚下混合着黏土和沙土的河床上就铺有被冲压出的一个个密密网眼的贝壳。

6:if D>x,其中x是某个阈值then

7:将o分类为异常。即Rt+1和Et+1保持不变,并成为当前的正常和异常集。

8:end if

9:end for

一个响彻神州的食品品牌,一个由40万元起家的行业巨头,一个低调沉默的企业家,一个发生在深圳的创业神话,他构建起目前世界上最大的布丁王国。

因为电力IT监控正常对象的数量比电力IT监控异常对象的数量大得多,因此,当一个电力IT监控对象特征指标量数据移动到异常集合后,正常对象的分布变化不大。在这种情况下,每个电力IT监控正常对象对正常对象的总似然保持相对不变。此外,如果假定电力IT监控对象特征指标量异常数据服从均匀分布,则移动到异常集合的每个对象对异常的似然贡献为一个固定的量。这样,当一个电力IT监控对象特征指标量数据移动到异常集合时,数据总似然的改变初略地等于该对象在均匀分布下的概率减去对象在电力IT监控对象特征指标量正常数据点分布下的概率。因此,电力IT监控对象特征指标量异常数据在均匀分布下的概率明显比在正常对象分布下的概率高。

4 系统实现与算法有效性验证

4.1 系统架构

电力IT监控管理自适应系统架构图如下图所示:

整个架构包含四个部分:

(1)监控Portal服务器:负责将监控对象、监控脚本、监控策略、操作指令等定义成一系列的监控模板,并提供给数据库。

(2)数据库:作为中间媒介,存储通过Portal定义的监控模板;

(3)监控管理服务器:读取相关监控模板进行解析,通过与Agent间的管理协议(例如监控作业管理、Agent操作命令协议等),调度Agent进行相关操作。

(4)Agent:一般部署在服务器上,执行采集命令。

这种通过各个层次相对松耦合的体系结构及完善的监控管理协议机制,基于监控对象的不同服务级别、特征及属性进行自动识别分析,形成监控对象特征库,实现监控脚本及策略的自适应部署、变更、升级。同时可形成标准自动化管理接口规范,电力IT监控厂商只要遵循接口规范,都可以通过该接口实现电力IT监控管理自适应,提升监控管理水平,降低管理成本。

图 1 电力IT监控管理自适应系统架构图 Fig.1 Architecture framework of power IT monitoring and management adaptive system

4.2 实验采集的数据

实验具体针对如下电力IT资源进行采集。

表 1 电力IT资源采集Table 1 Power IT resource acquisition序号No.类型Type采集设备类型Acquisition devices 1网络设备路由器、交换机、防火墙、负载均衡设备等 2主机系统Windows、Unix(HP-UX、IBM AIX、SunSolaris等)、Linux 3硬件温度、转速、电压等硬件物理故障 4存储设备光纤交换机、磁盘阵列、磁带库等 5数据库Oracle、SQLServer、MySql等 6中间件Tomcat、Weblogic等 7特殊软件如数据库同步复制软件等

4.3 异常检测准确率验证

实验分别验证了基于一元正态分布与混合参数分布的异常检测方法的准确率。在准确率验证对比方面,实验对比了事先指定阈值的告警准确率计算方法。

一元正态分布异常检测方面,主要验证了设备温度与转速异常(图2)。

图 2 一元正态分布异常检测准确率验证 Fig.2 Verification of anomaly detection accuracy of unary normal distribution

由实验结果可知,一元正态分布异常检测根据统计模型对电力IT监控对象特征指标量进行异常检测,不需要先验阈值,通过对设备温度和转速进行异常检测的校验,对温度异常检测的准确率约为0.878,对转速异常检测的准确率约为0.853。事先指定阈值的异常检测方法需要认为指定一个阈值,高于该阈值则认为是异常告警。实验分别设置了10组阈值,阈值从小到大排序。由实验结果可知,当阈值设置过小的时候,指定阈值的异常检测方法误报率较高,准确率较低,随着指定阈值的上升,准确率呈现上升趋势。尽管当阈值高于一定程度的时候,指定阈值的异常检测方法准确率较高,但是事先指定阈值的异常检测方法存在两个问题:(1)阈值较难设定;(2)阈值设置较高时,尽管准确率较高,但是召回率较低,后面实验将验证召回率。一元正态分布异常检测方法相对来说,具有两个优势:(1)利用统计学方法,不用事先指定阈值;(2)异常检测的准确率相对也较高。

【12】汤显祖《牡丹亭记题词》,见《牡丹亭记题词》,见徐朔方笺校《汤显祖全集》,北京古籍出版社1999年版,第1153页。

图 3 混合参数分布异常检测准确率验证 Fig.3 Verification of the accuracy of anomaly detection with mixed parameter distribution

对于混合参数分布异常检测准确率,实验同样对比了事先指定阈值的告警准确率计算方法。实验主要验证了流量的异常检测,具体的实验结果如图3所示。实验结果同样表明在事先不指定阈值的情况下,混合参数分布异常检测方法具有较高的准确率,且实验可以发现由于流量数据统计分布特性较复杂,异常检测准确率相对温度和转速的准确率存在略微的偏低。

4.4 异常检测召回率验证

实验分别验证了基于一元正态分布与混合参数分布的异常检测方法的召回率。在召回率验证对比方面,实验对比了事先指定阈值的召回率计算方法。

再者,学生的知识能力准备状况也影响到其课堂表现。学生由于课程的背景知识准备不足,课前没做好预习、课后没及时复习而使得课上无话可说,导致课堂沉默。

一元正态分布异常检测方面,主要验证设备温度与转速异常(图4)。

图 4 一元正态分布异常检测召回率验证 Fig.4 Verification of recall rate of anomaly detection based on unary normal distribution

由实验结果可知,一元正态分布异常检测根据统计模型对电力IT监控对象特征指标量进行异常检测,不需要先验阈值,通过对设备温度和转速进行异常检测的校验,对温度异常检测的召回率约为0.862,对转速异常检测的召回率约为0.852。事先指定阈值的异常检测方法需要认为指定一个阈值,高于该阈值则认为是异常告警。实验从小到大分别设置10组阈值。由实验结果可知,当阈值设置过小的时候,指定阈值的异常检测方法报警次数较高,召回率较高,随着指定阈值的上升,召回率呈现下降趋势。尽管当阈值设置较低的时候,指定阈值的异常检测方法召回率较高,但是事先指定阈值的异常检测方法存在两个问题:(1)阈值较难设定;(2)阈值设置较低时,尽管召回率较高,但是由前面的准确率实验可知,此时准确率较低。一元正态分布异常检测方法相对来说,具有两个优势:(1)利用统计学方法,不用事先指定阈值;(2)异常检测的召回率相对也较高。

图 5 混合参数分布异常检测召回率验证 Fig.5 Verification of recall rate for anomaly detection with mixed parameter distribution

对于混合参数分布异常检测召回率,实验同样对比了事先指定阈值的召回率计算方法。实验主要验证了流量的异常检测,具体的实验结果如图5所示。实验结果同样表明在事先不指定阈值的情况下,混合参数分布异常检测方法具有较高的召回率,且实验可以发现由于流量数据统计分布特性较复杂,异常检测召回率相对温度和转速的召回率略低。

4.5 异常检测F值验证

由前面的实验可知,事先指定阈值的异常检测方法准确率随着阈值的升高而升高,召回率随着阈值的升高而降低。为了综合衡量实验性能,实验计算每个阈值的F值,具体的F值计算方法如下:

F值即为准确率和召回率的调和平均值。

实验分别验证了基于一元正态分布与混合参数分布的异常检测方法的F值。在F值对比方面,实验对比了事先指定阈值的F值计算方法。

一元正态分布异常检测方面,主要验证了设备温度与转速异常(图6)。

图 6 一元正态分布异常检测F值验证 Fig.6 Validation of F value for anomaly detection of unary normal distribution

由实验结果可知,一元正态分布异常检测根据统计模型对电力IT监控对象特征指标量进行异常检测,不需要先验阈值,通过对设备温度和转速进行异常检测的校验,对温度异常检测的F值约为0.857,对转速异常检测的F值约为0.865。事先指定阈值的异常检测方法需要认为指定一个阈值,高于该阈值则认为是异常告警。实验分别从小到大设置10组阈值。实验结果表明一元正态分布异常检测方法在不需要设置阈值的情况下,相对事先指定阈值异常检测方法仍然具有较高的整体性能。

对于混合参数分布异常检测F值,实验同样对比了事先指定阈值的F值计算方法。实验主要验证了流量的异常检测,具体的实验结果如图7所示。实验结果同样表明在事先不指定阈值的情况下,混合参数分布异常检测方法具有较高的整体性能F值,且实验可以发现由于流量数据统计分布特性较复杂,异常检测整体性能F值相对温度和转速的略低。

图 7 混合参数分布异常检测F值验证 Fig.7 Validation of F value in anomaly detection of mixed parameter distribution

5 结语

本文针对电力IT监控对象特征数据,提出了基于概率统计模型的电力IT监控对象特征异常检测方法,针对数据分布的特点,研究了基于一元正态分布的监控对象异常检测方法与基于混合参数分布的监控对象异常检测。在未来的工作中,我们将对电力IT监控对象特征数据异常检测方法进行更深入的研究,结合机器学习的相关理论与知识,提高监控系统的智能性。

参考文献

[1] 高丽婷,温秀梅,侯满哲,等.基于以太网的电网监控系统设计[J].电源技术,2016,40(7):1498-1500

[2] 葛君伟,张博,方义秋.云计算环境下的资源监测模型研究[J].计算机工程,2011,37(11):31-33

[3] Jeswani D, Natu M, Ghosh RK. Adaptive Monitoring: Application of Probing to Adapt Passive Monitoring[J]. Journal of Network and Systems Management, 2015,23(4):950-977

[4] 李军虎.一种基于多Agent远程分布式故障诊断系统模型[J].计算机与数字工程,2011,39(6):58-60

[5] Rousseeuw PJ, Hubert M. Anomaly detection by robust statistics[J]. Data mining and knowledge discovery, 2018,8(2):1236

Anomaly Detection for Characteristics of Power IT Monitoring Objects Based on Probability Statistic Model

WEI Wei, LONG Yu-jiang*, ZHONG Ye*

Information Center of Guizhou Power Grid Co.,Ltd., Guiyang 553000, China

Abstract:With the continuous expansion of the scale of data center, the more complex the business system is, the requirement of availability and reliability is increasing. The traditional power IT monitoring software only can monitor the object feature data to be scalar, but it cannot make the abnormal early warning of the object characteristic data, and the traditional power IT monitor the feature data of the object. Exception alarm relies on simple pre threshold allocation, false alarm rate and false negative rate depend on prior threshold setting, and the overall abnormal alarm performance is not good. In this paper, based on the characteristic data of power IT monitoring objects, this paper proposes an anomaly detection method based on probability and statistics model for power IT monitoring objects. In view of the characteristics of data distribution, the anomaly detection method based on one normal distribution and the anomaly detection of monitoring objects based on the mixed parameter distribution are studied. The experimental results show that the method proposed in this paper is superior to the traditional prior threshold allocation for the accuracy, recall, and F value of the IT monitoring object anomaly detection.

Keywords: Power; IT monitoring system; anomaly detection; probability statistic model

中图法分类号:TM76

文献标识码: A

文章编号:1000-2324(2019)04-0612-07

收稿日期: 2018-02-10

修回日期: 2018-03-29

作者简介:卫薇(1982-),女,硕士研究生,高级工程师,研究方向为信息技术. E-mail:47765382@qq.com*

通讯作者:Author for correspondence. E-mail:longyj@gz.csg.cn; zhongye@gz.csg.cn

猜你喜欢
正态分布阈值准确率
关于n维正态分布线性函数服从正态分布的证明*
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
生活常态模式
小波阈值去噪在深小孔钻削声发射信号处理中的应用
偏对称正态分布的若干性质
高速公路车牌识别标识站准确率验证法
正态分布及其应用