基于双层聚类算法的电力远动系统异常检测

2015-07-25 06:51陈利跃沈晓东何星
微型电脑应用 2015年9期
关键词:误报率动系统双层

陈利跃,沈晓东,何星

0 引言

电力系统远动是电力系统调度服务的远距离监测控制技术.它将各个厂、所、站的运行情况(包括开关状态、设备的运行参数等)转换成便于传输的信号形式,加上保护措施以防止传输过程中的外界干扰,经过调制后,由专门的信息通道传送到调度所。在调度所的中心站经过解调,还原成对应于厂、所、站信号再显示出来,供调度人员监控之用。调度人员的一些控制命令也可以通过类似过程传送到远方厂、所、站,驱动被控对象。远动通讯的故障通常表现为通讯过程不畅,但要具体判断是通道本身故障还是通讯规约使用故障,目前缺乏有效的手段和工具,导致远动通道故障的修复常常需要较长的时间,投入较大的力量[1]。本文采用对远动系统的通信数据进行分析,建立判断远动故障点判断方法。

目前比较主流的异常检测方法是建立模式(特征、条件等)描述,通过比对检测目标实现异常检测,称之为模式匹配法。随着被研究对象系统复杂性的增加,状态迁移和序列模式被逐渐引入并应用在异常检测系统中。模式匹配法发展的另一个方向是数据挖掘技术和传统模式匹配方法的结合,其中典型代表是Apriori算法[2]。Apriori算法需要一定量的训练样本,计算时间成本略高。除了模式匹配,还有一种常用异常检测方法——统计分析法。这类方法的代表是聚类算法。聚类算法能在异常检测中应用的两个前提是:在数据库中,异常状态和正常状态有本质区别;异常状态在整体数据中的比例较小[3]。最典型的聚类算法是K-means算法。由于计算时间成本过高,K-means算法不适合对数据流的在线处理。在数据流的聚类算法研究过程中,Aggarwal等人提出了双层框架分析模型CluStream聚类算法,提出簇和时间帧结构,对数据流进行在线和离线分层次处理[4]。

本文所提出的双层聚类算法也是基于此框架的一种算法应用。该算法主要改进并结合K-means和DENCLUE两种聚类算法,以较小的时间复杂度对非球面分布的数据进行聚类分析。本文主要内容如下:第二章介绍基于双层聚类算法;第三章对本文算法仿真结果进行比较分析,论证本文算法的有效性;第四章对本文进行总结。

1 双层聚类算法

根据电网远动监测系统的特点和要求,双层聚类算法对远动监测系统中的异常情况进行检测。双层聚类算法的原理是首先利用K-means聚类改进算法将数据对象聚拢称K个簇,然后利用DENCLUE聚类改进算法对得到的K个簇代表点继续进行聚类优化,最大程度降低K值初始设定对分类结果的影响,同时也降低计算复杂度,得到理想的分类检测结果。

1.1 K-means聚类算法

1.2 DENCLUE聚类算法

DENCLUE是一个基于核密度估计KDE(Kernel Density Esimate)的聚类算法。KDE[5-6]的思路是数据集中的每一个对象对其它对象的影响能力可以用一个核函数来衡量,该核函数描述了当前对象对邻居的影响程度。核函数作用于每个数据对象,每个数据对象的核密度估计值就是所有其它对象对它的影响之和。可以通过指定密度吸引点来划分簇。密度吸引点就是一个局部中核密度估计值最大的那个对象,能有效地被希尔爬山程序确定。如果核函数在每个数据对象处连续并可导,则希尔爬山程序就能被核函数梯度所引导,核函数也允许簇是任意形状的。

DENCLUE算法主要基于下面的想法[7]:(1)每个数据点的影响可以用一个数学函数来形式化地模拟,它描述了1个数据点在邻域内的影响,被称为影响函数;(2)数据空间的整体密度可以被模型化为所有数据点的影响函数的总和;(3)然后聚类可以通过确定密度吸引点来得到,这里的密度吸引点是全局密度函数的局部最大。

假设x和y是d维特征空间中的对象。数据对象y对x的影响函数是一个函数,它是根据一个基本的影响函数来定义的。原则上,影响函数可以是一个任意的函数,它由某个邻域内的两个对象之间的距离来决定。距离函数f(x,y)应当是自反的和对称的,例如欧几里得距离函数,它用来计算—个方波影响函数,如公式(1):

在一个对象x上的密度函数被定义为所有数据点的影响函数的和给定n个数据对象,在x上的密度函数定义如公式(2):

根据密度函数,我们能够定义该函数的梯度和密度吸引点。一个点x是被一个密度吸引点x*密度吸引的,如果存在一组点x0,x1,···xk;x0=x;xk=x*,对0

基于这些概念,能够形式化地定义中心定义的簇和任意形状的簇。密度吸引点x*的中心定义的簇是一个被x*密度吸引的子集C,在x*的密度函数值不小于阈值;否则它被认为是孤立点。一个任意形状的簇是子集C的集合,每个点是密度吸引点且密度函数值不小于阈值,并从每个区域到另一个都存在一条路径P,该路径上每个点的密度函数值都不小于阈值。

DENCLUE与其他聚类算法相比主要的优点有如下一些:(1)它有一个坚实的数学基础,概括了其他的聚类方法,包括基于划分的、层次的、位置的方法;(2)对于有大量“噪声”的数据集合,它有良好的聚类特征;(3)对高维数据集合的任意形状的聚类,它给出了简洁的数学描述;(4)它使用了网格单元,只保存关于实际包含数据点的网格单元的信息。它以一个基于树的存取结构来管理这些单元,因此比一些有影响的算法速度要快。但是,这个方法要求对密度参数和噪声阈值进行仔细的选择,因为这样的参数选择可能显著地影响聚类结果的质量。

2 仿真分析

本文仿真中使用KDD CUP99数据模拟电网远动系统数据。该数据为模拟局域网的网络环境下的网络连接和系统审计数据,被广泛使用在异常检测领域中。KDD CUP99数据集中包括近五百万条训练数据和两百多万条测试数据,本文从中随机抽取10000条测试数据。

为了去除属性量纲对模型的影响,需要对数据进行标准化,包括中心化和无量纲化两部分处理。中心化是对数据进行坐标变换,使得数据和数据对象中心重合。无量纲化通过将变量的方差归一,使得每个变量具有等同的权重。

下面分别从准确性和时间复杂度两个角度对本文算法进行分析。针对准确性,使用检测率和误报率。检测率为检测出的异常数据个数与异常总数的比率,误报率为被检测为异常的正常数据个数与正常数据总数的比率,本文算法仿真结果检测率和误报率的ROC图,如图1所示:

图1 检测率和误报率的ROC曲线

在检测率大于90%时,误报率随检测率的提高大幅升高。从检测结果分析可得出,在检测率大于90%时,部分正常情况不能在第二层聚类过程中完成合并,从而被鉴定为异常情况,造成了误报率的大幅提高。本文算法比较理想的结果范围为检测率在80%~90%,误报率在2%~8%之间。

与Apriori算法相比,本文算法在检测率相近的情况下,误报率比较低,如表1所示:

表1 异常检测算法比较

和高检测率一样,低误报率对电网异常检测系统非常重要。与单独的K-means聚类算法和DENCLUE聚类算法相比,本文算法的检测率和误报率效果都更好。同时较DENCLUE聚类算法,本文对大数据的处理速度得到了大幅的提高。

3 总结

本文分析了电网的远动系统的特点和当前异常检测技术,并根据远动监测系统的特点提出了基于双层聚类算法进行远动异常情况检测。该算法具有以下特点:(1)所需要的样本训练量小;(2)准确率高,在较高的检测率情况下有较小的误报率。本文算法在数据极大的情况下,计算时间依然较长。下一步工作是在保证准确性的情况下,进一步缩减计算时间,进而实现远动系统实时异常检测。

[1] 杨欢红,叶海明.电力远动通道故障的分析检测[J]. 上海电力学院学报,2009,25(4):321-324.

[2] 尚志远.基于数据流挖掘分析的网络入侵检测系统研究[D].山东:山东大学,2012.

[3] Wenke Lee, Salvatore J. Stolfo, Philip K. Chan. Real Time Data Mining based Intrusion Detection[R].Computer Science Department,Columbia University,2001.

[4] Aggarwal C,Han J,Wang J,Yu PS. A Framework for Clustering Evolving Data Streams[A]. 2003: 81-92.

[5] Han Jiawe, Micheline Kamber.Data Mining Concepts and Techniques[M].China Machine Press,Beijing,2004.

[6] Xiaogno Yu,Xiaopeng Yu.An Adaptive Information Grid Architecture for Recommendation System[C].APSCC,06,2006:560-565.

[7] Zhaohui Tang, Jamie Maclennan, Peter Pyungchul Kim.Building Data Mining Solutions with OLE DB for DM and XML for Analysis[J].SIGMOD Record,2005,34(2):3-5.

[8] CUI Guan-xun, LI Liang. Research on an Intrusion Detection System Based on the Improved Apriori Algorithm[J]. Computer Engineering & Science, 2011,33(4):40-44.

猜你喜欢
误报率动系统双层
原始数据动态观察窗法在火灾特征信号融合提取中的应用研究
双层最值问题的解法探秘
家用燃气报警器误报原因及降低误报率的方法
钻杆管体超声波探伤误报分析及措施
铁路远动系统几种组网方式IP地址的申请和设置
墨尔本Fitzroy双层住宅
马勒推出新型模块化混动系统
铁路电力和牵引远动系统组网方式研究
“双层巴士”开动啦
次级通道在线辨识的双层隔振系统振动主动控制