基于知识发现和数据挖掘技术的诊断专家系统的研究

2018-03-22 01:31李业顺
电子技术与软件工程 2018年1期
关键词:数据挖掘

为了克服传统诊断专家系统知识获取困难的缺陷,将知识发现和数据挖掘技术引入诊断专家系统进行探讨分析,提出了一个新的系统框架并给与了试验,结果表明,系统运行后,对传统诊断专家系统知识获取困难的缺陷有一定的改善作用。

【关键词】诊断专家系统 知识发现 数据挖掘

诊断专家系统是电力设备在线监测系统几种主要故障诊断方法之一。目前已研究的故障诊断专家系统模型有:基于规则、实例、行为、模糊逻辑和人工神经网络的五种诊断专家系统。它们的优缺点如下:基于规则的诊断专家系统优点为知识表述直观、形式统一、易理解等,缺点为知识获取困难、知识台阶窄和控制策略不灵活等,该种诊断系统只适用于具有丰富经验的专业领域故障诊断;基于实例的诊断专家系统优点为无须显示领域知识、无须规则提取、降低知识获取难度等,缺点为当诊断实例检索所有解空间时,因覆盖度小会导致搜索时可能漏掉最优解,造成误诊或漏诊;基于模糊理论的诊断专家系统优点是有较强的结构性知识表达能力,适用于处理诊断中的不确定信息和不完整信息,缺点是知识获取困难,尤其是故障与征兆的模糊关系较难确定时,容易发生漏诊或误诊。基于行为的诊断专家系统优点为在缺乏先验诊断知识的情况下,通过与诊断对象系统行为进行交互作用,逐步学习,能构成一个完善的诊断系统。缺点是自动获取故障行为征兆难度较大;基于人工神经网络的诊断专家系统优点是有较好的容错性、响应快、强大的学习能力、自适应能力和非线性逼近能力等,缺点是如果训练样本集很少或训练样本集选择不当的情况下,很难有较好的归纳推理能力,很难指望它具有较好的归纳推理能力,另外,神经网络表达知识和利用知识的方式单一,通常的神经网络智能采用数值化的知识。可以发现以上五种故障诊断模型均存在知识获取困难的缺陷。本文尝试将数据库技术中的知识发现和数据挖掘技术运用到故障专家系统中进行探讨分析是否能有助于解决知识获取困难的缺点。

1 知识发现和数据挖掘技术

1.1 基本概念

知识发现技术(Knowledge Discovery in Database)是指识别出存在于数据库中有效的、新颖的、具有潜在效用的乃至最终可理解的模式的非平凡的过程。在此定义中,“数据”用来描述事物有关方面的信息,是一个有关事实F的集合,这个集合的数据一般来说都是准确无误的;“可理解”是指将数据库中隐含的模式以容易被人们理解的形式表现出来,模式的可理解性常用模式的简单程度来衡量,模式E的简单程度S可用函数S(E,F)来衡量;“模式”用来描述资料集F的某个子集,是一个用语言L来表示的一个表达式E;“过程”包括数据预处理、模式提取、知识评估及过程优化,是指一个多步骤的处理过程,该过程要求是非平凡的,或者说要求有一定程度的自动性、智能性。

数据挖掘是指知识发现中的一个关键步骤,是一个抽取有用模式或建立模型的重要环节。数据挖掘的对象通常是大型数据库或者数据仓库,从广义的角度上讲,发掘对象也可以是文件系统,或者是其它数据集合。例如图形图像,WWW信息源,知识库等。数据挖掘是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从理性认识到感性认识的升华。

1.2 基本原理

知识发现的基本原理体现于知识发现的基本过程之中,而发现那些有意义的、简洁的、以模式表示的、正确的知识的前提则是加强虚假信息和伪装知识的识别和监控。可以把知识发现的基本过程划分为数据准备、数据挖掘、结果的评估与解释等3个阶段。

数据准备是知识发现的第一个步骤,数据准备主要是从各种信息媒体中获取相关数据,从中根据用户的需求抽取相关数据和相关属性,消除数据的噪音后根据利用数据属性间的关系进行数据简约,减少有效数据的规模和维度。

数据挖掘是知识发现最重要的步骤。该步骤主要确定数据挖掘的目的和任务、算法的选择以及确定算法的参数。挖掘算法采用较多的方法有聚类、粗集、决策树、分类、关联规则、神经网络与遗传算法等。

结果的评估与解释。该步骤是将数据挖掘的模式(知识)去除噪音后,根据用户的需求对模式进行评估,并转换成易于人们理解的表达形式,经过解释以后,用户可以理解、有价值和符合实际的模式形成知识,用于提供决策支持。

2 基于知识发现和数据挖掘技术的诊断专家系统

知识发现和数据挖掘技术引入诊断专家系统后体系结构可形式化为图1所示。其中,知识发现和数据挖掘技术模块是系统的核心,它接受经规范化处理后的原始证据输入,给出处理后的结果。系统的知识预处理模块及后处理模块则主要承担知识表达的规范化及表达方式的转换,是知识发现和数据挖掘技术模块与外界联接的“接口”。

关联规则是数据挖掘方法中的一个重要分支,通过分析数据库中不同数据属性之间存在的潜在关系,找出满足给定支持度和置信度的关系规则,对设备进行在线故障诊断,表1是某电厂汽轮机响铃报警记录。

利用关联规则挖掘算法,设置最小支持度、最小置信度均为为20%,(相关算法参见文献[6]和[11]),对表1进行分析后的故障记录如表2所示。

通过分析可得强关联规则:

A→C,支持度=0.75,置信度=0.75。

表明在A响铃报警后不久就会出现C也响铃报警。该规则可以向运行人员提供早期故障预警,当A响铃报警后,运行人员可以对C故障产生的原因进行分析,查找到原因后从而在故障发生前将其排除,以确保设备的健康安全运行。

3 结语

在知识获取技术方面,基于数据挖掘的知识获取并不需要知识工程师從领域专家的经验中提取规则,它只是对领域专家提供的故障实例进行学习,从故障实例中获取知识,在应用时,知识会以统一的格式提取出来,这种知识获取是自动的,不需要领域专家和知识工程师的直接对话,避免了在对话过程中导致诊断规则出现不一致的一切因素,这在一定程度上缓解或克服了传统故障诊断专家系统中存在的知识获取困难问题。

参考文献

[1]吴明强,史慧,朱晓华等.故障诊断专家系统研究的现状与展望[J].计算机测量与控制,2005,13(12):1301-1304.

[2] 张代胜,王悦,陈朝阳.融合实例与规则推理的车辆故障诊断专家系统[J].机械工程学报,2002,38(07):91-95.

[3]周东华,叶银忠.现代故障诊断与容错控制[M].北京:清华大学出版社,2000.

[4]Fayyad U M,Piatetsky-shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/MIT Press,1996.

[5]秦鸿霞.论知识发现的技术和方法[J].内蒙古科技与经济,2009,19(197):58-61.

[6]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004:1-2.

[7]R.Agrawal,T.Imeielinski,A.Swami.Mining association rules between sets of items in large databases[C].Processing of ACM SIGMOD,May 1993:207-216.

[8]R.Agrawal,and P.Yu.Online generation of association rules[C].In 14th Intl.Zonf.On Data Engineering,Feb.1998.

[9]M.-J Berry,G.Linoff.Data mining techniques for marketing,sales and customer support[M].Wiley Computer Publishing,1997.

[10]J.-S.Park,M.-S.Chen,and P.S.Yu.An effective hash based algorithm for mining association rules[C].Proceedings of ACM SIGMOD,May,1995:175-186.

[11]梁志瑞,陈鹏.关联规则挖掘在电厂设备故障监测中的应用[J].电力自动化设备,2006,26(06):17-19.

作者简介

李业顺(1988-),男,山东省淄博市人。碩士学位。工程师。主要研究方向为配电检修。

作者单位

国网淄博供电公司 山东省淄博市 255100

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议