大数据在输变电设备状态评估中的研究

2016-03-08 01:57周广闫丹凤许光可李笋
软件 2016年1期
关键词:计算机科学与技术大数据

周广++闫丹凤++许光可++李笋

摘要:电网的高速发展带来海量数据的存储和分析问题,传统的数据管理和分析工具不再适用。本文主要对大数据分析的相关技术在输变电设备状态评估中的应用进行了研究。本文首先分析了大数据以及数据挖掘技术的优点和应用,并介绍了输变电设备状态评估技术的相关内容,随后讨论了大数据和数据挖掘技术在输变电设备状态评估中的应用,并利用分布式存储、时间序列分析、频繁项挖掘以及专家系统等数据挖掘技术在输变电设备评估进行研究,以此提高电网管理的效率和运营的安全性。

关键词:计算机科学与技术;大数据;输变电设备状态评估

中图分类号:TP399

文献标识码:A

DOI: 10.3969/j.issn.1003-6970.2016.01.003

0 引言

随着我国经济与社会的全面发展与进步,我国电力行业飞速发展,电网规模日益扩大,对于电能供应质量以及电网中输变电设备的安全运行的要求也越来越高。由于输变电设备具有种类繁多、参数复杂、监控数据量大、运行环境多样等特点,对输变电设备进行在线监测、带电监测以及离线监测的设备全景状态信息监测以及评估,有利于及时发现设备异常状态,提前预警安全事件,减少由于设备故障造成的电网安全事故,在维护输变电设备以及电网安全中,十分重要。然而,由于电网中拥有大量设备需要监控,监控将产生海量数据。因此,利用大数据分析技术对输变电设备的状态进行监测和评估,对于保护整个电力系统安全运营有着重要的意义。

目前,大数据技术在商业运营中已取得一定成果。微博中热点微博的发现和淘宝平台中商品的推荐,都是大数据技术的应用。而且,为了解决大数据的计算和存储问题,包括AWS、Azure、阿里云、青云等云计算提供商,都已具备完善的大数据解决方案。但是,目前大数据技术与电力行业的结合刚刚开始,如何将大数据技术应用到输变电设备状态评估中,还需要进一步的研究。

1 大数据分析技术

伴随着信息时代的到来,数据也呈现出爆发式增长的态势。随着数据从数量规模,到种类和结构都日益增长,大数据的概念也随之到来。为了对大数据进行获取、管理和处理,需要引入新的数据加工模式和技术,大数据分析技术应运而生。

1.1 大数据

1.1.1 大数据简介

大数据(Big Data),指的是体量特别大,数据类别特别多,而且无法在可以承受的时间内,使用传统数据库管理工具对其进行抓取、管理、分析和处理的数据集合。IBM的科研小组认为,大数据具备SV特征:大量(Volume)、高速(Velocity)、多样(Variety),价值(Value)、真实(Veracity)。

大数据由于其数据容量巨大,而且数据类型众多,传统的手工管理,甚至利用关系型数据库都已经无法对其进行有效的管理和分析。因此,国内外对大数据进行了深入的研究,并且提出了各种有效的技术手段,例如大规模并行化处理、数据挖掘技术、分布式文件系统、分布式数据库以及云计算等相关技术纷纷涌现,极大的提高了大数据分析的效率。

目前,大数据已经进入应用阶段,许多基于大数据的项目已经取得了非常瞩目的成果。大数据作为互联网的产物,已经越来越体现出它的价值。

在国外,梅西百货利用大数据技术实施监控商品销售情况,并根据需求和库存变化,对多打7300万中商品进行实时价格调整。洛杉矶警方和研究人员应用预测算法,预测犯罪的发生,将盗窃罪和暴力犯罪的发生概率降低了33%和21%。T-Mobile应用IBM大数据分析解决方案,对每天数十亿通话记录和网络设备进行监测和分析,从而迅速发现网络平静,并预测可能的网络错误,提前进行干预。在国内,农夫山泉应用大数据分析技术,根据需求对供给物流网络进行调整。

1.1.2 Hadoop平台

Hadoop平台是Apache开源分布式系统基础架构,核心的设计主要包括一个分布式文件系统(Hadoop Distributed File System,简称HDFS)以及面向分布式数据的MapReduce计算框架。

Hadoop平台是一个对大数据进行分布式处理的框架,解决了数据的存储和计算的问题。Hadoop对数据的处理是可靠和高效的,它假设计算和存储都可能发生失败,并通过备份的方式,对数据维护多个副本,从而对于故障节点的存储和计算数据进行重新处理,而且对于数据的处理是并行化的,在大多数情况下,不会受到单点的性能影响。

1.2 云计算

云计算是为了解决大数据的存储和计算问题,而将计算任务分布到大量计算机组成的动态的可伸缩的资源池上,使得各种应用能够按需获取计算能力、存储空间和信息服务的一种廉价计算服务。

按照服务类型区分,云计算可以分为三大类:将软件作为服务(Software as a Service,简称SaaS),将平台作为服务(Platform as a Service,简称Paas)以及将基础设施作为服务(lnfrastructure as a Service,简称Iaas)。一般而言,SaaS针对性更强,将特定的软件封装为网络服务;PaaS则是对资源的进一步抽象,为用户的应用程序提供了运行环境;而IaaS则是将硬件设备也进行封装,作为服务对用户提供。

目前,Amazon的AWS,谷歌的AppEngine,以及微软的Azure都是较为成熟的云计算服务。其中,谷歌在云计算的研究中,以学术论文的形式公布了其云计算的核心技术,包括GFS、MapReduce以及BigTable的相关内容,在学术界引发了新一轮的云计算研究的热潮。

1.3 数据挖掘技术

对于大数据而言,很多传统的数据分析和统计技术在分析时间和分析效果上表现并不理想,因此,针对大数据的数据挖掘技术,具有重要的使用价值。

数据挖掘技术一般指从大量数据中通过一定算法,搜索其中的信息,通常需要利用统计学中的抽样、估计以及人工智能、模式识别、机器学习的算法。同时,对于大数据而言,并行化和分布式存储是实施大数据挖掘的关键。

数据挖掘有一些常见的算法,主要解决分类、聚类、预测、关联规则挖掘等几大问题。其中,比较重要的、应用较为广泛的算法有k-means、SVM支持向量机、Apriori关联规则挖掘算法、EM最大期望值算法、PageRank算法、Adaboost迭代算法、Narve Bayes分类算法。

2 输变电设备状态评估技术简介

截止到2014年,我国发电装机总容量已达13.6亿千瓦,全口径发电量5.5万亿千万时,已位居世界首位。此外,人均装机容量达到1千瓦,人均年用电量4038千瓦时,也超过了世界的平均水平。而随着电力系统的发展,电网规模的扩大,电网中输变电设备的维护也日益重要。但由于输电线路距离非常长、所处环境气候变化非常大、跨越地形非常复杂、分布位置非常分散、日常巡查比较困难。因此,建立输变电设备转台评估系统对输变电设备状态进行评估,具有重要的实用意义。

2.1 输变电设备状态参数

输变电设备状态参数是指输变电设备在运行时的各种指标参数,以及运行环境的一些数字化信息,包括输电线本身的一些物理特性、运行指标、检修资料以及输变电设备所处环境的温度,适度、风俗、泄露电流、覆冰情况等信息。根据国家电网颁布的设备检修导则,输变电设备的状态参数,分为重要状态量和一般状态量,其中,重要状态量对设备健康影响较大。

在选择状态参数时,有一些参数需要特别注意,如生产厂家特性参数、故障历史参数、环境参数、负载参数等。生产厂家参数决定了该输变电设备平均故障率,设计寿命以及最低运行年限等参数。故障历时参数能用来判断该设备运行情况,以及本身是否有瑕疵等问题;境参数能辅助判断其运行年限的期望值,以及可能会产生的问题负载参数能辅助判断其运行状态,以及老化程度。

2.2 输变电设备状态评价

在选取了合适的状态量之后,即可根据状态量,对输变电设备进行状态评价。对于不同阶段的设备,应采用不同的策略。对于新投运的设备,在经过全面检查后,如果状态良好,按照运行良好处理;对于已运行一定年限,发生故障率明显增加的设备,影根据运行和评价结果,给予一定的调整。根据国家电网设备评价导则,可以依据设备的损耗情况,将每个设备的状态量化成为四个等级,并对每个等级赋予相应的权重。对于刚出厂的合格的新设备,记为100分,对于运行良好的设备,不扣分;对于一些状态量异常的设备,按照等级扣除相应的分数;最后结合老化因子,得到输变电设备的最终的状态值。

其中,Score为最终得分;SO为运行得分;fi为负载因素,fe为环境因素。

2.3 输变电设备状态决策

2.3.1 检修分类

按照国家电网的设备检修导则,根据设备评估状;兄,设备状态检修分为不同的等级,分别是A级检修、B级检修、C级检修和D级检修。其中,A、B、C类检修为停电检修,D类为不停电检修。按照不同的要求,以变电站直流系统的检修分类及检修项目为例,如下表所示:

2.3.2 检修决策

根据不同的设备状态,应该采用不同的检修策略。

对于“正常状态”的直流系统,执行C类检修,可以适当安排D类检修,按照正常周期或者延长一年;

对于“注意状态”的直流系统,执行C类检修,应该加强D类检修,不能大于正常周期;

对于“异常状态”的直流系统,应根据评价结果安排检修类型,并适时安排检修;

对于“严重状态”的直流系统,应根据评价结果安排检修类型,并尽快安排检修。

3 大数据在输变电设备状态评估中的应用

3.1 分布式存储在设备状态评估中的应用

一般认为,大数据一般要处理的数据远远超过传统的关系型数据库。因此,在存储方面,一些突破了关系型数据库的NoSQL数据库涌现出来,例如MongoDB,Hbase等。由于分布式数据库将数据存放于不同的机器上,因此,相较于关系型数据库,会额外需要一些通信和管理的开销。

分布式数据库需要解决数据的一致性和性能的问题。在分布式数据库中,一般面临一致性、可用性和分区容错性三者不能同时满足的问题。因此,在面对不同的问题时,需要根据问题的重点选择处理策略。一般来说,有如下三种:

1.为了避免单点故障,导致数据丢失,需要对数据进行多点备份;

2.如果备份数据较多,则需要更多的数据同步来保证数据的一致性;

3.如果数据一致性要求较高,则性能会降低,会增加额外的大量通信和管理开销。

目前,在电力系统中,各种设备每天通过监控产生的状态信息已超过PB级别,这些数据非常庞大,而且不同设备产生的类型各异,因此,使用分布式数据库对设备状态数据进行存储,是十分必要的。

3.1.1 输变电设备状态数据存储实验

本研究课题以输变电设备状态数据为研究对象,对其存储和查询在不同数据库之间的效果进行了对比实验,验证在大数据环境下,分布式存储的效果与传统关系型数据库存储效果的差异。

实验环境:

MongoDB:3台主机,每台主机搭载2核CPU,4G内存,500GB硬盘,一个主节点,2个从节点;

Hbase:3台主机,每台主机搭载2核CPU,4G内存,500GB硬盘,一个主节点,2个从节点;

MySQL:1台主机,搭载4核CPU,4G内存,ITB硬盘。

实验数据:设备状态评估状态量,共130万条

由表中数据可以发现,在数据量较小时,关系型数据库MySQL在插入和查询上速度较快,而分布式存储中,MongoDB的插入和查询效率都明显较高,而Hbase的速度都比较慢。在数据量增大后,数据的插入和查询耗时都增加,其中MongoDB的表现优于关系型数据库MySQL,以及另外一种分布式数据库Hbase。对于索引数据来说,MySQL的耗时更少,但对于非索引数据,MongoDB的耗时更少。由上述实验可知,传统的关系型数据库在小规模数据时表现较好,但是当数据量快速上升时,其效率会大大降低。分布式数据库则在大规模数据时表现较为稳定。但是分布式存储面临的问题更为复杂,在使用时,需要根据面对的数据规模,进行一定的性能优化。而输变电状态评估中,数据规模十分巨大,在一定程度上,已经超过了关系型数据库的管理上限,因此,选择分布式数据库对输变电状态评估数据进行存储更加高效和合理。

3.2 时间序列分析在设备状态评估中的应用

时间序列是指一个现象或者变量,按照时间顺序,产生的一组数列。对时间序列的分析基于随机过程理论和数理统计方法,研究产生时间序列的现象或者变量所遵从的统计规律,以解决实际问题。经典的统计分析问题,都假设数据在具备独立性的条件下,对数据序列进行分析,而时间序列的分析问题,更侧重研究数据序列之间的依赖关系。

输变电设备监控状态量都是实时监控的,按照时间产生的状态信息序列。因此对于这些序列进行分析,发现甚至预测异常状态,对于健全设备状态评估系统,具有实用价值。

对于时间序列的预测,一般有如下方法:

1.简单平均法

2.移动平均法

3.指数平滑法

一般而言,在分析时间序列时,尽可能的增加一些影响该序列变化的因素,能提高预测准确度和效率。在分析设备状态评估时,加入温度和湿度时间序列,对设备状态评价分值进行预测,能有效的提高预测准确度。

3.3 频繁项挖掘技术在设备状态评估中的应用

关联规则是从大量数据中,挖掘出有价值的数据项之间的相互关系。在实践中,通常用于在杂乱无章的数据中,发现静态的规律。

常见的关联规则算法有Apriori、FP-growth算法等。

Fp-growth算法思想如下:

首先,扫描所有数据,产生所有备选频繁项集,并降序排列,剪除支持度地域阈值的元素;

其次,再次扫描全部数据,并按照第一步的结果集合,生成FP树;

最后,从FP树中,按照规则,发现有意义的频繁项。

在设备状态评估中,可以采用关联规则,发现和设备状态相关的因素。

将设备的状态离散为不同的等级,并记录一个设备等级及其对应离散的天气因素、地理因素以及交通因素,人文因素等等因素,作为输入,建立FP-growth树,并从树中发现“严重状态”是否具有频繁项,如果发现频繁项,则可以从频繁项中找出“严重状态”所对应的因素,从外进行排除,维护电网运行安全。

3.4 专家系统在设备状态评估中的应用

专家系统是一个智能系统,包含了大量的领域内专家的知识和经验,并通过这些人类专家的知识和经验,解决领域内的各种问题。专家系统有领域经验知识集以及推理机两部分组成。经验知识集包含了大量的领域内的专家的知识和经验,并通过推理机,模拟人类专家,利用这些知识和经验,来解决该领域内的问题。

在设备状态评估中,大量的问题都可以由领域内的专家进行解决。尤其是在设备状态出现异常的情况下,可以利用领域知识和经验,判断合理的维修决策。因此,建立一个完善的专家系统来解决设备状态评估和维修的问题,具有很大的使用价值。

4 结论

随着中国电力实业的飞快发展,以及电网的高速扩张,需要越来越多的新技术来支持和维护电网的运行安全。电网中的大量输变电设备每天都产生了大量数据,如何对这些数据进行分析,从而维护设备和电网的安全运营,已经成为当前环境下迫切需要解决的问题。作为互联网发展的热点和重点,大数据已经证明了它强大的处理和解决问题的性能。因此,将大数据技术引入输变电设备的状态评估,具备重大的研究和实用价值。

本文重点介绍了大数据技术在输变电设备状态评估中的一些应用和处理方法,并通过一些实验验证了大数据技术的效果。当然,文章还存在很多不足,希望在以后的研究中,对大数据实时分析的方法进行深入的研究和应用。

猜你喜欢
计算机科学与技术大数据
计算机科学与技术专业实践教学体系研究
大数据环境下基于移动客户端的传统媒体转型思路
对高中计算机教学改革的几点思考