电力大数据智能化高效分析挖掘技术框架的研究

2019-09-10 07:22关兆雄
中国电气工程学报 2019年7期
关键词:电力数据挖掘智能化

关兆雄

摘要:电力企业智能化技术的应用是改革的一项重点内容,而电力大数据智能化分析平台是智能化升级的重要内容。本文阐述了数据挖掘技术的基本方法进,提出了数据挖掘算法的改进算法,分析了智能化数据挖掘技术的功能需求及设计原则、提出了智能化数据挖掘技术平台的基本架构设计和技术基础、具体叙述了各模块的基本功能。最后将平台应用实际电力企业中,实践表明平台的应用取得了良好的效果。

关键词:电力、智能化、数据挖掘

0、引言

电力企业智能化改革的深入,也带来了一些问题,例如智能化电力系统数据量更加庞大,数据管理工作更加困难[1]。数据挖掘技术就是海量、复杂的数据中快速提取有价值的数据,因此数据挖掘技术对解决电力企业智能化应用系统和平台数据读取问题至关重要。电力企业和系统原始数据的智能化改造程度和技术不一样,造成了数据类型多种多样,经常出现系统数据异构的情况[2]。数据挖掘技术对于电力企业不同系统或模块之间数据的读取十分有意义,可以提高系统的运行速度和电力企业的工作效率[3]。数据挖掘技术可以用于电力企业的信息系统的信息管理和查询优化等,因此可以為电力企业的决策提供依据。

本文在研究数据挖掘关联规则算法的改进,并将改进的算法应用到大数据平台,实现数据平台系统的高效分析。改进的算法可以有助于电力企业建立一个综合的电力大数据平台,实现数据的综合共享、分析和应用。

1、大数据挖掘平台技术分析

1.1数据挖掘及其过程

数据挖掘技术是从海量的、复杂的数据中快速提取需要的数据,并分析出数据之间的内在关系,为决策提供依据。数据挖掘的过程一般包括数据准备、数据挖掘及分析、结果的表达与解释等三个过程[4]。这三个过程分别完成数据的分析、数据集成和选择及其之间关系的描述、结果输出等。数据挖掘的过程如图1所示。

1.2关联规则

数据挖掘的关联规则是指在大型数据集中发现隐含的有价值的关系,用相应的规则表示数据关系。数据挖掘的关联规则是通过设定的最小支持度和最小置信度确立的关联规则,通常情况下分为寻找频繁项集和挖掘具有高置信度的规则[5]。

2、数据挖掘与算法改进

2.1Apriori 算法

Apriori 算法是数据挖掘常用的分析方法,其采用分层搜索策略,通过迭代的方法得到频繁集[6]。Aprioir 算法的总体流程图如图 2 所示。

2.2IM_Apriori 算法并行化实现

本文在分析原有算法的基础上,提出了IM_Apriori 算法的改良方法。该算法是基于 Spark 的并行化实现的,首先将原始的交易数据存储在分布是文件系统 HDSF 上,然后从 HDFS 中读取数据,将其转化为布尔压缩矩阵。然后根据转化后的矩阵创建 RDD 并建立缓存[7]。由于要把事务转化为矩阵,所以本文算法以 Map[String,Item]来保存数据[8].

3、电力大数据分析挖掘技术平台设计

电力大数据挖掘系统的设计目的是提升电力系统的运行效率,提供业务所需的数据采集、分析与存储功能,满足各种专业数据分析和共享的需求。

3.1设计原则

本文所述系统的设计除了能够达成设计目标之外,还应遵循以下原则:系统采用松耦合架构设计,以元数据驱动各模块进行数据的处理;采用体系化分布式并行处理技术或框架,实现数据的高效和流程化处理。

3.2功能需求设计分析

本文设计之前对系统的功能进行了分析,平台的整体架构应该能够满足各子系统和模块之间的联系和数据交流;平台应该能够从流程、全周期的层面实现数据的采集、存储、分析、表达等需求[9];平台应该能够高效的实现数据采集、存储、分析挖掘、可视化等内容[10]。

3.3功能架构设计

电力大数据智能数据挖掘平台由桌面终端、移动终端和大屏终端三部分组成,可以提供数据分析、核心数据分析和处理功能。平台功能架构如图3所示。

3.5技术架构设计

电力大数据平台的数据量较其他使用功能平台的数据量更多、更加复杂[11]。因此本文设计的数据挖掘平台采用混合架构,实现了多种计算模式的统一管控[12]。

本文设计的系统采用的技术标准有:系统采用 linux64,架构采用 Java EE 的 MVC 架构模式。平台的整体技术架构图如图 4 所示。

为了实现一体化的电力大数据平台,从底层技术的架构实现上,将平台划分为管理平台子系统、调度子系统、基础平台、离线计算子系统、ETL  agent和 ETL 服务子系统六个应用程序,共同支撑平台的各种功能。

4、数据分析挖掘平台应用实践

4.1平台部署

平台的使用部署主要包括两个组成部分:一是基础组件,包括分布式应用协调服务Zookeeper、分布式系统基础框架Hadoop、数据仓库工具Hive、工作流引擎Activiti、基于内存的分布式并行计算框架Spark和集群监控项目Ganglia等;另一部分是应用程序War包,包括管理平台子系统、调度子系统、基础平台、离线计算子系统、ETL服务子系统、ETLagent等。根据Linux运行环境的要求,本平台测试的运行环境是rhel6.5。

4.2平台在居民用电分析中的应用

本文的试验数据是采集自南方某小区的用电数据,在测试之前,首先对数据进行了离散化的处理。数据初步处理之后,设定算法的最小支持度为 0.3,经过分析得到关联规则。

从得到的规则中,总结出了一下结论:用户的用电量与收入呈正相关的关系;用户住宅面积越大用电量越大;青年住户比老年住户的用电量高;假期期间的用电量比平时的用电量略有下降。

5、结论

电力企业数据与信息的快速处理是影响企业工作效率的重要因素,数据挖掘技术可以快速抓取有用的数据并通过分析关联规则得出分析结果,通过本文的研究,可以得出以下结论:

1、本文分析了数据挖掘常用的Apriori算法,提出了该算法相应的改进方案,在计算下一级频繁集时,只需要根据当前频繁集矩阵进行计算,然后将矩阵迭代更新,较少了计算量,提高了算法的效率。

2、本文在深入分析大数据平台技术基础上,根据电力大数据应用需求,提出了电力大数据平台功能需求和设计原则,并具体阐述了平台的整体架构和技术架构。平台的设计的架构和功能满足正常使用条件下的一般需求。

3、将本文设计的平台系统在南方某電网公司进行了应用,并在单机环境和大数据平台上对改进算法进行了测试,验证了改进算法的高效性。 平台的应用,可以提供电力企业智能化数据挖掘平台的工作效率。

参考文献:

[1]孙保华,陈蕾,夏栋,韩韬.基于大数据平台的配电网智能化运维管控平台设计及应用[J].电气自动化,2018,40(06):81-84.

[2]蒋越.浅谈大数据时代信息管理智能化面临的挑战和应对策略[J].金融经济,2018(22):150-151.

[3]宋绍勇.“互联网+”时代基于大数据智能化处理的精准教学[J].中小学信息技术教育,2018(11):41-42.

[4]梅兰. 基于知识与大数据的火电机组智能AGC控制技术研究[D].上海电力学院,2018.

[5]唐雅洁. 基于云服务的智能电网调度监控平台与辅助决策[D].浙江大学,2018.

[6]丁霄寅,徐雯旭.基于智能化的电力大数据挖掘技术框架分析[J].山东工业技术,2017(12):198.

[7]王彤. 基于大数据的智能变电站的选址模型设计[D].吉林大学,2017.

[8]张建付. 大数据环境下智能电网关键设备健康评估[D].华北电力大学,2017.

[9]王瑞杰. 面向电力调度控制系统的多源异构数据处理方法研究[D].华北电力大学(北京),2017.

[10]李亚. 智能电网大数据在线分析与决策系统研究[D].华北电力大学(北京),2017.

[11]彭茂祥,李浩.基于TRIZ理论与大数据的智能化技术创新模式研究[J].科技进步与对策,2017,34(07):139-145.

[12]赵迪. 基于电力大数据的数据挖掘支撑子系统的设计与实现[D].北京邮电大学,2017.

猜你喜欢
电力数据挖掘智能化
一种智能化移动学习系统的设计思考
智能化仪器仪表的翻转课堂设计
基于Moodle平台的语文阅读教学“智能化模式”初探
基于Moodle平台的语文阅读教学“智能化模式”初探
数据挖掘综述
软件工程领域中的异常数据挖掘算法
电力变压器高压试验探讨
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书