基于随机森林算法的电力计量大数据分析平台研究

2021-07-06 02:10文耀宽王献军
计算机技术与发展 2021年6期
关键词:决策树电能计量

文耀宽,王献军,王 峻,苏 沛

(国家电网河南省电力公司电力科学研究院,河南 郑州 450000)

0 引 言

目前,随着电力系统应用的增多,智能电能表发挥着至关重要的作用。智能电能表、传感器、信息系统能够产生海量的数据,这些大数据蕴含着庞大的社会经济和科学价值。随着云计算、大数据技术的不断发展,逐步出现了基于大数据的云计算,比如平台即服务(PasS)、基础设施即服务(IasS)、虚拟化(Virtualization)的软件类型来实现大数据处理[1]。用户通过云计算能够快速、准确地搜索、使用电能计量装置中的大数据[2]。由于电能计量装置中产生的数据量大,类型繁多,用户使用起来极为不便[3],就需要一种新型计算方法来处理这些问题。该研究采用随机森林算法的方式实现电能计量装置的统一管理、智能存储、数据处理、数据分析、数据可视化等应用,通过采用随机森林算法能够实现随机抽取电力数据样本的分析,用户能够从电力数据库中精确地获取属性不同的数据,提高用户对电能计量装置大数据的处理能力[4]。

1 大数据平台架构设计

在设计的大数据平台构架中,将云计算、物联网和数据挖掘算法融合在一起,实现电力计量大数据的分析、处理和管理。使用户在面对浩瀚的电力计量大数据时能够妥善地管理、使用,节约数据处理的时间[5]。在该设计中,通过在计算机(PC机)上安装云计算软件实现数据的采集、存储、计算、分析和应用。设计的云计算平台为云端智能电网大数据处理平台SP-DPP[6],包括数据采集层、云存储单元、云计算单元和数据应用层,架构示意图如图1所示。

图1 云计算架构设计示意图

在该系统设计中,数据采集层主要用于采集电能计量装置中的各种数据,电能计量装置用于测量、记录、发送发电量、供电量、厂用电量、线损电量和用户用电量,以实现电能计量的输出,满足用户需求。采用的计量设备诸如大型专变终端、中小型专变终端、单/三相检定设备、居民用户设备、公用配变考核设备等。通过数据采集,能够获取底层数据,数据采集层还可以包括各种传感器设备[7]。在云存储单元中,存储单元主要负责存储电能计量装置中的各种电力数据信息。云存储单元拥有多个数据服务器,云存储类型包括个人云存储、私有云存储、公有云存储和混合云存储[8]。各种云存储都具有较大的容量。在使用个人云存储单元时,通过网络连接电力设备,以使其处于正常的工作状态,这样能够使用户存储类型各异的个人数据。诸如WORD、文本、图案、照片、视频和音乐。用户通过携带该云设备,可以随时拥有数据并控制设备,进而访问云数据。在私有云存储单元中,其通过本地局域网络控制的云存储服务器,充分地利用虚拟机的性能特点,存储电能计量装置大数据。在公有云存储单元中,公有云存储单元能够使提供商拥有、管理、构架和维护电力信息营销管理系统数据。混合云存储单元是上述各种云存储单元和数据中心的适当组合。这种方式具有弹性、可扩展的成本优势。在云计算单元中,通过数据挖掘算法对接收到的数据按照不同的定义属性进行分类、计算[9]。该研究通过随机森林算法从原始电力计量样本数据中随机抽取部分数据样本,从而产生新的电力数据样本集合,对电力数据样本集合继续学习,据此产生多个样本集合,每个电力数据样本集合后,都会产生新型的决策树。通过这种方式,能够从杂乱无章的数据库中更精确地分析出电力计量数据的实质,满足用户分析电力数据的需要。

2 关键技术支撑

2.1 大数据平台设计

由于云计算平台SP-DPP具有存储电能计量装置大数据的稳定、可靠的中心节点,因此该研究采用SP-DPP云平台进行云计算。SP-DPP平台在处理、分配电力营销大数据处理任务时,能够调度、运行营销管理大数据中心节点,比如参数文件、配置文件、代码文件等[10]。云计算平台SP-DPP在逻辑上包括大数据存储与管理模块、任务分配与调度模块、大数据执行模块和客户端模块。云计算平台SP-DPP能够实现电能计量装置海量数据处理的需求,实现电能计量装置的运行状态,更好地获取相关数据[11]。其架构如图2所示。

图2 SP-DPP平台架构示意图

在大数据的存储与管理模块中,设置有分布式文件系统DFS(distribute file system),主要存储等待处理的大数据。DFS能够自动为电能计量装置管理这些TB到PB级的海量电力数据,在使用时,DFS能够自动获取电能计量装置的/dfs/tmp/filel的数据[7]。在任务分配与调度模块中,能够将数据处理的任务以及子任务调配到空闲工作机上。在划分数据时,可以根据用户的需求选择合适的数据属性和特点,这样能够提高数据调度的效率[12]。在调度时,需要综合考虑工作机的硬件配置和软件信息情况,硬件配置包含CPU主频、内存、磁盘等,软件信息包括CPU利用程度、网络通畅程度、数据传播速度、可靠性等。使工作单元在各个物理节点之间进行迁移时比较自由和灵活。在大数据执行模块中,由SP-DPP云平台为基于虚拟化技术而实现各种操作,使得SP-DPP云平台中的电能计量装置处理、计算处理均在虚拟机上运行[13]。在客户端,用户能够通过互联网访问SP-DPP云平台,客户端可以按照服务等级协议(service level agreements,SLA),采用按时付费(pay-per-use,PPU)的模式来管理。在使用上述SP-DPP云平台时,用户还需要使用Apache的开源的云计算平台Hadoop中的MapReduce规范,以加快数据的处理速度[14]。

2.2 随机森林算法

随机森林是一种特殊的bagging方法,是处理电力大数据的一种方法,是用于训练base estimator数据的重要步骤之一,更确切地说,bagging算法+decision trees算法便得到了随机森林算法[15]。具体地说,采用随机森林算法时,需要建立森林模型。其过程实质是采用随机的方式建立起来的,随机建立起来的森林里具有多种不同的决策树,在随机森林算法模型中的每一棵决策树中,彼此之间并没有联系。在建立好森林模型之后,每当出现新的电力数据输入样本时,森林模型中的每一棵决策树便各自独立进行判断,判断该电力数据样本应该属于哪种类型,出现概率较多的一类则被作为最终的数据分析选择结果[16]。其分析方法示意图如图3所示。

图3 随机森林算法的分析示意图

(1)数据选择:在电力计量装置采集层生成的大量计量数据中,根据用户需求选取电力数据样本数据集。

(2)预处理:由于电力计量数据集具有很多粗糙的数据信息,并且含有大量的影响数据误差分析结果的数据噪声,在分析这些数据时,就需要剔除不平滑、不准确的电力数据信息,或者剔除与用户无关的噪音数据。将不便于识别的电力信息数据转化为使用户容易识别较为纯净的数据信息。在进行电力数据预处理时,借助于bagging集成学习方法实现对电力数据集的训练、学习,其中bagging集成学习方法如图4所示。

图4 bagging集成学习方法示意图

在机械学习训练时,从电力计量数据库中的原始电力样本训练数据集合中,随机抽取一定的电力数据样本。假设输入的数据样本集记作D={(x1,y1),(x2,y2),…,(xm,ym)},第一次输出是通过弱学习器算法的输出,然后将多个弱分类器进行多次迭代计算,最终输出较强的强分类器[17-18]。更具体地说,在采集数据样本时,每采集一个数据样本则放回一个数据样本,假设采集N个电力数据样本训练集,随机采样次数为T次,根据随机采样的特点,进行T次电力数据采样的结果不会相同,则将每次采样的电力数据结果输出频率较高的数据样本作为最终的电力样本数据模型,此时,该点被设置为最终决策树的叶子节点[19-20]。

(3)随机森林算法模型的建立:利用步骤(2)训练出的强分类器来建立随机森林算法模型,流程如图5所示。在建立随机森林模型时,其实质是决策树算法的进一步升级,在生成随机森林模型时,通过上述方法可以确定多个决策树的产生。在确定决策树的分支节点时,采用分支节点逐渐递归分支的方式,在递归分支时,需要从其他的数据特征中抽取,该抽取方式仍旧采用随机抽取部分特征,再次确定子分支。利用上述方法确定了节点、分节点后,一棵决策树模型便建立起来了[21]。然后采用上述方法对每个数据样本集合进行训练,从而建立起多个不同的决策树。当决策树逐步增多,则可存储构建的决策树。最后看构建出的决策树数量能否满足用户的要求,如果没有满足,则需要按照上述方法重新训练、学习,并且按照投票法原则(少数服从多数)重新确定新输入样本的类别。当满足了用户要求时,则生成随机森林模型[22]。

图5 建立随机森林算法模型的流程图

当上述随机森林模型建立起来之后,则可以利用建立起来的大数据模型对电力大数据进行分析。在分析数据时,计算出训练样本数据中不同决策树的特征变量的加权信息增益率和随机森林决策树特征变量的加权信息增益值[23],再计算出二者计算特征的特征重要性,通俗地说,指的是特征变量的信息增益率占全部特征变量的信息增益率的百分比。即假设电力样本数据集为十万个不同的电力数据,对各个电力样本集的特征变量的重要性值进行降序排列,假设将Y降低到y维(Y>y),则可以选择前n个重要性电力数值的最大特征变量,然后从剩下的Y-y个技术特征中随机挑选(Y-k)个不同特征[21-22]。共同组成x个特征,从而将电力计量大数据的高维数据从X维降低为x维,有利于用户识别、分析计量数据。

3 试验结果及分析

在试验时,选择具有良好的吞吐量和加速比的SP-DPP云平台。其中云服务器主机的硬件配置为:Intel Xeon E3-1220v53.0 GHz四核,内存:8GDDR4, 硬盘:1*Intel企业级SSD,1*SATA 1T,网卡:2*千兆网口;工作机节点的硬件配置为:CPU型号Intel Xeon E53.0 GHz,内存为8 GB,硬盘容量为1 TB。在试验时,将这些节点通过局域网内的1台千兆交换机相联[23]。其中云服务器主机的软件配置为:将9台PC机都安装RedHatLinux操作系统,Hadoop版本为1.0.4,JRE环境为1.6,用户只要继承MapReduce-Base,分别实现Map和Reduce的两个类,即可编写Map和Reduce的程序。其中通过PC机组成的SP-DPP平台的节点配置信息为:节点IP地址分别为172.16.0.1、172.16.0.2、172.16.0.3、172.16.0.4和172.16.0.5,角色分别为Master和Slave两种类型,操作系统为Linux,运行的进程分别为Namenode,JobTracker和DataNode,TaskTracker。

下面以电能表计量装置为例,选择3种不同的电能表计量装置作为示例,在每个电能表检测装置中选取5组测试数据进行分析,选取500个样本,测试时间为1秒,数据样本如表1所示。

表1 电能表检测装置测试样本

表2为任意电能检定装置检测的项目N(i,j),其表示检定装置中电能表为i,同时在随机森林模型算法中估计值为j的样本个数。

表2 检定装置分类问题的混淆矩阵

然后利用以下公式进行评价、计算。其中参数真正(TPi)的评价公式为:

TPi=N(i,j)

(1)

参数假负(FNi)的评价公式为:

(2)

假正(FPi)的评价公式为:

(3)

在上述公式中,真正(TPi)表示为通过分类模型正确预测的样本数i的值,假负(FNi)表示为通过分类模型未正确预测的样本数i的值,假正(FPi)为上述装置外的样本被预测为真正(TPi)和假负(FNi)的样本数。用以下公式来评价随机森林模型应用情况。其中对类召回率(Ri)的评价公式为:

(4)

对参数类正确率(Pri)的评价公式为:

(5)

对参数整体正确率(OA)的评价公式为:

(6)

通过上述公式,得出如表3和表4所示的数值。

表3 检定装置分类问题的混淆矩阵计算值

表4 检定装置中样本的评估结果 %

根据上述计算结果,选取的3个检定装置中,召回率分别为90.32%、91.01%和91.21%,1#检定装置召回率最高。将这3个检定装置的样本信息经过上述公式运算可得,预测的正确率分别为90.32%、90.45%和91.32%,整个模型的准确率在90%以上,可见该模型估计的准确率高。

4 结束语

该研究通过建立SP-DPP云平台进行云计算,在SP-DPP平台处理、分配电力营销大数据处理任务时,能够把数据在电能管理大数据中心节点上调度,大大提高了数据的处理能力,同时采用物联网技术,实现底层设备到上层数据的传递。在软件平台设计中,又采用随机森林算法实现数据的更精确学习和评估。该研究融合了“大数据+随机森林算法”的深度学习算法,使得电能计量装置中非结构化、模式多变的电力大数据群中的数据得到了有效分析,提高了用户对大数据的分析精度,扩大了用户对电力计算大数据的使用范围。

猜你喜欢
决策树电能计量
高速公路合同计量变更管理策略
基于信息系统的计量标准管理
简述一种基于C4.5的随机决策树集成分类算法设计
对公司计量管理工作的一些思考
澎湃电能 助力“四大攻坚”
闪电潮汐转化仪
决策树学习的剪枝方法
可输出电能的椅子
第11讲 电能与电功率专题复习
决策树在施工项目管理中的应用