基于ELM-SVM模型与电能计量大数据的窃电识别技术研究

2022-10-09 03:07县国成王永攀
智慧电力 2022年9期
关键词:向量用电计量

县国成,王永攀,高 俊,浮 海,杨 斌,武 旭

(1.国网甘肃省电力公司天水供电公司,甘肃天水 741000;2.兰州交通大学自动化与电气工程学院,甘肃兰州 730070)

0 引言

随着新型配电系统的构建,窃电已经从破坏传统电能表接线或私接电缆等手段转变为通过数字化技术和智能通信技术对电能表的攻击[1-3]。这种恶虐手段使得新型电力系统的构建与智能电网的发展受阻,更会使电网供电的可靠性受到威胁,导致电力消费者正常生活受到影响[4-5]。如何从电能计量大数据中准确、高效地识别出非法用户的窃电行为,对提高配电网线损指标、促进电网的经济效益有着重要的工程应用价值和意义[6]。

传统电网的窃电识别方法,对反窃电稽查人员的技术性依赖较高,主要分为三个阶段:窃电行为预警、异常数据采集、异常数据分析[7-10]。目前智能电网与智能电表的发展,窃电行为的识别方法转化为高效的自动化窃电行为检测。文献[11]提出基于置信规则推理(Belief Rule-Based,BEB)和长短记忆网络模型(Long Short-Term Memory,LSTM)的用户窃电行为诊断方法,与主流故障检测模型相比,该方法能够更准确地诊断异常用电行为。文献[12]为了更高效地检测窃电行为,提出了一种新型的密集卷积神经网络和随机森林(DenseNet-RF)模型,该模型可较好地实现窃电行为检测。文献[13-16]利用随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)、极限梯度提升树(Extreme Gradient Boosting,XGBoost)、决策树(Decision Tree,DT)和卷积神经网络(Convolutional Neural Networks,CNN)等人工智能算法判断用户属于窃电用户还是正常用户,这些算法的测试结果较为准确。文献[17]考虑到不同学习器在数据集上的表现以及各学习器之间的多样性,构建多种个体学习器嵌入的Bagging 异质集成学习的窃电检测模型来识别窃电行为。

文献[11-17]研究只是采用单一机器学习算法或几种方法结合,未考虑电能计量大数据指标特征,没有分析评价指标的优先级顺序,使得算法在处理数据集时收敛速度慢,影响判别结果,识别精确度不能达到很高。基于此,本文提出基于极限学习机(Extreme Learning Machine,ELM)与支持向量机(Support Vector Machine,SVM)相结合的ELMSVM 算法的窃电识别模型,对窃电行为进行精准识别检测。利用电能计量大数据建立窃电状态指标评价体系;分别说明ELM 和SVM 学习方式的训练机理以及ELM-SVM 结合的重构能力评估,建立基于ELM-SVM 的窃电识别模型;在电能计量大数据集上验证算法的适用性和精确性。

1 窃电状态指标评价体系

1.1 构建原则

窃电状态指标评价体系建立时,会受到窃电手段、电能计量方式以及工作人员主体价值观等[18]方面的影响。对窃电智能识别技术,窃电指标评价体系的建立有利于快速判断窃电用户,且评价体系要科学、符合实际需求,对窃电评价结果的准确性、有效性产生关键影响。建立评价指标体系时,要求具备指标针对性,能够对窃电特征进行特定描述[19]。

建立窃电状态指标评价体系时,需遵循以下原则:

1)目标一致:评价指标要与反窃电目标或管理目标相一致。

2)指标可测:窃电评价指标作为特定目标,所需要的数据可通过电能计量大数据系统直接获取。

3)相互独立:窃电指标评价体系是由电能表计量的各项电能数据并由采集终端传输到采集系统,各项指标有着直接或间接的联系。为了使评价的结果更具可靠性和精确性,各条指标应相互独立,互不重叠。

4)体系完备:指标体系不应遗漏与窃电相关的任何一个指标,保证更全面地稽查窃电用户。

1.2 评价指标选取

依据窃电状态指标评价体系的构建原则、计量原理和窃电手段,结合各供电公司典型窃电用户案例,发现改变计量线路、更换计量装置等窃电手段,均会使电表某项采集数据出现异常[20]。目前供电公司主要通过筛选电量长期为0 的用户和考虑线路线损指标,筛选线损率偏高台区线路并进行现场逐一排查,工作量较大。因此,建立窃电状态指标评价体系时,各指标的选取一方面要实际全面地反映窃电的实际场景,不能漏掉任何一个重要指标;另一方面也应考虑计量数据的有效性,做到既不重复也不遗漏。通过现场调研和采集数据处理,最终选择表1 中的18 项指标作为窃电状态评价指标。

表1 窃电状态评价指标Table 1 Evaluation index of power stealing state

1.3 评价体系建立

国网某省供电公司统计了2020 年850 名窃电用户采集主站相关数据信息,分别对窃电用户进行了表1 中18 项异常指标筛选和分析,见图1。

图1 窃电用户异常指标占比Fig.1 Proportion of abnormal indicators of power stealing users

由图1 可知,用户窃电现象会引起图1 中18项指标一项或者多项指标发生变化,其中,线路线损率和电表开盖报警指标占比最高。将18 类与窃电状态相关的异常指标作为评价因素集合,依据统计学原理[21],将其分成6 类:电压电流类指标、电量类指标、报警类指标、负荷类指标、客户信誉指标和故障类指标。并依据国家电网公司有关窃电用户异常指标统计结果,将指标按照相关程度由高到低依次归结为I 类(电压电流类指标、电量类指标)、II类(报警类指标、负荷类指标)和III 类(客户信誉指标和故障类指标),具体见图2。

图2 窃电指标评价体系Fig.2 Evaluation system of power stealing index

2 ELM-SVM学习模型

图1 显示的评价指标数据中,包含时间序列(如电能显示值不平、电表开盖报警等),通过计算可知,当某一类特定向量作为输入,则必对应一组特定向量作为输出,即输入输出数据存在映射关系。由于输入向量与输出向量间的复杂非线性相关性,初等函数拟合精度较差,而集成学习作为描述多个量之间相关性的工具,具有较强的非线性拟合能力,考虑通过ELM-SVM 集成学习模型对评价指标与窃电状态之间的映射关系进行表征。

2.1 ELM算法

ELM 算法主要基于单隐层前馈神经网络(Single Hidden Layer Feedforward Neural Network,SLFN)的学习理论,ELM 只包含一个隐藏层,其中所有层参数、权重和偏差都是随机定义的。可以使用反向操作来确定将隐藏层链接到输出层的输出权重。文中只简要分析ELM 的基本理论,更多详细信息请见文献[22]。

图3 是一个ELM 模型结构图。设定一个训练数据集x,有N个任意不同的样本对(xi,yi),i=1,…,N,其中xi=[xi1,xi2,…,xin]T∈Rn为第i个输入向量,yi=[yi1,yi2,…,yim]T∈Rm是第i个目标向量;隐藏层中包含L个节点的SLFN、激活函数φ(x)和输出函数f(x),定义如下:

图3 ELM模型结构图Fig.3 ELM model structure diagram

式中:ωj为第j个隐藏节点连接到输出节点的权重向量;φ(x)=[φ1(x),…,φL]为ELM 的非线性特征映射;φj(x)为第j个隐藏节点的输出;ym为第m个样本的输出函数;aj=[aj1,aj2,…,ajn]T为输入层连接到该隐藏节点的1 组权重;bj=[b1,b2,…,bn]为偏差项。

图3 中:X为输入向量,Y为输出向量,m为输入和输出量的个数,h(x)为隐藏层与输入层之间的权重矩阵;w1···wL为隐藏层与输出层之间的权重矩阵。

ELM 训练过程包括2 步:

1)随机定义隐藏节点参数(a,b),将输入数据映射到特征空间。映射函数可以是任何激活函数,通常使用的是sigmoid 函数:

式中:φi(x)为sigmoid 激活函数;ai,bi为i节点隐藏节点参数;x为训练数据集;

2)找到连接隐藏节点和输出节点的权重w,该值通过最小化凸代价获得:

式中:y和φ分别为训练数据和隐藏层输出矩阵:

‖φω-y‖ 为欧几里德标准,矩阵逆变获得w:

2.2 SVM算法

SVM 的主要任务是通过预先选择的非线性映射将输入向量X映射到特征空间Z,在空间Z中构建最优超平面。SVM 算法的输出将全部中间节点进行线性组合,中间节点与支持向量机一一对应,可尽量多地将两类数据点无误分开,同时使分开的两类数据点距离分类面最远。SVM 具有全局最优、结构简单、能力强等优点[23]。

SVM 模型的超平面描述为:

式中:ω为超平面的法向量;b为超平面到原点的距离;xi为第i个特征。

假设P(x1,x2,…,xn)为样本中的一个点,那么该点到超平面的距离d为:

式中:‖W‖ 为超平面的范数;T为数据集;wi,i=1,2,3...n为超平面第i,i=1,2,3...n个点的法向量。

若要使2 类数据点距离分类面最远,则有以下目标函数:

式中:yi为数据点标签,值为1 或-1;wT为法向量集合;γ为数据间距离。

通过优化式(10),找出一个最优超平面,使2类数据分开且分开的最远。

为了直观地表示分类准确性,使用混淆矩阵,输出结果可以表示为P 或N。通过数据得知样本的真实值,分类模型得出预测值,混淆矩阵如表2 所示。

表2 混淆矩阵Table 2 Confusion matrix

表2 中,P 为用电正常用户,N 为用电异常用户,TP 为实际与预测均为用电正常用户,FP 表示实际为用电异常用户,预测为用电正常用户,FN 表示实际为用电正常用户,预测为用电异常用户,TN 表示实际为用电异常用户,预测为用电异常用户。

此外,定义窃电指标评价模型的二级指标与三级指标。二级指标为准确率(RAC)、精确率(RPRE)、召回率(RREC)、特异度(RTN),计算公式如式(11),三级指标为F3,计算公式如式(12)。

通过二级指标和三级指标,以30 个用电用户为例,给出用户用电行为分类流程,见图4 所示。

图4 用户用电行为分类流程图Fig.4 Flow chart of user’s electricity behavior classification

2.3 基于ELM-SVM的窃电检测模型

虽然ELM 算法能够在一定程度上提高窃电模型的检测能力,但ELM 存在一个问题,不能对样本进行自动设定数据标签,不能为模型提供固有的训练样本,从而导致模型训练不够完整,降低了算法的适用性。因此,针对窃电识别系统判定率低、识别速度慢、鲁棒性差的问题,综合ELM 和SVM 的优点,解决窃电识别模型的不足,借助ELM 强大的决策能力和SVM 算法对分类检测的优势,提出一种基于ELM-SVM 的新型智能检测识别方法,建立在标定数据的基础上,在提供鲁棒性更好的训练样本的同时,提高网络的适用性。ELM-SVM 的原理结构如图5 所示。其中,X1…X18为18 类与窃电状态相关的异常指标。

图5 ELM-SVM的原理结构图Fig.5 Schematic structure diagram of ELM-SVM

不良数据影响模型的预测精度,数据的辨识与处理会使预测值更好,将处理后的数据分别送入ELM 和SVM 模型,通过数据融合技术,将预测结果输出。检测流程如图6 所示。

图6 ELM-SVM检测流程图Fig.6 ELM-SVM detection flow chart

主要步骤为:

1)通过训练模型对电能计量大数据进行标签,其标签的类别为异常用电用户和正常用电用户,分成训练集与测试集,使用ELM 模型测试指标数据,模型的输出设置为4 维结构,包括(1 0 0 0),(0 1 0 0),(0 0 1 0)和(0 0 0 1),并通过式(3)、式(4)所列出的sigmoid 函数使输出的各个分量在(0,1)范围内,再通过式(4)—式(7)输出结果为(y1,y2,y3,y4),其中,yi(i=1,2,3,4)为第i种情况的基本信任度。

2)建立ELM 网络处理异常和正常用电序列,并根据ELM 的输入维度,将训练集和测试集分割作为输入;为了有效地降低计算复杂度,采用最小二乘支持向量机作为SVM 模型,SVM 输出包含2 个值+1 和-1,+1 和-1 表示正常用电用户和异常用电用户。对于SVM 的每种分类结果,利用模糊数学思想[24]查看输入数据对每类样本的依赖程度,通过SVM 得到4 种情况下最终结果的基本信任度。

3 数据处理

3.1 数据获取与分析

所用数据来源于国网某省电力公司所属18 个配网台区,验证集中含有1 345 个非窃电用户和55个窃电用户的用电量数据,共计1 400 户用电数据信息。采样时间范围为2021 年1 月2 日至2021年6 月30 日。数据集均是智能电表计量,终端采集成功率99%,在数据集中,每日每户数据包含48个分量。

1)缺失数据补充:根据采集数据定义ς为缺失数据,计算公式为:

式中:F为终端采集失败数据;H为缺失数据;D2为采集天数。

2)异常采集数据判别:采用箱型图[25]的离群数据判据法,定义异常采集数据为η,判别公式为:

式中:Q1和Q3分别为第一四分位数和第三四分位数;IQR为四分位距。

3.2 数据标准化处理

为保证窃电识别的准确性,数据标准化处理是非常关键的环节。终端采集数据包含电压电流数据、电量类数据、报警类数据、负荷类数据和故障类数据等,各类数据之间量纲不同、单位不同,需将其标准化处理。通常采用min-max 标准化和0 均值标准化方式:

式中:为标准化后的特征值;x为标准化前的样本值;max(x)为样本数据最大值;min(x)为样本数据最小值;mean(x)为样本数据的均值;σ为样本数据的标准差。

4 实例分析

为了验证ELM-SVM 模型的性能,利用电能计量大数据对电力用户窃电行为进行检测。实验基于Windows10 系统与python 软件。分别对ELM,SVM,ELM-SVM 模型寻找其能够产生最好结果的学习率,表3 为各模型在各个学习率区间内的训练结果情况。

表3 3种模型在学习率各区间上的训练情况Table 3 Training of three models in each interval of learning rate

将ELM-SVM 模型在92 个测试数据集上进行验证,分别与ELM 模型、SVM 模型进行实验对比,分析不同模型的分类结果。图7—图9 分别为ELM-SVM 模型、ELM 模型、SVM 模型在测试集数据上的窃电用户预测结果,正确率分别为97.8%,95.6%和94.5%,其中100 表示用电正常用户,0 表示窃电用户。由图7—图9 可以看出,ELM-SVM 模型在窃电识别检测中正确率更高。

图7 ELM-SVM模型预测结果Fig.7 Prediction results of ELM-SVM model

图8 ELM模型预测结果Fig.8 Prediction results of ELM model

图9 SVM模型预测结果Fig.9 Prediction results of SVM model

由于电力数据庞大,需进一步验证ELM-SVM模型在电能计量大数据情况下的窃电识别准确率。随着测试集样本数量的不断增大,文中所提ELM-SVM 模型分别与卷积神经网络CNN、极限梯度提升树XGBoost、长短记忆网络模型LSTM、遗传-神经网络模型GA-BP 和密集连接卷积神经网络DenseNet 模型预测作对比,将以上算法运用在电能计量大数据中,分别进行窃电识别准确率对比,各类模型的预测结果如表4 所示。

表4 不同预测模型对应不同样本数量的准确率结果对比Table 4 Accuracy results comparison of different prediction models corresponding to different sample numbers

从表4 可以看出,ELM-SVM 集成模型在样本个数为100 时窃电识别准确率可达0.978,高于其他预测类型精度;但随着样本数量的不断扩大,其识别精度逐渐降低,当样本数量达到500 户时,识别率降低到0.832,说明文中所设计ELM-SVM 模型有待进一步提高,相较于目前实际窃电识别模型准确率已有较大提升。相较于CNN、XGBoost、LSTM、GA-BP 和DenseNet 模型,ELM-SVM 在样本数据不断增大时识别准确率更高,说明文中设计的识别模型更加有效。

5 结语

针对配电系统中的窃电用户识别困难问题,本文在电能计量大数据的基础上,提出了一种基于ELM-SVM 的窃电智能识别检测方法。通过电表采集数据建立窃电状态评价指标体系,最终分为I 类(电压电流类指标、电量类指标)、II 类(报警类指标、负荷类指标)和III 类(客户信誉指标和故障类指标)。对ELM 和SVM 算法进行技术融合,利用ELM 计算模型预测精确度,SVM 用于判别窃电用户与非窃电用户,从而达到窃电现象分类识别,获得窃电大数据融合网络模型。实例验证表明了ELMSVM 融合网络模型的窃电用户预测率可高达97.8%,相较于CNN、XGBoost、LSTM、GA-BP 和DenseNet 模型,ELM-SVM 模型具有更好的预测准确率,在检测电力大数据的窃电用户中有着巨大的优势,可以精准识别窃电现象。

猜你喜欢
向量用电计量
高速公路合同计量变更管理策略
向量的分解
基于信息系统的计量标准管理
对公司计量管理工作的一些思考
第12讲 家庭电路与安全用电专题复习
学习用电小知识
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
中国计量出版社图书目录