基于随机森林的用户行为识别模型研究

2017-06-05 16:46余以胜

电脑知识与技术 2017年7期

关键词：随机森林特征提取

余以胜

摘要：以用户历史用电量为基础，提出了基于随机森林的用户行为识别模型，井在实验分析中与多个分类算法进行对比。实验结果表明，在用户窃电行为识别问题上，随机森林组合模型具有更高良好的识别效果。

关键词：特征提取；用户行为识别；随机森林

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2017）07-0156-02

根据国家电网公司统计，近年因窃电导致的损失达上千万元。目前，窃电行为检测更多还是采用人工现场检测的方法，该方法效率低、成本高，而且有人为的参与，不利于电力企业的管理。因此，如何使用科学的方法实现智能化的用户检测是供电企业的重要研究内容。

1基于随机森林的用户行为识别模型

（1）特征提取

本文以用户最近一年的用电数据为基础，提取用户行为特征并进行用户行为识别，主要从以下四个方面进行特征提取：一是用户各个月份的用电情况，二是对用电量进行分段统计，三是用户用电的趋势，四是相邻月份用电变化情况。用户行为特征如表1所示。

（2）随机森林模型

随机森林是由Breiman L于2001年提出的分类预测算法，目前在个人信贷、机器用户识别、用户流失预测等分类問题上有着广泛的应用，与单模型相比，随机森林具有更强的泛化能力，能够克服单个模型过拟合的问题。

随机森林由一组决策树组成的组合分类器（h（x，θ_k），k=1，2，3…K），其中θ_k表示独立随机变量，K表示决策树的数目，在给定X的条件下，随机森林由K棵决策树投票决定最优的分类类别。

本文在选择分裂特征时采用Gini值测度方法，Gini值计算公式为：

（1）

其中，p_i表示该类别i在该节点处的频率，Gini值越小，表示该节点的类别越纯，当该节点只有一个类别时，Gini值为0。

随机森林一般情况下采用简单的投票方法进行最终的决策，即选择所有决策树中得票数最多的类别作为最终的分类结果。

（2）

其中，H（x）表示组合分类模型，h_i（x）表示单个决策树模型，y表示目标变量，I（·）为示性函数。

2实验分析结果

本文以国家电网公司提供的用户用电行为数据作为实验数据，并与其他算法进行对比。

本文采用多次随机实验的分类准确率平均值和方差两个维度来评估模型的性能。设分类类别标签y∈{0，1}，其中0表示正常用户，1表示窃电用户。用TP表示类别为1识别为1的数目，FP表示类别为0的用户识别为1的数目，TN表示类别为0识别为0的数目，FN表示类别为1识别为0的数目。预测准确率表示为：

（3）

本文采用50次随机实验，每次实验按照8：2的比例从原始数据中随机抽取训练集和测试集。

每组实验中，RF算法与以下分类算法进行对比：（1）朴素贝叶斯；（2）逻辑回归（LR）；采用u正则化；（3）KNN：参数K=5；（4）CART：使用Gini指标进行最优分类特征选取；（5）SVM.采用高斯核函数，惩罚项C=1；（6）GBDT：学习率为0.01，决策树深度为3。随机森林的模型参数设置为；决策树数目200，随机特征数m=7。50组实验的测试结果如下所示：从表中的结果可以看出，不同算法的预测效果差别较大。NB的预测效果很差，precision只有不到65%。而RF的precision达到了91.3%，这个结果与单决策树相比，准确率相差超过10%。SVM的准确率也非常高，到达了86.6%，是单模型中表现最好的算法，但是RF的准确率仍然要比SVM高，而且方差更小性能更加稳定。另一个组合分类器GBDT的平均分类准确率要比较高，达到了87.5%，但无论在准确率和稳定性上RF都要更胜一筹。总体而言，与其他几个分类算法相比，RF在用户窃电行为识别问题上具有更加优秀的识别效果。

3结论

本文以用户历史数据为基础，从四个层面提取用户窃用电行为特征，并将随机森林引入用户行为识别中，建立基于组合模型的用户行为识别模型。实验表明，随机森林无论在窃电行为识别的准确率还是稳定性上与其他分类器相比有更好的性能。随机森林分类器与单模型相比，不仅分类的准确性很高，并且能够处理噪声数据，能够克服单模型容易出现的过拟合问题。用户用电数据量大而且噪声较多，使随机森林进行建模，对实际应用具有重要的参考价值。