基于融合特征及聚类分析的多尺度电力设备识别及定位

2023-06-22 10:17马静怡杨金龙

现代信息科技 2023年3期

马静怡杨金龙

摘要：为解决数字图像中复杂多目标电力设备的分类识别与精确定位，提出了一种基于多特征融合与聚类分析的深度神经网络检测模型。该模型通过跳跃连接的信息通道快连边缘、角度及语义等多重特征，并通过阶段上采样融合不同尺度信息，以此构建出待检特征金字塔；然后对数据集进行聚类分析，利用金字塔中各尺度网络对原图像的映射比例计算出与目标最佳适配的区域生成框，最终得到适用于多尺度电力设备的检测模型。通过对比实验结果表明，本改进方法在检测时能够保持高精度并具有时效性，具备一定的工程实用价值。

关键词：深度学习；电力设备；多目标检测；特征融合；聚类分析；神经网络

中图分类号：TP391.4；TP18；TM761 文献标识码：A 文章编号：2096-4706（2023）03-0070-05

Identification and Localization of Multi-Scale Power Equipment Based on Fusion Characteristics and Cluster Analysis

MA Jingyi， YANG Jinlong

（Zhengzhou University of Science and Technology， Zhengzhou 450064， China）

Abstract： In order to solve the classification identification and precise positioning of complex multi-target power devices in digital images， deep neural network detection model based on multi-feature fusion and clustering analysis is proposed. In this model， the edge， angle and semantic features are connected quickly through the jump-connected information channel， and the different scale information is fused through the stage sampling to construct the Pyramid of features to be examined. Then， the data set is analyzed by clustering， and the region generating frame which best adapts to the target is calculated by using the mapping proportion of the original image to the scale network in the pyramid. Finally， the detection model for multi-scale power equipment is obtained. By comparing the experimental results， it shows that the improved method can maintain high accuracy and timeliness at the time of detection， and has certain engineering practical value.

Keywords： deep learning; power equipment; multi-object detection; feature fusion; cluster analysis; neural network

0 引言

电力设备是电力系统的重要组成部分，其运行状态直接决定着电力系统是否能够安全经济稳定的运行[1，2]。近年来，随着智能化电力系统的建设与发展，越来越多的变电站或野外输电线路都采用无人机[3]、巡检机器人等工具对电力设备进行在线监测[4]。但通过人工进行实时图像监测的方法易受精力等主观因素影響。因此，采用智能图像分析技术自动处理非结构化的视频和图像数据具有重要意义。

由于图像采集距离远、角度多变且电力设备分布较密集，导致设备最终成像的灰度及纹理等视觉特征不明显[5]，且在尺度和形状方面存在变化。因此无法使用依赖人工设计先验条件的图像分割加分类器[6，7]类算法完成多尺度设备检测。

而另一种通过组建多层神经网络模拟人脑的深度学习[8-13]类方法，利用逐层的卷积计算，自行迭代调整信息权重以拟合目标图像与其类别的非线性映射，同时标记目标位置以实现定位。其中，Faster RCNN因其高精度而受到许多学者的青睐。例如：赵振兵等人[14]基于Faster RCNN，提出了使用KL散度作为网络训练的损失函数，同时将数据集中不同类别金具的形状特征作为损失函数的约束，克服了输电线路航拍巡检图像中金具目标间以及金具与背景间的相互干扰。但他们构建的数据集中的目标宽高分布呈线性相关，无法适用于不同尺度的设备检测。为此，韩松臣[15]等人在使用ResNet[16]作为特征提取网络的基础上提出了一种类似金字塔[17]的特征融合模块。但未考虑到异阶特征层对原图的映射比不同，因而忽略了对生成框的比例设计，不满足目标生成域的精确度要求。

针对上述问题，本文针对现有Faster RCNN提出如下改进：采用ResNet作为特征提取网络并抽取不同尺度特征层构建待检金字塔。同时，根据计算得到的不同阶网络层对原图像的映射比，结合对实际图像中的目标尺度的聚类分析[18]结果，修改每层金字塔中的生成框的尺寸和宽高比。在构建的变电站图像数据集中，通过实验验证了改进方法可实现对多尺度设备的检测，本文提出的改进算法较原Faster RCNN检测性能更优，证明了该方法在工程应用中的有效性和可行性。

1 改进模型算法分析

1.1 Faster RCNN算法在检测小目标时的缺陷

Faster RCNN是目前主流算法中性能最强的检测模型之一，如图1所示，其检测过程可分为三部分：首先，利用卷积神经网络，通过对输入图像逐层计算得到包含位置、形状、语义等信息的特征图；随后，区域建议网络（Region Proposal Network， RPN）接收基础网络最后一次计算得到的特征图，在其上利用锚框和非极大值抑制（Non-Maximum Suppression， NMS）[19]等筛选策略得出候选区域；最后，将各个候选区域映射回原特征图，通过池化（ROI Pooling）固定尺寸，再输入子网络进行目标识别与定位[20，21]。

由Faster RCNN的检测过程可知，算法并未将输入图像的全部区域视作检测对象，而是利用RPN网络筛选出可能存在目标的候选域。换言之，RPN的计算结果直接决定了哪些区域能够参与检测。当RPN的选择合理时，这种事先淘汰无用区域的方法能够降低计算量，提高检测效率。但是当RPN筛选策略并不合理时，检测子网也只能对RPN提供的候选域进行分类和坐标回归。因此，为了保证模型的检测性能和效率，需要构建一个合理的区域建议网络。

由RPN的运行过程可知，生成初步候选域的方法是使用卷积核在特征图上进行滑窗，随后在原图中对应位置生成锚框后筛选出前景框。那么影响候选域结果的两个主要因素就是基础特征图和锚框[12]。对这两个因素进行分析，得到原RPN不适用于多尺度电力设备识别与定位的原因有：

（1）滑窗计算是在由基础网络计算得到的最后一层特征图上进行遍历，由于单层特征图的感受野是固定的，那么特征图上每个单元在原图上的映射区域面积就是一个定值。因为特征图与原图的映射缩放比例固定，即使锚框的生成设置是可以人为改动的，原图上划分的候选域也被限制了检测范围，无法全面地对尺度变化大的电力设备进行检测。除此之外，因为基础网络中的下采样计算会损失细节信息，所以最后得到的单张特征图上可能只保留了较大尺度的目标信息，并不利于多尺度目标检测。

（2）Faster RCNN中初始的锚框设置和电力设备的图像并不适配，以原始设置生成的锚框在原图上的映射框无法选中完整的目标，也就无法获取正确的候选域，导致模型对多尺度目标的检测能力低。

1.2 改进算法分析

基于上述分析，本文针对性地提出两点改进：首先，为了解决作为候选域计算依据的特征图尺度单一的问题，引入特征金字塔结构。通过在不同感受野的多层特征图上进行滑窗，在原图上映射得到多种的候选域，全面覆盖了目标尺度的可能性。然后根据实际图像中电力设备的成像特点，同时考虑不同特征层与原图间的映射倍数，设置合理的锚框生成参数，从而提高模型对多尺度电力设备的检测能力。为此，本文提出了一种结合多尺度特征的改进区域建议网络。

1.2.1 基于特征融合的改进网络结构

改进的区域建议网络的设计思想中并不改变锚框的生成方式，而是通过构建特征金字塔，使用更多尺度的特征图参与计算，消除单层特征图固定感受野造成的限制。对基础网络ResNet，选择每个stage的输出结果构建特征金字塔。改进后的网络整体结构如图2所示。

改进网络中，C2～C5为ResNet中每个stage的输出，C5经过1×1卷积降维和3×3卷积后得到P5。每一层Pi都由Pi-1逐级上采样并融合对应的Ci后得到，其中每次融合后的3×3卷积都是为了缓冲不同层之间的混叠。最后，由P2～P5组成的特征金字塔即为改进模型的区域建议网络。

假设原图尺寸为224×224，网络各级的输出尺寸如表1所示。

1.2.2 锚框改进措施

为了根据目标的区域特点设计少而精的锚框，需要先对目标的尺寸进行统计分析。在统计学中，能够清晰、简明的表达某一类数据中存在某种共性的计算方法有描述统计、推论统计和聚类分析等。其中，描述统计倾向于表述数据的分布趋势；推论统计以统计结果为依据，目的是证明或推翻某个命题；而聚类分析将数据分类到不同的簇，簇间数据具有强相似性，而簇与簇之间的差异性很大。根据三种统计方法的特点，显然聚类分析法更适用于统计电力设备目标尺寸。

K-means聚類分析[22]因其算法简单有效，且在许多软件上都有成熟的应用而广受欢迎。算法通过提前设置k个中心，将n个数据对象归到距离最近的中心完成聚类。使用K-means聚类分析目标框尺寸流程为：

（1）希望得到的目标框类型尽可能的少且覆盖全面，因此根据图像中目标区域特点，选择9个初始中心点，点的坐标代表目标框的宽和高。

（2）对所有样本计算其到各中心的欧氏距离，将样本归到距离最短的中心所在的类。

（3）取每一类中的样本均值作为新一次迭代的初始值，即更新类的中心。

（4）重复第（2）（3）步，直到更新后的中心维持不变。

想要对目标框进行聚类分析，首先要统计数据，根据标注得到的.xml文件中坐标信息可以计算得到目标框的宽高。然后根据K-means聚类流程进行迭代计算，最后按照提前设置好的聚类中心个数，得到九个目标框的宽高如表2所示。

根据表中前两行的数据可以计算得到各类框相应的面积和宽高比，计算结果如表中第三行和第四行所示。可以看出，目标框的宽高比例近似集中于0.24、0.47、2.78和5.37。考虑到区域建议网络中，参与候选域计算的特征图有四种尺度，也就是说特征图与原图之间存在四种放缩比例。因此，只能暂时选定最符合实际情况的锚框比例分别{0.2，0.5，2.5，5}，然后针对不同层的特征图分别进行计算使用所需的锚框大小。

根据上述中对目标的聚类结果，得到了符合电力设备图像中目标特点的锚框的比例。为了进一步得到锚框设置的大小，需要分别在4个具有不同感受野的金字塔网络上进行计算。根据原图上的目标框的原始大小，按照每层区域建议网络与原图之间的放缩倍数，计算目标在特征金字塔上对应的锚框面积大小。计算过程如下：

为了方便计算，假设原图尺寸为224×224，根据表1可算出P5层中特征图的尺寸是原图的1/32。也就是说P5上的每个像素点对应着原图上49个像素大小的面积，此时在原图上宽高低于7的目标信息已经在卷积和下采样的过程中损失掉了，P5上只存在较大尺寸的目标信息。由此可得出，P5上只需要设置用于检测较大物体的锚框，根据聚类结果可将尺寸设置为{16，25}。紧接著P4层由P5融合C4，其感受野大小维持不变。因此P4层的锚框尺寸仍可设为{16，25}。

P4在上采样之后融合C3得到P3，此时的感受野大小发生了改变。因为C3中包含的中小目标的信息量明显高于C4，而P3又是由全局信息丰富的P4反卷积得到，因此P3上对中小型目标的检测能力明显升高。由相同的理论可以推出，P2层可进行对小尺寸目标的检测。综合上述结论，可将P3和P2中的锚框尺寸分别设置为{10，16}和{6，10}。

综合上述分析可得，对于改进区域建议网络中的每一层特征图，都有8种锚框。各层中锚框的生成参数如表3所示。

2 实验设计与分析

2.1 实验数据集及平台

本文中所使用的源数据集是实地采集的变电站内电力设备图像，数据集中涉及的目标类型共9种：电流互感器（CT）、电压互感器（VT）、绝缘子（Insulator）、隔离开关（Insolating_switch）、变压器（Transformer）、避雷器（Lightning_arrester）、环形断路器（Circuit_breaker）、油枕（Conservator）和套管（Branch_pipe）。分别从不同的角度和距离对每个类型的设备图像进行采集，由于数据集的容量远远低于模型训练的需求量，因此需要通过平移、翻转、缩放等手段对原始图像进行样本扩充，数据增强后的数据集共8 000张。为了训练模型并验证模型性能，需要将数据集以随机的原则划分为训练集、验证集和测试集，划分比例取5：2：3。训练集用于训练模型得到网络层权重，验证集用于调整训练超参数以优化模型，最后在测试集上检测模型性能。

在数据收集完成后需要对所有图像中的目标进行标注，通过“标签值”让模型学习输入和输出之间的映射关系。LabelImg是开源的专用于图像标注的工具，使用方法非常简单：对图像中的目标一一进行框选并标注，每幅图像生成一个储存着标注信息的XML文件，包含有图像整体大小、所有目标的类别信息以及标注框的坐标信息。标注的过程及结果如图3所示。

本文所使用的硬件环境为个人PC端，搭载的CPU处理器型号为Intel（R）Core（TM）i7-9730H 2.60 GHz，配置

NVIDIA GEFORCE GTX1660Ti显卡；软件环境为Windows 10+CUDA 10.0+cudnn-v 7.0，Python IDE使用Anaconda 3。

2.2 对比试验设计及评价指标

为了检验本文中针对区域建议网络提出的改进措施的有效性，设计两组对比实验测试不同模型的检测性能：在分别采用50层和101层网络结构的基础上，对比Faster RCNN+ResNet和加入特征金字塔的改进模型Faster RCNN+P-ResNet。为了控制变量，两模型中除了本身结构不同以外，训练策略和各个超参数全部保持一致。

因为Faster RCNN是个多任务网络模型，所以往往采用近似联合训练以实现共享网络权重。它将RPN和检测子网视作一体进行训练，在反向传播过程中只传回分类分支的梯度进行训练，舍弃候选域的坐标预测梯度，以此提高网络训练的效率。

为了纯粹比较模型的优劣，尽可能地减少在训练过程中加入tricks。因此训练方式采用小批量梯度下降（Mini-Batch Gradient Descent， MBGD）[23]，考虑到样本总数，设置每批次训练样本数为16。同时，为了提高训练速度并避免训练陷入局部最小，引入动量项并固定为0.9。设置训练的最大迭代次数为5×104，初始学习率为1×10-2，以0.1为调整倍数进行阶梯式衰减。

常用的模型评估指标有准确率（Accuracy）、精确率（Precision）以及召回率（Recall）等，式（1）～（3）为：

（1）

（2）

（3）

其中，P、N分别表示区域类别为前景和背景；T、F分别表示预测结果正确和预测结果错误。由公式可看出，准确率衡量的是正确预测数目占所有观测值比重；精确率是针对所有被模型预测为Positive的样本而言，即在所有被预测为正例的样本中，判断正确的数目所占比重；召回率则是在所有真实值为Positive中，模型正确预测所占比重。而在这其中，由于计算因素的互补性，召回率与精确率两种指标是相互矛盾的，故而研究采用同一类别内的平均准确率（Average Precision， AP）以及不同类别间的平均准确率均值（mean Average Precision， mAP）作为模型的评价指标。

为使衡量标准更加多样化，降低实验结果随机性。参考COCO数据集衡量标准，在使用mAP的基础上增加交并比（IoU）限制。

3 实验结果分析

改进算法与原Faster RCNN算法（基础网络分别为ResNet50及ResNet101）在多种交并比阈值下的mAP结果如表4所示。

由结果可以看出，无论是在哪种交并比取值情况下，加入特征金字塔后的改进算法的检测精度均优于Faster RCNN+ ResNet。分析第一组50层网络结构的实验结果可知，三种交并比下改进算法对模型检测准确率的提高点分别为1.27%、2.7%和1.38%；分析第二组101层网络结构的实验结果可知，三种交并比下改进算法对模型检测准确率的提高点分别为1.11%、0.4%和0.96%。由于交并比的取值越大，得到的预测框越接近真实值，预测结果也就越精确。由此可得出推论：本章中提出的改进算法Faster RCNN+FSD-ResNet能够有效地改善模型对多尺度的目标的检测能力。

4 结论

针对Faster RCNN在检测多尺度电力设备时的缺陷，本研究提出了相应的改进方法：

首先，原检测模型仅靠特征提取网络最后一次卷积计算得到的结果生成锚框，而单张特征图不仅存在特征不均衡的问题，而且以此生成的锚框的检测尺度有下限，导致RPN无法实现全尺度、多特征的候选区域列举。因此，在RPN中引入了特征金字塔结构，通过构建多尺度和多层次感受野的区域建议网络并在此之上计算候选域。

其次，为了针对性的检测电力设备，需要根据实际的目标大小、形状特点进行锚框的生成设置。结合统计学，采用聚类分析法得到目标尺度特点，而后根据感受野理论逐层的计算锚框的基础大小和变换比例，实现以任务为导向的精确检测。最后，通过实验验证了本章中提出的改进方法可以有效地提升模型对多尺度目标的检测性能。

虽然本研究已被证实能够有效地提高多目标电力设备的检测性能，但仍存在一些可优化的问题，例如：引入特征融合模块导致模型复杂度上升，损失了一部分检测效率等。在后续的工作中，应考虑优化方法以在保证模型检测精度的同时简化网络结构。

参考文献：

[1] 唐文虎，牛哲文，赵柏宁，等.数据驱动的人工智能技术在电力设备状态分析中的研究与应用 [J].高电压技术，2020，46（9）：2985-2999.

[2] 周俊煌，黄廷城，谢小瑜，等.视频图像智能识别技术在输变电系统中的应用研究综述 [J].中国电力，2021，54（1）：124-134+166.

[3] 林刚，王波，彭辉，等.基于改进Faster-RCNN的输电线巡检图像多目标检测及定位 [J].电力自动化设备，2019，39（5）：213-218.

[4] 陈树勇，宋书芳，李兰欣，等.智能电网技术综述 [J].电网技术，2009，33（8）：1-7.

[5] 章立.可见光图像弱小目标的检测与跟踪研究 [D].西安：西安科技大学，2018.

[6] 赵振兵，王乐.一种航拍绝缘子串图像自动定位方法 [J].仪器仪表学报，2014，35（3）：558-565.

[7] 冯玲，黄新波，朱永灿.基于图像处理的输电线路覆冰厚度测量 [J].电力自动化设备，2011，31（10）：76-80.

[8] LECUN Y，BENGIO Y，HINTON G. Deep Learning [J].Nature，2015，521（28）：436-444.

[9] KULKARNI A，CALLAN J. Selective Search [J].ACM Transactions on Information Systems （TOIS），2015，33（4）：1-33.

[10] XIANG P，ZHOU H X，LI H. Hyperspectral anomaly Detection by Local Joint Subspace Process and Support Vector Machine [J].International Journal of Remote Sensing，2020，41（10）：3798-3819.

[11] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision （ICCV）.Santiago：IEEE，2015：1440-1448.

[12] REN S Q，HE K M，GIRSHICK R，et al. Faster R-CNN：towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（6）：1137-1149.

[13] REDMON J，DIVVALA S，GIRSHICK R，et al. You only Look Once：Unified，Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Las Vegas：IEEE，2016：779-788.

[14] 赵振兵，李延旭，甄珍，等.结合KL散度和形状约束的Faster R-CNN典型金具检测方法 [J].高电压技术，2020，46（9）：3018-3026.

[15] 韩松臣，张比浩，李炜，等.基于改进Faster-RCNN的机场场面小目标物体检测算法 [J].南京航空航天大学学报，2019，51（6）：735-741.

[16] HE K，ZHANG X Y，REN S Q，at al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Las Vegas：IEEE，2016：770-778.

[17] LIN T Y，DOLL?R P，GIRSHICK R，et al. Feature Pyramid Networks for Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Honolulu：IEEE，2017：936-944.

[18] 马秀麟，姚自明，邬彤，等.数据分析方法及应用——基于SPSS和EXCEL环境 [M].北京：人民邮电出版社，2015.

[19] NEUBECK A，GOOL L V. Efficient Non-Maximum Suppression [C]//18th International Conference on Pattern Recognition（ICPR'06）.Hongkong：IEEE，2006：850-855.

[20] LONG J，SHELHAMER E，DARRELL T. Fully Convolutional Networks for Semantic Segmentation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Boston：IEEE，2015：3431-3440

[21] KRIZHEVSKY A，SUTSKEVER I，HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks [J].Communications of the ACM，2017，60（6）：84-90.

[22] 张建萍，劉希玉.基于聚类分析的K-means算法研究及应用 [J].计算机应用研究，2007（5）：166-168.

[23] RUDER S. An Overview of Gradient Descent Optimization Algorithms [J/OL].arXiv：1609.04747 [cs.LG].[2022-09-03].https：//arxiv.org/abs/1609.04747.

作者简介：马静怡（1995—），女，汉族，四川巴中人，助教，硕士，研究方向：目标检测；杨金龙（1990—），男，汉族，河南鹤壁人，助教，硕士，研究方向：精密仪器测量。

收稿日期：2022-10-19