智能视频监控系统动态目标检测与识别算法综述

2018-10-22 01:25刘明光

电气技术 2018年9期

王聪刘明光齐飞

（北京交通大学电气工程学院，北京 100044）

近年来，视频监控技术被越来越多的应用于电力系统。在无人值守的变电站以及禁止人员靠近的危险区域安装视频监控系统中，可以有效地排除安全隐患，及时预警，避免事故的发生[1]。传统的视频监控系统多采用由工作人员全天候值守、人为预警的方式，这种方式不仅不能通过事故预防报警来减少事故发生，而且严重浪费了人力物力。如今，随着计算机视觉研究的不断深入，智能视频监控技术逐渐取代了原有的视频监控方式。智能视频监控系统可以在没有工作人员参与的情况下，运用图像处理与计算机视觉的方法对视频图像进行分析，以确定监控地点的实时状态，当异常情况发生时可以及时上报工作人员，提示他们采取处理措施，从而实现预防、预警和主动监控的功能[2]。

目前普遍采用的智能视频监控算法以移动目标检测算法为主，即对采集到的视频信息进行逐帧处理，当被监控区域内有异物侵入时则发出报警信号。这种算法不能对运动的物体加以区分，且对应用场所要求较高，不能适应于复杂的环境。若采用高级移动目标检测算法检测运动物体，同时使用模式识别机器学习的方法识别运动物体，则可使智能视频监控技术具备更高的适应性及准确性。

1 移动目标检测算法

目前能够实现并广泛应用的视频移动目标检测算法主要包括：帧间差分法、背景差分法、光流法及一些高级融合算法。

1.1 帧间差分法

文献[3-5]中所采用的视频移动目标检测算法为帧间差分法。帧间差分法的算法流程如图1所示。

图1 帧间差分法算法流程图

首先，把采集到的视频信号经过滤波和灰度值转化处理，然后将相邻两帧图像相同像素点的灰度值进行差分运算，过程如式（1）所示：

式中， Ik（x,y）和 Ik+1（x,y ）表示相邻帧图像在点（x,y）处的灰度值；Dk（x,y）表示差分图像在该点的灰度值。差分运算之后，将差分图像进行二值化处理，即当差分图像在某一点的灰度值大于阈值T时，则该点对应的图像区域被设置成 1，相反则设置成0，以此来区分出背景区域与运动目标区域，从而实现前景图像的提取[6]，即

此过程中，阈值的选取很重要，如果阈值取值过大，就会造成在复杂场景下检测到的运动目标不完整，而如果阈值取值较小，则会把背景信息当成运动目标的一部分，降低运动目标检测的精确性。为解决此问题，可以根据视频序列的每一帧图像的具体内容产生多个分割阈值，来自适应前景和背景对比度的变化[7]。

两帧差分法优点是，算法简单，检测速度快，适用范围广。该算法的缺点有：①很难检测出完整的运动物体。当时间间隔较长，或物体移动的速度过快时，会出现“重影”现象[8]；②当时间间隔太短，或物体移动速度过慢时，会导致前后两帧的灰度值来不及改变，造成灰度值的差较小，导致把前景识别为背景，从而出现“空洞”现象[9]。在实际中可以采用“三帧差分法”或者“多帧差分法”来解决以上问题。即在连续的图像序列中取3个相邻帧或者多个相邻帧作为一组，对相邻两组的图像进行多次差分，再进行运动区域的提取。

1.2 背景差分法

文献[10-12]中采用的移动目标检测算法为背景差分法。背景差分法的算法流程如图2所示[13]。

图2 背景差分法算法流程图

使用背景差分法来进行移动目标检测首先应该确定背景图像，一般采用将视频的正常的图像信息累加再求平均的方法[14]，即选取N帧连续正常的视频图像进行灰度值转化，对相同像素点灰度值进行叠加再除以总帧数，得到背景图像的灰度值，表示为

式中，B（x,y）表示所得的背景图像在点（x,y）处的灰度值；In（x,y）表示视频信息的第n帧图像在点（x,y）处的灰度值。

确定背景图像后，将视频的每一帧图像与背景图像在相同像素点的灰度值进行差分运算，得到差分图像，通过阈值比较来实现差分图像的二值化，从而确定前景图像与背景图像，进而区分出运动的物体。此过程分别如式（4）和式（5）所示。

相比帧间差分法，背景差分法可以更好地提取出运动目标且运算量较小，运算速度快，但对光照等扰动的适应性较差。若采用将检测出的背景图像加入到第一步的均值运算当中，则可以不断更新背景图像。这样可以在一定程度上增加背景差分法对小扰动的适应性。

此外，基于背景差分法的高级背景建模方法还包括混合高斯背景模型（GMM）[15]、码本模型[16]、GMG算法建模、VIBE算法建模[17]和核密度估计算法建模[18]等。这些高级背景建模方法也使得背景差分法能够处理复杂背景下的运动目标检测，并且具有了更好的鲁棒性、适应性与实用性。

1.3 光流法

文献[19-21]中采用的移动目标检测算法为光流法。

光流指的是视频图像上像素点之间灰度值的变化，即运动物体的瞬时“速度”。光流法是一种通过研究视频图像序列的光流场，利用图像中运动物体的光流信息和背景的光流信息的差异性，来确定运动物体的位置，进而检测运动目标的方法[20]。光流基本方程为

光流法的优点是，不需要提前确定背景，受光照变化等外界干扰的影响较小，对运动物体的定位更加准确。缺点是，运算量较大、运算时间较长、对设备要求高。

近几年，国内外在移动目标检测算法方面的研究比较多，出现了许多结合算法和新算法，例如，结合光流法和三帧差分法的移动目标检测算法、基于混合高斯模型和帧间差分法相结合的运动物体检测算法[7]、基于图像时空显著性的运动区域检测算法[23]等，使得移动目标检测算法有了更好的自适应性，同时，提高了算法的精确性与抗干扰能力。

2 移动目标识别算法综述

在通过移动目标检测算法检测出运动区域后，不同的运动区域可能会对应不同的运动物体。能否正确识别出非正常的运动物体，将影响到智能视频监控系统报警的准确性。同时，目标识别技术还可以应用于线路的自动巡检系统，辨别设备是否损坏。目前移动目标识别算法的种类较多，大体上可分为基于传统模板物体识别方法和基于统计学习的物体识别方法[24]。

2.1 基于传统模板匹配的运动目标识别算法

基于传统模板的运动物体识别算法利用不同类别运动物体的轮廓、速度、颜色等外在特征的较大差异性，通过构建不同类别运动物体的模板，然后在待测图像中匹配模板来实现不同物体的识别。这种方法是移动目标识别算法中较为简便、直接的一种方法。例如文献[25]中采用了基于距离图像的单目测距，计算物体的实际大小、高度来进行识别的方法。具体步骤为：①需要对摄像机进行位置标定，获取摄像机的内外参数，建立实际三维空间与视频图像二维图像之间的对应关系；②假设运动物体位于地面上，将摄像头成像原理简化为几何问题，确定监控区域内地面上任意位置到摄像头的距离；③求出进入监控区域的运动目标的高度。

确定监控区域内任一点到摄像头距离的计算过程如下，摄像机成像过程以图3近似表示。

图3 摄像机成像过程示意图

图3 中O为摄像机光心，摄像头简化为凸透镜，区域边界分别为AB，其成像为A′B′，根据对摄像头的位置进行标定可以确定O点坐标。OO′为摄像机光轴，其长度为定值，一般取经验值13.5mm。C为AB上任意一点，其像为C′，则已知量为 O A′,OB′,O O ′,A ′C′,O A ,OB，通过勾股定理可以求得：A′O′,O ′B′,O′C′，通过梅涅劳斯定理可得C点到摄像头的距离为

实际物体的高度计算过程如图4所示。

图4 摄像机中物体实际高度计算图

以GH近似表示待测物体的高度，且认为G点位于地面上。H是目标的最上端，GH′′表示GH在摄像头中所成的像。根据对摄像头拍摄的图像分析可以得到,GOHO′′及GH′′的长度，且通过式（8）可以求得OG与OI的长度。则物体的实际高度GH计算如式（9）所示，即

通过以上计算可以算出运动物体的实际高度，再通过高度对比来进行运动目标的区分。这种方法的优点是算法简单，运算速度快。同时缺点也是十分明显，即应用范围较窄，要求摄像机位置固定，不具有普遍性，且只能判断出位于地面上的运动物体。

此外，典型的基于模板匹配的运动目标识别算法还包括基于特征速度的运动物体识别技术[26]、基于HSV颜色空间的物体颜色识别方法、Active Basis识别方法[27-28]等。

2.2 基于统计学习的方法

基于统计学习的识别算法是一种利用机器学习理论，对运动物体的特征进行提取与辨别的算法。主要步骤为：①从含有目标的正样本和不含有目标的负样本中提取特征，作为机器学习的输入；②通过计算机训练出一个或若干个分类器；③用训练好的分类器对待判别的样本进行分类，从而实现对运动物体的识别。一般的流程如图5所示。

图5 基于统计学习的方法的算法流程图

以卷积神经网络（CNN）为例，卷积神经网络之所以针对图像识别任务具有非常好的效果，主要因为其网络结构具有独特优势：可以充分发掘数据之间的深层联系、局部联系[29]。文献[30]提供了一种基于卷积神经网络的运动目标检测方法。首先，建立一个5个卷积层和3个全连接层的卷积神经网络，如图6所示。

图6 CNN网络结构图

将足够的正负样本输入该神经网络进行预训练，得到初始模型。当需要进行图片检测时，将待检测图像输入，经过5个卷积层进行卷积操作，将卷积结果通过两个链接层传输到输出层，使用sigmoid函数对输出层进行分类，得出识别结果，即

基于统计学习的识别算法针对训练好的模型具有很好的适应性，且识别效果较好，误识别率较低。缺点为：①要求有足够多的样本数量对模型进行训练；②算法较复杂，对处理器要求较高；③算法运算时间较长。

3 算法比较与未来展望

3.1 算法比较

综上所述，在基础的移动目标检测技术中，帧间差分法和背景差分法作为基础的移动目标检测算法，具备算法简单，对设备要求不高，运算速度快等优点。当然，也同时存在着适应性较差、对光照等背景变化较敏感等缺点。光流法检测精度较高且可以解决待测目标遮挡重合问题。但是，计算复杂且运算量巨大，除非有特殊的硬件支持，否则光流法很难满足对视频进行实时处理的要求，同时由于在计算中采用假设具有局限性，使得光流法对噪声比较敏感。在未来的算法开发中，将各种方法结合的融合算法及较高级的背景建模方法无疑将成为研究的热点。

在物体识别算法方面，基于传统模板物体识别方法可以看作“演绎法”，即由人输入物体的明确特征，当计算机检测出与这些特征相似度高的物体时即完成识别。这种方式当运动物体特征明确时可以起到很好的效果，且不需要太多的原始样本作为算法的支撑。但是，当待识别物体特征不是很明显或者不容易用机器语言表示清楚时，此种算法便行不通了。而基于统计学习的物体识别方法可以看作“归纳法”，在识别过程中无需向计算机输入任何规则，只需要为其提供大量的真实世界产生的具有代表性的样本，算法即可自主提取出特定的规则，进而完成识别。此种算法可以提取待测物体高级的、抽象的特征，在实践中有很好的适应性及准确性。但缺点为需要大量的训练数据，以及大量的计算，对设备的要求很高。

3.2 未来展望

近几年，智能视频监控技术发展迅速，在智能电网中的应用也日益增多，但是存在着误报率高、应用面窄、不能完全智能识别出相应故障，仍需要人为干预等缺点。同时在技术角度分析，智能视频监控系统必将朝着以下几个方向发展：

1）具备更好的适应性。只有提高算法的适应性，才能使智能视频监控更加适应复杂多变的环境。

2）可以识别出更多种异常情况，且具有更高的准确率。目前应用的模式识别方法可以具备很高的准确性，但是基于深度学习的方法因为需要较多的正负样本导致准确率并不高，如何提升此种方法的识别准确性将是智能视频监控技术未来研究的方向。

3）智能视频监控装置也必将向着产品形式的多样化发展，目前普遍采用的多为外置架设摄像头有线传输的方式，为适应多样的工作环境，智能视频监控装置也将朝着便携手持式、车载式、遥控式等多种终端形式及无线视频传输方向发展。

4 结论

智能视频监控技术是一项十分具有实际应用价值的研究。而且随着我国电力系统自动化程度的不断提高，智能视频监控技术被越来越多地应用于异物入侵检测、设备状态检测及安防报警当中。目前针对视频信息的移动目标检测技术已经逐渐成熟，在实际中的应用也越来越多。但是移动目标的自动识别技术仍处于不断探索研究的阶段。想要真正设计一套适用于电力系统的智能视频检测、识别系统，还有很多的工作要做。相信随着相关研究的不断深入，智能视频监控技术必将在电力系统中大放异彩。