基于混合卷积神经网络的火灾识别研究

2020-07-15 05:01熊卫华任嘉锋吴之昊
计算机技术与发展 2020年7期
关键词:集上编码器特征提取

熊卫华,任嘉锋,吴之昊,姜 明

(1.浙江理工大学 机械与自动控制学院,浙江 杭州 310018;2.杭州电子科技大学 计算机学院,浙江 杭州 310018)

0 引 言

随着时代的进步和社会的发展,摄像头越来越多地被应用于火灾监控和报警,基于视觉的传感器被广泛使用。摄像头与传统传感器相比具有许多优点,例如成本更低、响应时间更快、监控区域覆盖范围更广等等。尽管基于视觉的传感器具有很多的优势,但也存在局限性,在实际应用场景中面临着很多的问题。例如,不同的照明条件,复杂的场景,以及受限于网络带宽的低分辨率摄像头等等。因此,很多研究人员尝试去解决这些问题。

Yusuf Hakan Habiboglu等提出一种基于协方差矩阵的火焰检测方法,以协方差矩阵作为特征提取算子,对火焰着色区域的空间和时间特征进行提取,并用支持向量机(SVM)对特征进行分类,但该方法仅提取火焰特征,而无法提取烟雾等其他火灾特征[1]。Rosario Di Lasciod等提出了一种联合视频分析方法,基于颜色和运动等信息,组合成一个多专家系统进行火灾检测,但误报率较高,在检测精度方面仍有待提高[2]。Khan Muhammad等提出了一种利用卷积神经网络进行早期火灾探测的方法,通过使用Alexnet进行迁移学习以获得较好的火灾识别效果,但Alexnet网络参数量较大,且网络层数较少,难以提取更深层的语义特征[3-4]。

图像识别是利用计算机对图像进行处理、分析和理解,并以各种方式识别目标和物体的技术[5-6]。在火灾检测领域,传统图像识别方法已取得了良好的效果,但仍有一些问题没有解决。主要问题是传统的图像识别方法依赖于人工设计的特征提取算子[7]。而在实际环境中,火灾在不同阶段和不同条件下的特征差异较大,手动设计的特征提取算子很难满足各个场景下的火灾特征提取需求。同时,这也增加了火灾检测的复杂性,降低了准确性和鲁棒性。

另一方面,火灾发生早期的一些特征是比较细小而又不明显的,比如画面中细小的烟雾和微小的火星、火苗等。而上述文献表明,现有的火灾识别算法,不论是通过HSV特征和HSI特征的提取,还是通过训练卷积神经网络进行特征提取,均是直接对整张图片进行特征提取然后根据特征进行分类,而图片中的局部信息则容易被忽略。

为此,文中提出了一种混合卷积神经网络模型(HybridNet),通过提取图片不同尺度的特征,并进行特征融合,提高了对火灾图片的识别精度。通过使用多组实验数据与现有识别算法进行了对比,验证了该方法具有切实的可行性。

1 算法理论基础

1.1 卷积神经网络

近年来,深度学习发展迅速,卷积神经网络成为图像识别的主要手段,卷积神经网络在图像特征提取方面体现出优良的性能[8-9]。LeCun等人于1998提出的Le-Net5是最早将卷积神经网络应用于图像识别的方法[10]。Le-Net5在手写Minist数据集上获得了较高的准确率,大大优于同期的其他图像识别方法,之后出现的很多卷积神经网络大多都以它为基础。

更深的神经网络可以带来更强的学习能力,但实际应用中随着网络深度的增加,网络的训练难度也随之加大[11]。另一方面,由于深度加深会出现梯度消失等问题,网络的学习能力反而会因为网络加深而产生“退化”。为了解决这一问题,He Kaiming团队提出了Residual Networks,并在2015年的ImageNet中取得了优异的成绩[12]。

Residual Networks引入了深度残差(deep residual)学习框架来解决退化问题。Residual结构进行了以下的计算:

yl=h(xl)+F(xl,Wl)

(1)

xl+1=f(yl)

(2)

其中,xl和xl+1分别为第l个残差单元的输入特征和输出特征。W={Wl,k,k|1≤k≤K}是一个与第l个残差单元相关的权重和偏差的集合,其中K表示残差单元内部的层的数量。F(·)是residual mapping函数,h(·)为identity mapping函数。函数f(·)是元素加和后的操作,在Residual Networks中,这一操作选用了ReLU激活函数。

输出特征图的感受野随着卷积池化层数的加深而不断增大。在卷积神经网络中,浅层特征图因为感受野较小,其包含的特征趋向局部和细节。而相比浅层特征图,深层特征图拥有更大的感受野。感受野代表了其每个像素包括的原始图像范围,更大的感受野意味着其蕴含更为全局的特征信息。一般的模型都会使用深层特征进行分类识别,但对于火灾识别问题,局部和细节的特征通常包含了早期火灾的信息,如果仅使用深层特征进行分类识别,图片中重要的局部信息容易被忽略。

1.2 自编码器

自编码器是一种无监督模型,包括一个编码部分和一个解码部分。编码部分由模型的输入层和隐层组成,用以将输入数据x编码为a,这个过程中实现数据融合和降维。解码部分由隐层和输出层构成,用以将编码数据a还原为输出信号y[13],如图1所示,即:

图1 含三层网络的自编码器

a=f(x,W)

(3)

(4)

从自编码器获得有用特征的一种方法是,限制a的维度使其小于输入x,训练自编码器,使输入x通过编码器和解码器后,保留尽可能多的信息,即令编码器输入x与解码器输出y之间的距离尽可能小。通过多轮学习后,自编码器能够编码数据中的重要特征,实现特征融合。

2 火灾特征提取

通过数据驱动的迭代学习,网络逐渐学习到提取图片对象特征的能力。为了直观地了解卷积的特征提取过程,文中使用已经训练完成的ResNet50[12],抽取了其中间层的输出特征,并进行了可视化。

如图2所示,随着卷积层数的加深,输出特征图的全局信息被加强,而局部信息被逐渐弱化。不同于ImageNet等标准化的图像识别数据集,不论是一些公开的火灾识别数据集的图片,还是实际火灾监控应用场景下拍摄的图片,火焰或烟雾并不一定是画面中的主体。因此仅仅通过加深网络层数来提高网络的全局特征提取能力是不够的。

图2 特征提取过程

3 火灾识别模型架构

3.1 混合模型

文中提出的混合模型包含两路特征提取器,其中一路特征提取器FeatureDetectNet A(FDN A),文中选取了ResNet50的结构作为参考,以保证模型在提取深层特征方面的性能,并使用卷积分解和不对称卷积将ResNet50卷积层中3×3以及更大的卷积核进行替换,以减小模型体积。其中3×3的卷积核均替换成了3×1和1×3的两层级联卷积网络。使用更小的卷积核可以避免大尺寸卷积核在快速缩减特征图大小时,图像细节信息的丢失。替换后的FDN A相比原始的ResNet50减少了16%的参数量。

为了验证FDN A的性能相对ResNet50是否发生变化,文中在同一数据集上对FDN A和ResNet50进行了测试,结果表明FDN A在减少了参数量的前提下,特征提取性能与ResNet50基本相同。

另一路特征提取器FeatureDetectNet B(FDN B)用以提取浅层特征。文中对比测试了几个常用的模型,如VGG16[14]、Inception-v3[15]在提取浅层特征方面的性能,最终选择了效果更好的Inception-v3作为FeatureDetectNet B的参考结构。

3.2 特征融合

为了使两路特征提取器输出的特征实现融合,首先对FDN B得到的浅层特征进行最大池化(Maxpool)操作,在保留局部特征的情况下使浅层特征图的大小与深层特征得以匹配,再通过Concat操作初步融合两路特征,其中所述Concat操作可以将多组特征图按某一指定维度拼接从而融合成一组特征图。图3显示了一张大小为224×224的图片,在进入混合模型提取特征后初步融合的过程。

图3 通过Concat和Maxpool实现特征初步融合过程

初步融合后的特征图,通过自编码器去除冗余信息,实现进一步融合。如图4所示,2 336×7×7的特征图经过全局平均池化(GAP)后,再置入编码器进行特征降维,剔除冗余信息保留关键特征。

图4 通过自编码器实现特征融合过程

3.3 损失函数

在模型训练过程中,编码器融合后的特征通过分类器分类并计算分类损失。另一方面,融合特征需要进入解码器解码,还原为2 336×1×1的特征,并与自编码器的输入特征进行对比,计算融合损失。为了使联合自编码器的混合模型可以实现端到端的训练,文中合并了模型的分类损失和融合损失,使用交叉熵计算分类损失,均方误差计算融合损失。为了避免模型过于追求融合的无损,而导致模型无法收敛,对两种损失增加相应的权重以防止模型在训练过程中发散。

经过实际测试,选择λ1=0.001,λ2=5时,混合模型在训练过程中可以得到较好的收敛结果。

4 实 验

4.1 数据集

目前公开的一些火灾数据集普遍存在一些问题。一方面是火灾数据集的规模较小,样本信息不够丰富,难以支撑深度学习网络的训练需要;另一方面很多数据集是直接从若干火灾视频中直接按帧截取的,样本重复度较高,测试集和训练集之间的差异较小,难以测试出模型的泛化性能,而且训练得到的模型实用性较差[16-17]。

文中以火灾图片为识别对象,包括火焰、烟雾等火灾常见的特征,因此构建了一个多场景的火灾图片数据集FireDetectData,其中正样本来自不同生活场景下的火灾图片,包括输电管道、森林、建筑以及车辆等等,而负样本则为正常的无火灾图片,包括夕阳、红色花朵、暖色灯光等与火灾场景近似易混淆的图片。

整个FireDetectData数据集包含13 538张图片,数据集中包含了不同尺度、光照和角度的火灾图片5 131张以及正常的无火灾图片8 407张。由于每张图片的大小不一,为了满足深度卷积神经网络的输入要求,在实验中火灾图片和正常图片均重新调整大小为同一尺度(高宽比224×224)。其中选取7 689张图片作为训练样本,其余的作为测试样本。

此外,为了增加实验结果的可靠性,文中还选取了一个公开的Mivia火灾视频数据集[18]作为测试样本,Mivia火灾视频数据集总共包括31个视频样本,其中14个为火灾视频,17个为正常的无火灾视频。Mivia数据集的具体信息如表1所示,由于其包含的负样本的数量远大于正样本的数量,且由于视频样本本身的局限性,从视频中获取的帧图片重复度较高。负样本数量过多,意味着模型仅在负样本的识别上表现良好也能获得较高的整体准确率,这无疑不利于模型性能的评估。为了减少正负样本不平衡对实验结果带来的不良影响,实验过程中先随机选取了5 040张火灾图片和6 390张正常图片作为训练集,再从剩余的图片中随机选取5 258张火灾图片和6 229张正常图片作为测试集。

文中提出的模型以及其他用于对比测试的CNN模型均在以下的工作条件下完成训练与测试:IntelCore i5 8500 CPU,配备8 GB RAM与Win10操作系统,NVIDIA GTX1070配备8 G显存,以及Pytorch深度学习框架。

4.2 实验结果及分析

在FireDetectData数据集上测试使用的评价指标有“准确率(Accuracy)”“误报率(FPR)”以及“漏报率(FNR)”,评价指标的具体定义如下:

(6)

(7)

(8)

其中,TP表示测试集中识别正确的火灾图片的数量;TN表示识别正确的无火灾正常图片的数量;FP表示被误判为火灾图片的无火灾正常图片的数量;FN表示被误判为正常图片的火灾图片的数量;Npos表示火灾图片的总数;Nneg表示无火灾正常图片的总数。

实验将提出的HybridNet与现有的火灾识别模型进行了对比测试。为了减少过拟合现象,在实验过程中对不同的CNN模型均使用了相应的ImageNet权重进行迁移学习。随着训练迭代次数的增加,不同模型在FireDetectData数据集上的Accuracy变化情况如图5所示。

图5 各个模型在不同迭代次数下的Accuracy曲线

表1对比了不同的识别模型在FireDetectData测试集上得到的最优结果。可以看出,混合模型在实验中的表现均优于其他模型,识别准确率达到了96.82%。

表1 各模型在FireDetectData数据集上的识别效果比较

各个模型在经过对图像的特征提取和分类后对两个目标类别给出输出数值,并通过Softmax函数转化为相对概率。关于Softmax函数的定义如下式所示:

(9)

其中,i表示数据集的类别索引,vi是分类器对第i类目的输出。数据集总的类别个数为C。Si为第i类目输出的指数与数据集所有类目输出的指数和的比值。样本图片及其通过混合网络得到的概率的示例在图6中示出。

图6 示例样本图像及其基于混合网络的火灾识别概率((a)(b)(c)火灾;(d)(e)(f)正常)

同时,上述模型也同样在Mivia数据集上进行了比对。为了更好地评估性能,在Mivia数据集上进行不同模型的性能测试时,使用了另一组评估指标,包括综合评价指标(F1-Measure)、召回率(Recall)以及精准率(Precision)。经过多轮训练,各模型在数据集Mivia上的测试结果如图7所示。可以看出,相比于其他模型,HybridNet在不同迭代次数下都取得了更优的结果。

图7 各模型在不同迭代次数下的综合评价指标曲线

最终测试结果如表2所示。将提出的混合网络与其他现有方法进行了比较,从表1和表2中可以看出,由于混合网络融合了两路特征提取网络的特征,在实验的准确率、F1-Measure、召回率以及精准率上均有所提升,误报率和漏报率则均有所下降。混合网络成功地超越了现有方法,F1-Measure 达到了97.96%,召回率为97.01%,精准率为98.93%,验证了混合网络模型的有效性。

表2 各模型在Mivia数据集上的识别效果比较

5 结束语

针对现有火灾识别方法忽略了局部信息,丢失小目标特征的缺陷,提出了一种基于混合CNN的识别方法,并在FireDetectData数据集和Mivia数据集上进行验证。实验结果显示,该方法优于现有的CNN模型以及其他识别方法,在FireDetectData数据集和Mivia数据集上准确率分别为96.82%和97.96%。由于该方法使用了两路特征提取器,并增加了特征融合步骤,使网络的训练时间变长,因此下一步研究主要集中在保持识别准确率的前提下,进一步精简模型,减少网络计算量。

猜你喜欢
集上编码器特征提取
基于标记相关性和ReliefF的多标记特征选择
同步定位与建图特征提取和匹配算法研究
基于ResNet18特征编码器的水稻病虫害图像描述生成
WV3650M/WH3650M 绝对值旋转编码器
WDGP36J / WDGA36J编码器Wachendorff自动化有限公司
关于短文本匹配的泛化性和迁移性的研究分析
基于Beaglebone Black 的绝对式编码器接口电路设计*
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
师如明灯,清凉温润