基于特征选择方法的无锚框多光谱行人检测

2023-01-02 12:06陈夏阳
软件导刊 2022年11期
关键词:特征选择行人光谱

陈夏阳

(江苏科技大学计算机学院,江苏镇江 212100)

0 引言

行人检测在车辆自动化、视频监控以及救援搜救等方面有着广泛应用,吸引了众多研究人员的注意。近年来,采用视觉光学彩色图像的行人检测取得了巨大进展[1-3]。但由于不利光照条件、行人目标存在遮挡及分辨率低等因素,基于可见光的行人检测难以得到广泛应用,因此学者们提出采用热成像图数据集进行行人检测。在行人检测中,检测主体目标是人,而人通常比周围背景温度更高,并且热红外相机能够感应到行人目标所发出的辐射,因此热成像图能够有效提升行人目标检测率。随着研究的不断深入,文献[4]、[5]发现红外图像中的行人高亮处与对应可见光图中的行人纹理图具有互补作用,并利用两种图像优化检测方法。在可见光图像与热成像图像各有利弊的情况下,多光谱数据源更适用于行人检测。由于基于KAIST 多光谱数据集的行人检测方法[4-5]性能优越,多光谱行人检测因此成为了目前的研究热点。

目前主流的行人检测算法主要分为两类:一类是基于候选区域的两步行人检测算法,此类算法基于行人候选区域的位置对候选区域进行分类,代表算法有RCNN[7]、Faster-RCNN[8]算法等。两步检测算法能获得良好的检测精度,但不能满足实时检测的需要,且该方法的网络模型占用了较大的内存空间,难以应用于移动嵌入式设备中,实用性受到了一定程度限制。另一类是基于行人对象中心和比例的单步检测算法,其神经网络模型较为单一,且不需要锚框进行目标定位,属于端到端学习算法,能够大幅提升检测速度,代表算法有YOLO 和SSD 算法。文献[10]、[11]提出的无锚框方法类似于两步检测算法在回归到边界框角点或对象中心点时的目标区域生成器,但实际上无锚框方法本身就是有效的单步检测算法,如TTL 方法[12]根据ResNet-50 主干网络的上采样特征图预测行人底部和顶部的热成像图,CornerNet 方法[13]通过目标左上及右下的角点预测热成像图,并且近几年的CSPNet[14-15]等方法显著提升了行人检测的准确率。

大多数多光谱行人检测方法采用特征融合的方法处理双通道图像与特征,但特征融合方法计算开销大,且过多的结构化数据使得融合的鲁棒性较差,而特征选择方法能够有效提取可靠行人特征描述子,去除冗余特征。因此,本文首先采用多种图像融合及特征融合,然后用特征选择代替传统的通道拼接特征融合,基于上述不同的特征处理方法进行多光谱行人检测实验。实验结果表明,相较于传统的特征融合行人检测,基于特征选择的无锚框多光谱行人检测方法在保证全天行人检测漏检率较低的前提下,对于远距离目标及严重遮挡目标,分别有效降低了15%及9%的漏检率。

本文主要进行以下3 方面研究:①基于hourglass 骨干网络,采用传统通道拼接特征融合方法进行实验,并分析比较3 种不同融合方式的性能以及对检测结果的影响;②采用特征选择代替传统的通道拼接特征融合方法,检测较小目标及遮挡行人目标,得到优良的检测率;③在KAIST 数据集上进行基于特征选择的无锚框多光谱行人检测实验,验证了算法的有效性。

1 实验方法

受CenterNet[6]网络以及多光谱行人检测相关文献[16-18]的启发,本文采用传统特征融合的方式将多光谱行人检测方法应用于Hourglass 网络结构,在网络中的不同位置进行特征融合,并实现多光谱行人检测。由于特征融合阶段不同,行人目标特征存在差异,该方法能够通过对比实验,找出最适用于较小行人目标及遮挡行人目标检测的融合阶段,达到最佳协同检测效果。

然而,将传统特征融合方法应用于Hourglass 网络结构,对较小行人目标及遮挡行人目标的检测精度较低。因此,本文实验以特征选择方法替代传统特征融合方法[16,19]应用于CenterNet 网络,实现了基于特征选择的无锚框多光谱行人检测。

1.1 Hourglass网络结构与传统特征融合方式相结合

基于卷积网络的检测器由3 个阶段组成:卷积阶段、完全连接阶段和判定阶段。不同阶段的特征对应不同层次的语义和视觉细节,较低层次的视觉细节更精细,较高层次的语义更丰富。因此,将传统特征融合方法应用于网络的不同阶段,对检测结果能够产生不同影响。为实现能达到最佳协同检测效果的融合模型架构,本文将Hourglass网络结构与传统特征融合方式相结合,针对基于Hourglass网络设计的3 种融合模型进行深入研究[9]。根据融合的不同阶段,上述方法分为早期融合、中期融合以及晚期融合。

在早期融合中,输入图像首先经过可见光分支与热成像分支并进行特征融合,然后将特征图作为NIN 网络的输入[20-21]。NIN 网络将连接层网络维度降低到128,输出可见光及热成像分支局部特征的线性组合,并增强局部行人目标的辨识度。由于预处理层捕获的角点、线段类视觉特征相对低级,因此早期融合属于低级特征融合。

中期融合同样在卷积阶段实现融合。但与早期融合有所区别的是,特征图在Hourglass 1 模块后进行特征融合。由于Hourglass 1 模块与预处理层的特征相比包含更丰富的语义,因此中期融合能够增强局部行人目标特征,以及保留更多精细的视觉细节。

后期融合在Hourglass 2 模块之后进行特征融合,将两个子网络最后卷积块的特征映射串联,在此基础上构建区域建议模块。3种融合方式的大致框架如图1所示。

1.2 CenterNet网络与特征选择方法相结合

本文将传统特征融合应用于Hourglass 网络结构,实现了3 种不同的融合架构,但对较小行人目标及遮挡行人目标的检测率较低。为提高上述检测率,并解决过多特征导致的过拟合、模型泛化能力下降等问题,将CenterNet 网络与特征选择方法相结合,并运用feature_selection 库中的函数实现了基于特征选择的无锚框多光谱行人检测方法[16]。

特征选择方法一般分为3 类:过滤式选择、包裹式选择以及嵌入式选择。本文分别选择3 类方法中的方差选择法、递归特征消除法以及基于树模型的特征选择法进行实验。方差选择法根据行人特征计算出方差以及设定的阈值,并选择方差大于阈值的特征;递归特征消除法使用LogisticRegression 作为基模型进行多轮训练,每轮训练后消除若干权值系数的特征,再基于新的特征集进行下一轮训练,并将最终使用的学习器的性能作为子集的评价准则;基于树模型的特征选择法采用GBDT 梯度提升决策树作为基模型进行特征选择,学习器自动进行特征选择,在训练过程中得到各个特征的权值系数,并根据系数从大到小选择特征。包裹式选择的效果优于过滤式选择,但需要更大的开销,即在提升性能的同时,需要消耗大量时间与算力。嵌入式选择与过滤式选择类似,但前者能够通过训练确定特征优劣程度。

在行人检测中,由于存在行人背景信息冗余、行人目标具有多样性等因素,使得提取到的颜色及纹理特征复杂,影响行人检测的准确率。为解决冗余特征的问题,本文提出一种特征注意网络,如图2所示[22-23]。

Fig.1 Early fusion,halfway fusion and late fusion frame图1 早期融合、中期融合与后期融合框架

Fig.2 Feature attention network图2 特征注意网络

图2 中的H、W 和C 分别代表输入特征图的高、宽与通道数。特征注意网络包含适用于不同级别特征的两个分支,上分支处理高层语义特征,下分支处理低层细节特征。上分支通过1×k 和k×1 的非对称卷积获取高层语义特征图的空间结构信息,输出结果为特征图U1和U2。之后特征图U1和U2再次通过同样的非对称卷积降维至1 维,得到特征图V1和V2。最后,特征图V1、V2经过点对点元素相加后得到二维特征图,并经过sigmoid 函数后得到权重矩阵T,权重矩阵T 与低层细节特征图相乘得到最终的特征图。为实现特征选择,Hourglass 网络利用上述特征选择模块进行实验。图3 所示的CenterNet 网络结构的简化图表明了注意力模块位置及网络总体架构。

2 实验结果与分析

实验环境为:INTEL Xeon Silver 4210 CPU 2 GHz,32GB 内存,NVIDIA Tesla M40 24G,CentOS7,64 位操作系统。实验选择深度学习框架TensorFlow 作为平台,并在TensorFlow 版本2.0、CUDA 版本10.1、cuDNN 版本7.4.1 的环境下运行。

Fig.3 Simplified structure diagram of CenterNet network based on feature selection图3 基于特征选择的CenterNet网络结构简化图

实验基于KAIST 多光谱行人检测数据集,将结果作为评估模型的性能指标。KAIST 数据集采集白天与黑夜共计95 328 张图片,其中训练集包含50 187 张图片,测试集包含45 141 张图片。数据集分别在白天和晚上捕获包括校园、街道以及乡下的各种常规交通场景。数据集共包括1 182 个不同的行人目标,分为“person”“people”“cyclist”与“person?”4 类标签。实验中设置标签“person”“people”为正样本,其余为负样本。通过对实验结果进行分析,以验证基于特征选择的无锚框多光谱行人检测方法的有效性。

2.1 KAIST数据集上的检测结果

1.1 节中将CenterNet 方法与传统的通道融合方法相结合,根据融合阶段的不同,分别实现了前期融合、中期融合与后期融合的无锚框多光谱行人检测方法,但上述方法仍未能有效提升对较小行人目标及遮挡行人目标的检测率,而特征选择方法能够对行人特征进行有效筛选。因此,首先在KAIST 数据集中分别挑选约2 000 张图像作为远距离行人目标、部分遮挡行人目标及严重遮挡行人目标训练子集,500 张图像作为测试子集,并结合原有的全天、白天与夜间数据子集,与1.2 节中的3 种特征选择方法进行对比,实验结果如表1所示。

Table 1 Miss-rate of three traditional channel fusion methods under KAIST test subsets表1 3种传统通道融合方法在KAIST测试子集下的检测漏检率 %

由表1 可知,在传统通道融合方法中,中期融合的全天漏检率为15.78%,但在检测较小分辨率、存在遮挡的行人目标方面仍存在不足。在特征选择法中,仅靠设定特征阈值的方差选择法在各子集上的检测表现较差,在节约开销的前提下漏检率上升;而采用LogisticRegression 基模型的递归特征消除法与树模型的特征选择法在各子集上的漏检率优于传统通道融合方法。递归特征消除法经过多轮的特征排除与选择,全天漏检率为12.17%,远距离行人目标漏检率为58.73%,部分遮挡行人目标漏检率为36.80%。基于特征选择的方法相比于传统通道融合方法,在远距离行人目标及存在遮挡的行人目标数据子集上都能实现较低的漏检率,实验结果验证了特征选择方法的有效性与实用性。

2.2 KAIST数据集上的消融实验

由2.1 节的实验结果可知,基于特征选择的无锚框多光谱行人检测方法与传统的通道融合行人检测方法相比略有优势。在较小的行人目标及遮挡行人目标子集上,基于递归特征消除法的多光谱行人检测方法相比其它方法表现出一定的优越性。但仅凭上述实验结果无法确切验证特征选择方法的有效性,因此采用效果最优的递归特征消除法在KAIST 数据集上进行关于注意模块的消融实验。为验证注意模块在算法中的作用,首先选择传统通道融合方法与CenterNet 双通道网络进行实验。在CenterNet 双通道网络的基础上,分别添加用于处理高级语义特征部分的注意网络及处理低等细节特征部分的注意网络并进行实验。最后,与完整的基于特征选择的CenterNet 网络进行对比,实验结果如表2所示。

Table 2 Comparison of miss-rate of ablation experiment on KAIST dataset表2 KAIST数据集上消融实验漏检率比较 %

由表2 可知,在全天、白天及夜间的子集上,添加不同的注意网络后检测率提升有限,但在较小行人目标及遮挡行人目标子集上,检测率有明显提升。且相比之下,添加处理低等细节特征部分的注意网络后,检测率提升幅度明显较大,验证了该网络在检测较小行人目标方面的有效性。实验结果表明,基于特征选择的CenterNet 方法在各子集上的检测率都有所提升,充分验证了特征选择方法应用于无锚框多光谱行人检测的有效性。

2.3 各方法实验对比

分别使用中期融合CenterNet 方法、基于特征选择的CenterNet 方法与现有的RPN+BF 等方法在KAIST 数据集上进行测试,结果如表3所示。

Table 3 Comparison of miss-rate among different methods on KAIST dataset表3 不同方法在KAIST数据集上的漏检率比较 %

由表3 可知,基于特征选择的CenterNet 方法应用于全天、白天及远距离行人目标集合的漏检率与MSDS-RCNN等现有方法的漏检率相近;在夜间行人目标集合上的漏检率为15.72%,与现有方法IATDNN 的漏检率相同;在部分遮挡行人目标集合上的漏检率为36.80%,优于其他检测方法;在严重遮挡行人目标子集上的漏检率与现有方法MSDS-RCNN 相近。实验结果表明,本文方法能够在保证全天检测率与现有方法相当的前提下,实现较低的远距离及存在遮挡的行人目标漏检率,具有较强的鲁棒性。

2.4 定性分析

为验证基于特征选择的多光谱行人检测方法的有效性,在KAIST 数据集中进行特征图可视化,并标注置信度。由于置信度能够代表当前框内存在对象的概率,因此能够解释算法的有效性。实验结果表明,上述方法对中远距离及存在遮挡的目标检测效果良好,具备一定的鲁棒性。部分实验结果如图4所示(彩图扫OSID 码可见,下同)。

Fig.4 Visualization results of feature maps图4 特征图可视化结果

与传统的通道融合行人检测不同,本文方法中的可见光图像和热红外图像分别通过包含卷积层与残差网络的预处理阶段,在Hourglass 网络模块1 后进行特征选择,从而筛选行人特征。原图像及特征图对比如图5 所示,从左至右分别是原图像、传统通道融合后的特征图及特征选择后的特征图,特征图分辨率为160×128。

由图5 的特征图可知,传统的通道融合方法难以检测出受到遮挡的行人目标,但特征选择方法会对行人目标的复杂特征进行过滤与筛选,因此行人目标将更加精确,且具有更好的辨识度。为更具体地说明基于特征选择的无锚框多光谱行人检测方法的应用性能,实验将多种方法进行比较,并将结果以MR-FPPI 图形式呈现,如图6 所示。由图中的曲线可知,基于特征选择的无锚框多光谱行人检测方法在KAIST 数据集上的漏检率为12.17%,性能优于大多数其他行人检测方法。实验结果再次验证了多光谱行人检测方法中特征选择的有效性及鲁棒性。

Fig.5 Comparison of original image and feature map图5 原图像及特征图对比

Fig.6 Comparison of MR-FPPI between the proposed method and other methods图6 本文方法与其他方法的MR-FPPI图对比

由图6 可知,本文方法对远距离行人目标及部分存在遮挡的行人目标的漏检率分别为58.73%和36.80%。特征选择方法对于部分低分辨率及遮挡行人目标也具备较好的识别效果,检测结果如图7 所示。图中的绿色框为真实框,红色框为检测框。图7 的结果表明,该方法对于中远距离及存在遮挡的行人目标具有很好的检测效果,但当行人目标数量较多时,因行人之间的相互遮挡等原因可能导致漏检。但总体而言,基于特征选择的多光谱行人检测方法很大程度上优化了较小行人目标及存在遮挡行人目标的检测精度。

3 结语

行人检测在计算机视觉领域应用广泛,近年来备受关注。本文阐述了基于特征选择的无锚框多光谱行人检测方法,并与传统的通道融合方法进行对比。在KAIST 数据集上的实验结果表明,特征选择方法能够有效过滤与筛选行人目标的复杂特征,能够解决大多数情况下行人目标由于分辨率低、存在遮挡导致的漏检、误检问题,在实际应用时具备一定的鲁棒性。

Fig.7 Part of the detection result of the proposed method on KAIST dataset图7 本文方法在KAIST数据集上的部分检测效果

多光谱数据源及特征选择方法虽然有效降低了行人检测的漏检率,但也面临新的问题。首先,行人检测实验需要大量数据集,但目前标准的多光谱行人检测数据集数量极少,实验存在一定局限性。其次,本文通过多光谱数据源及特征选择方法,有效将较小行人目标及存在遮挡行人目标的漏检率分别降低至58.73%与36.80%,但针对场景的复杂性及环境的特殊性,该漏检率仍有待进一步降低。最后,现有行人检测算法在检测严重遮挡行人目标方面尚未实现突破性进展,因此将成为后续行人检测的一个重要研究方向。

猜你喜欢
特征选择行人光谱
基于三维Saab变换的高光谱图像压缩方法
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
铽(Ⅲ)与PvdA作用的光谱研究
基于二元搭配词的微博情感特征选择
行人流综述