基于融合特征的汽车鸣笛声识别方法

2021-03-01 08:45王岩松
智能计算机与应用 2021年12期
关键词:特征参数识别率鸣笛

邓 鑫,王岩松,杨 超,郭 辉

(上海工程技术大学 机械与汽车工程学院,上海 201620)

0 引 言

语音特征提取方法被广泛应用于各类信号的特征提取。传统的语音特征提取方法包括:梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC)等。文献[1-3]中采用MFCC 特征提取,在相应病理异常分类识别中取得了良好效果。文献[4]通过替换离散余弦变换,提高了对家庭中危险声学事件的检测效果。在MFCC的改进方面,文献[5]将SLCF 和SSF 分别与MFCC融合成新特征,降低了孤立字识别系统中的总错误率。文献[6]将谱熵梅尔积与MFCC 结合,提高了信噪比环境下,语音端点检测的准确率。文献[7]采用逆MFCC 变换,在DCASE 给定声学场景分类中取得较好的准确率;文献[8]将Teager 能量算子引入MFCC,在文本独立扬声器验证任务中,识别效果明显优于MFCC 方法;文献[9]将线性预测-希尔伯特变换与MFCC 结合,有效识别不良语音和正常语音。对于非语音信号和非平稳信号,MFCC 的特征提取能力不足。LPCC在口译准确度[10]、情感分类[11]和文本语音识别[12]方面都有不同程度的研究及应用,但是LPCC 对含噪信号特征提取效果不佳。

综上所述,现实环境中背景噪声大,汽车鸣笛声信号瞬时性强,因此基于单一特征的汽车鸣笛声识别方法效果有待提升。

本文提出的基于融合特征的汽车鸣笛声识别方法,具有识别率高、鲁棒性强、计算快速等特点。该方法首先对鸣笛声信号进行变分模态分解(Variational Modal Decomposition,VMD),获得多个本征模态分量,基于峭度准则筛选出主模态函数(Intrinsic Mode Function,IMF),并重构信号;随后,提取重构信号的MFCC 和LPCC 特征,并利用ReliefF算法实现特征降维和特征融合;最后将融合特征输入BP 神经网络,实现汽车鸣笛声的准确识别。

1 特征提取及融合算法

1.1 特征提取

MFCC 特征参数是基于人耳对不同频率声音信号的感知能力不同所提出[13]。标准由MFCC 参数及其一阶差分和二阶共同组成MFCC 特征参数。一般取前12 维MFCC 特征作为特征参数。

Mel 频率与Hz 频率的非线性关系近似表示为:

线性预测模型是基于最小均方差准则,对声音信号实际值进行预测。当实际值与预测值误差最小时,利用Durbin 算法求解得线性预测系数LPC。一般将线性预测系数通过倒谱域转化为等效参数,即LPCC 系数。

式中,(n) 表示预测值;ak表示线性预测系数;s(n- i) 表示n- i时刻信号采样值。

1.2 融合算法

1.2.1 Fisher 融合算法

Fisher 算法通过寻找最佳投影方向,使得不同类样本间的离散程度最大,同时使得同类样本间的离散程度最小[14]。声音特征参数有效性Fisher 定义为:

其中,σbetween表示同类样本内的离散程度,σwithin表示不同类样本间的离散程度。

1.2.2 ReliefF 融合算法

Relief 算法[15]由Kira 等提出。算法根据样本类别和各个特征的相关性,赋予特征不同权重,仅应用于两类问题的分类。Konoenko 等[16]在此基础上,提出了ReliefF 算法,应用于多类问题的分类。本文采用ReliefF 算法作为融合特征算法。

某一特征i的权重更新公式为:

式中,H代表与样本R在特征i上最近邻的同类样本;M代表与样本R在特征i上最近邻的不同类样本;m代表算法迭代次数。

不同样本在某一特征i上的距离计算公式为:

其中,R1(i) 和R2(i) 表示两个样本在特征i上的数值。

ReliefF 融合特征算法的具体实现过程如图1所示。

图1 基于ReliefF 特征参数融合流程图Fig.1 Flow chart of feature parameter fusion based on ReliefF

2 汽车鸣笛声VMD 处理及融合特征

2.1 VMD 处理

变分模态分解是由Konstantin Dragomiretskiy等[17]提出的一种非递归自适应的模态变分方法,能将复杂信号分解为中心频率Uk固定、频率带宽有限的多个模态分量(IMF)。本文利用VMD 分解汽车鸣笛声信号,取最大分解层数k=8,同时计算各分量峭度值,见表1。基于峭度准则,当峭度最大时,确定VMD最佳分解层数k=4。

表1 各IMF 分量峭度值Tab.1 Kurtosis value of each IMF component

由图2、图3 可知,VMD 分解原始声音信号获得4 个模态分量。当分解层数k=4 时,原始信号重构效果较好。

图2 VMD 处理的汽车鸣笛声时域及频域图Fig.2 An example of time-frequency domain diagram of car whistle processed by VMD

图3 各IMF 分量时域及频域图Fig.3 Time-frequency domain diagram of each IMF component

2.2 特征分析

2.2.1 MFCC 及LPCC 特征参数

图4 中,3 种声音在第4、6 维MFCC 特征参数的取值不同,表明其标准MFCC 静态特征和一阶MFCC动态特征具有显著差异性。图5 中,3 种声音在第9~12 维LPCC 特征参数的取值不同,表明3 种声音的波形及共振峰特征差异明显。因此,可以利用不同类型声音在某些特征系数上的差异性进行识别。

图4 3 种声音信号中提取的某帧12 维MFCC 特征系数Fig.4 The 12 dimensional MFCC feature coefficient extracted from three kinds of sound signals in some frame

图5 3 种声音信号中提取的某帧12 维LPCC 特征系数Fig.5 The 12 dimension LPCC feature coefficient extracted from three kinds of sound signals in some frame

2.2.2 融合特征

ReliefF 算法中,权重值越大,表明该特征参数对区分不同类样本的能力越强;权重值越小,表明该特征参数对区分不同类样本的能力越弱。

基于Fisher 准则和ReliefF 算法,图6、图7 反映了不同维数特征在MFCC 和LPCC 特征中的权重值不同。

图6 MFCC、LPCC 特征的Fisher 比Fig.6 Fisher ratio of MFCC and LPCC features

图7 MFCC、LPCC 特征的ReliefF 权重Fig.7 ReliefF weight of MFCC and LPCC features

由图6 可见,基于Fisher 准则的第3 维MFCC 特征权重值为0.293 6,表明在Fisher 准则下,标准MFCC静态特征比一阶、二阶MFCC 动态特征更能反映3 种声音之间的差异性。基于Fisher 准则的第2 维LPCC特征权重值为0.368 2,表明3 种声音的波形及共振峰特征差异在第2 维LPCC 特征参数差异显著。

由图7 可见,基于ReliefF 算法的第1 维MFCC特征权重值为0.280 5,并且反映动态特征的一阶、二阶参数的权重值显著高于Fisher 准则下对应参数的Fisher 比值。由此表明ReliefF 算法能更加充分利用声音信号的动态特征,从而提高对声音信号帧与帧之间相关度的利用率。基于ReliefF 算法的第2 维LPCC 特征权重值为0.240 4,高维LPCC 特征参数的权重值显著高于Fisher 准则下同类特征,表明ReliefF算法对反映通道特性的特征利用更充分、更全面地反映3 种声音波形及共振峰特征的差异性。

3 特征识别

3.1 分类器训练

文中采用AudioSet 数据库的声音样本,样本总计300 例声音信号。其中,100 例汽车鸣笛声、100例鸟叫声、100 例雷雨声。声音样本预处理包括:预加重、分帧、加窗等。采样频率为44.1 KHz,数字量化为16 bit,帧长为25ms,帧移为10 ms,文件采用Wav 格式保存。BP 神经网络模型网络设置:中间层10 层,70%为训练样本、15%为验证样本、15%为测试样本。经过VMD 处理的声音信号识别结果见表2。

表2 经过VMD 的声音信号识别结果Tab.2 Recognition results of sound signals processed by VMD

由表2 可知,经过VMD 处理的声音信号,MFCC和LPCC 特征参数在BP 中的识别率分别为94.7%和72.5%。MFCC 特征的识别率显著高于LPCC 特征的识别率,说明MFCC 对汽车鸣笛声的表征能力更强。不同特征提取方法在PB 神经网络中识别结果见表3。

表3 不同特征提取方法在BP 神经网络中的识别结果Tab.3 Recognition results of different feature extraction methods in BP

由表3 可知,通过对单一特征和融合特征在BP神经网络中识别准确率进行对比,本文提出的基于ReliefF 融合特征算法识别率最高,达到95.9%,优于其余3 种特征的识别率。

3.2 实验及结果分析

实验采用真实车辆鸣笛声,音响播放鸟叫声和雷雨声。实验在半消声室(9.8 m×8.6 m×3.5 m,长×宽×高)内进行,采用PCB 麦克风及LMS SCADAS Mobile 数据采集仪测量声压信号。

纵向分析表4 可知,在BP模型中,LPCC 特征参数的识别率最低,仅为80.3%,而其余3 种特征提取方法的识别率均在95%以上。基于ReliefF 融合特征方法识别率优于单一特征MFCC 和基于Fisher融合特征方法,达到98.9%,比LPCC 提高23.2%以上,表明本文所提融合特征方法优于单一特征方法。

表4 4 种特征提取方法在BP 神经网络中的识别率Tab.4 The recognition rate of four feature extraction methods in BP

4 结束语

本文在声音信号输入后利用VMD 算法进行信号分解和重构,提出基于ReliefF 算法的特征融合,将MFCC 特征参数和LPCC 特征参数进行融合,相较于其他特征,在汽车鸣笛声识别的准确率上有所提升。在未来的工作中,可以考虑对VMD 特征分解层数或者惩罚因子进行寻优。实际环境中,汽车鸣笛声还受到许多因素的影响,例如警笛声信号的干扰等。因此,汽车鸣笛声的识别还可以利用支持向量机或卷积神经网络等技术,提取更多深层次特征,以提高预测的准确度和实效性。

猜你喜欢
特征参数识别率鸣笛
基于视频图像序列的船用雷达目标检测和目标特征参数提取
庚子清明国祭(二)
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
说话人识别特征参数MFCC的提取与分析
人工智能现状和发展
民用飞机预测与健康管理技术与系统特征参数研究
江山万里心