利用能量压缩后的MBPD检测低信噪比声音事件

2021-06-21 01:53林艺明
计算机应用与软件 2021年6期
关键词:频带信噪比噪声

林艺明 李 应

(福州大学数学与计算机科学学院 福建 福州 350108)

0 引 言

低信噪比声音事件检测的目标是从音频信号中检测出微弱的声音对象,并识别和分类这些声音。近年来,随着数字声音分析技术的发展,它在现实世界里有许多的实际运用,例如生物监控、智能家居、自然环境识别、公共场所枪声检测等。

现有的声音事件检测研究主要有:基于注意力机制的声音事件检测方法[1];嘈杂环境下的特定声音事件检测方法[2];基于声音事件分区和特征标准化的声音事件检测方法[3];城市环境下特定声音事件的检测方法[4];特定声音事件的声音信号增强方法[5];声音信号数据不平衡的声音事件检测方法[6];声音事件的特征、分类器以及特征与分类器的组合等[7-13]。这些方法对各类声音事件的检测与分类进行单一的改进或组合,从不同方面对声音事件检测深入研究,在高信噪比环境下都取得了较高的检测率,但是对低信噪比声音事件检测的效果不佳,检测率亟待提高。

针对低信噪比环境下各种声音事件的检测,本文提出了基于能量压缩与灰度增强的多频带能量分布图的声音事件检测方法(Energy Compressed and Grey-Scale Enhanced Multi-Band Power Distribution,CEMBPD)。该方法通过奇异值分解(SVD)提取奇异值特征,即CEMBPD-SVD,并用随机森林(RF)分类器对奇异值特征进行训练与检测。

1 相关研究

1.1 现有方法

文献[14]通过利用粒子群算法优化正交匹配跟踪(OMP)稀疏分解对信号进行重构和利用短时谱估计对重构后的残余信号做增强处理。二次重构后提取信号的MFCC特征、时频特征和基频特征组成特征集。最后采用深度置信网络进行分类识别,在-5 dB下达到49.9%的识别率。

文献[15]提取声音信号的MFCC特征,计算七个MFCC的统计特征,包括方差、均值、中值、最大值、最小值、峰度和偏度;然后将以上七个统计特征组成特征集合;最后用SVM进行建模分类。

对于低信噪比声音事件检测,文献[16-18]提出的声音事件分类方法过程如图1所示。

图1 现有声音事件分类框架

如图1中的虚线箭头路径所示,文献[16]通过对灰度对数谱图jet映射生成三色子图,然后对每幅子图进行9×9分块,提取每个子块的均值和方差作为特征,特征共有486维,最后通过SVM分类器进行训练与分类。采用这种方法,在0 dB的情况下,平均检测率达到74.4%[16]。文献[17]在文献[16]的基础上做进一步改进,如图1下半部分实线箭头路径所示,其包括:灰度gammatone谱图、子带能量分布(SPD)、增强的子带能量分布图、帧缺失掩饰估计、去除不可靠维度、分类器选择k近邻分类器(KNN)。同时,文献[17]也将子带能量分布图通过jet映射成三色子图,然后对每幅子图进行10×10分块,提取每个子块的均值和方差作为特征,特征共有600维。最后通过KNN分类器进行训练与分类。在0 dB情况下,该方法声音事件的平均检测率达到了88%[17]。

如图1上半部分虚线框所示,文献[18]将声音信号以多频子带能量分布图(Multi-Band Power Distribution,MBPD)表示,通过对MBPD图进行8×8分块,并对每个子块求离散余弦变换,把DCT系数的Z编码的前5个系数作为声音事件的特征,特征共有1 280维,并用随机森林分类器对特征进行训练与分类。通过这种方法在-10 dB下,声音事件平均检测率达45.3%;-5 dB情况下,平均检测率达87.2%;0 dB情况下,平均检测率达91.8%[18]。

1.2 MBPD能量等级下移的问题

对文献[18]方法进一步分析,在低信噪比的情况下,如在-10或-5 dB,基于多频带能量分布图的声音事件检测存在着能量等级下移的问题。即低信噪比下,环境噪声的能量高于声音事件的能量,在能量谱图转换为MBPD图时,最高能量等级分配给了环境噪声。声音事件的能量等级,不再是最高等级,而是被按比例压缩并下移,声音事件的有用成分减少[18]。这是MBPD在低信噪比下声音事件检测中存在的问题,使得在低信噪比环境下的声音事件检测性能受到影响。

2 方法设计

针对声音事件在低信噪比下检测效果不佳的问题,本文对基于MBPD声音事件检测的方法进行了改进。具体包括:(1) 根据声音信号能量谱的不同频带进行能量压缩调整处理,使其在低信噪比下一定程度上解决能量下移问题。(2) 本文对声音信号划分为280个频带和64个能量等级,但CEMBPD图大小为280×72,能量等级65到72恒为0。因此在按子带顺序排列特征时,每个子带特征之间有一定的间隔,使其每个子带的局部特征更为明显。(3) 对能量压缩后的多频带能量分布图进行灰度增强,对灰度值低的进行增强,使得其灰度值细节更明显。(4) 8×8分块SVD,对CEMBPD图进行8×8分块奇异值分解提取奇异值,捕捉CEMBPD图的细微变化。

本文方法过程简化如图2所示,其中包括:gammatone频谱图、能量谱图、压缩函数fs、能量压缩后的MBPD图、灰度增强、CEMBPD图、CEMBPD图分块SVD、RF检测。

图2 基于CEMBPD图的声音事件检测

3 能量压缩后的多频带能量分布特征与检测

3.1 能量谱压缩调整

声音信号的gammatone频谱图转换成能量谱,对声音信号的能量谱的不同频带进行能量压缩处理,步骤如下:

(1) gammatone频谱图。声音信号y(t)通过gammatone滤波器组滤波,得到y[t][19]。取y[t]的对数进行动态压缩,得到声音信号的gammatone谱图Sg(f,t)。

Sg(f,t)=lg|y[t]|

(1)

式中:f表示滤波器的中心频率;t表示帧索引。

(2) 压缩函数fs。本文将Sigmoid函数变形为式(2)。式(2)的定义域约束在[1,280]内,值域约束在(0,1)之间。

(2)

式中:a取0.008。压缩函数fs(x)的特性曲线如图3所示。

图3 压缩函数fx(x)曲线

(3)

图4 茶隼叫声在-10 dB风声背景噪声下式(3)的演示

(4)

3.2 多频带能量分布

多频带能量分布。对式(4)的G(f,t)的每一个频率子带的能量概率密度进行统计,将能量谱图转换为频率子带能量分布图,得到声音信号的能量分布情况。

(5)

(6)

式中:设B为能量等级数目;T为声音信号的长度;Ib(G(f,t))为指示函数。当G(f,t)属于能量等级b时,G(f,t)=1,否则为0。H(f,b)表示在频带f中能量等级为b的元素占频带总元素的比例,0≤H(f,b)≤1。

3.3 灰度增强、奇异值分解与多频带能量分布图的特征提取

(1) 灰度增强。灰度变换是基于像素操作的增强方法,它将每一个像素的灰度值按照数学变换公式转换为一个新的灰度值。对能量压缩后的多频带能量分布图进行灰度增强。

(7)

式中:本文实验h取50[17]。

(2) 奇异值分解与奇异值。奇异值分解是线性代数中一种重要的矩阵分解。设A是一个n×m的矩阵,则对任意矩阵A都存在着一个分解使得:

(8)

式中:U是n×n阶酉矩阵;V是m×m阶酉矩阵,VT是V的转置;Σ是n×m阶对角矩阵。以上分解就称作矩阵A的奇异值分解。

Σ的对角上的元素Σi称为矩阵A的奇异值。在各阶奇异值中,前几阶较大的奇异值包含了矩阵A的主要特征,因此一般将Σi从大到小排列,取前几阶作为该矩阵A的特征[20-21]。

(3) 多频带能量分布图的特征提取。受图像分块处理技术启发,本文对280×72大小的CEMBPD图进行8×8分块,即一幅CEMPBD图有315个8×8子块。每个子块进行奇异值分解,然后将奇异值降序排列,本文取前3个奇异值当做8×8子块的特征。接着,按子带顺序、每个子带按能量等级低到高顺序,依次将子块的特征提取出来,组成特征向量,共有945(315×3)维,即一幅280×72大小的CEMBPD图的特征用945维的特征向量来表示,该过程为CEMBPD-SVD,如图5所示。其中:图5(b)对应图5(a)的黑框子块,频带从137至144,能量等级从17至24。图5(c)为图5(a)对应的特征向量的部分特征值,黑框部分的数值为图5(b)对应的奇异值特征数值。

(a) CEMBPD 8×8分块图

(b) 黑框子块

(c) CEMBPD的特征值向量图5 图像分块及奇异值提取

3.4 随机森林分类器

随机森林分类器就是通过集成学习的思想将多棵决策树分类器集成的一种算法,随机森林对多维特征的数据集分类效果比较好,泛化能力强,还可以进行特征重要性的选择,运行效率较高,实现简单[22]。本文使用的随机森林分类器中决策树的个数k设为500,决策树中节点特征数量m为5。

4 实 验

4.1 实验数据

实验数据来自Freesound声音数据库,实验中的样本集由50种纯净动物声音和6种背景噪声组成。其中50类动物声音包括不同鸟鸣声和哺乳动物叫声,每类共有30个样本,共1 500个样本。实验使用到6种背景噪声环境分为平稳噪声和非平稳噪声,其中:非平稳噪声包括流水声、风声、海浪声、公路声和雨声;平稳噪声为粉噪声。噪声样本与声音事件样本的采样频率为44.1 kHz,采样精度为16 bit,格式为单声道“.wav”格式,长度为2 s。

4.2 实验设计

本文将每类声音事件样本中的20个样本作为训练集,剩下的10个样本与背景噪声按不同信噪比组合,生成各种信噪比的测试样本,作为声音信号输入。实验将得到4种信噪比下的不同背景噪声的平均检测率。同时,将基于灰度增强的多频带能量分布图的声音事件检测方法(EMBPD-SVD)作为对比实验。为了验证本文方法的检测性能,共进行了四组实验:(1) CEMBPD-SVD中子块的奇异值特征个数的选择以及压缩函数系数a的选择;(2) CEMBPD-SVD与EMBPD-SVD的实验对比;(3) CEMBPD-SVD特征与常用特征性能的比较;(4) CEMBPD-SVD-RF与现有方法的比较。

4.3 结果与分析

1) CEMBPD-SVD方法中子块的奇异值特征个数与压缩函数系数a都会影响声音事件的检测率。本文在讨论CEMBPD-SVD子块奇异值特征个数时,直接选取EMBPD-SVD子块的2到5阶奇异值进行实验,将EMBPD-SVD方法最佳检测率对应子块的奇异值特征个数作为CEMBPD-SVD方法的子块特征个数。确定CEMBPD-SVD子块的奇异值特征个数后,系数a选取0.005~0.015,共11个系数进行实验,在4种信噪比下比较检测率的高低,选取最佳的系数a。本文以动物声音集为基础,在-10 dB、-5 dB、0 dB和5 dB 4种信噪比下的风声、海浪、流水三种背景噪声下进行对比实验。子块奇异值特征个数的选择对平均检测率的影响结果如图6所示。压缩函数系数a对平均检测率的影响结果如图7所示。

图6 不同子块特征值个数的平均检测率

图7 不同系数a的平均检测率

由图6可知,EMBPD-SVD方法在-5 dB、0 dB和5 dB信噪比情况下,子块特征个数为2和3的平均检测率略高于个数为4和5;在-10 dB信噪比情况下个数为3的平均检测率高于其他三者。因此,本文认为子块特征个数取3个的平均检测率最佳,后续实验中的子块奇异值特征个数选择为3。

由图7可知,在5 dB、0 dB和-5 dB信噪比情况下,声音事件的平均检测率随着系数a的变化而略微上下波动,整体变化不大;在-10 dB信噪比情况下,平均检测率随着系数a的增大整体呈现下降趋势,并在a=0.008处取得最高点。因此,后续实验中压缩系数a取0.008。

2) 压缩函数fs是CEMBPD-SVD方法与EMBPD-SVD方法的区别,以动物声音事件集为基础,进行3次交叉实验。在-10 dB、-5 dB、0 dB和5 dB信噪比与6种背景噪声组合实验中验证压缩函数fs的有效性。实验结果如表1所示,其中:A为CEMBPD-SVD特征,B为EMBPD-SVD特征。

表1 CEMBPD-SVD特征与EMBPD-SVD特征的声音事件平均检测率 %

由表1数据可知,在-10 dB低信噪比下声音事件检测中,CEMBPD-SVD方法在6种背景噪声中的检测效果明显都优于EMBPD-SVD方法,最高约有35%的提升,最差也有约11百分点的提升,平均提升了约21百分点。在-5 dB情况下,平均约有3个百分点的提升。而在相对高的信噪比,如0 dB和5 dB,几乎保持着相同的检测率。因此,不论在哪种信噪比条件下,CEMBPD-SVD特征都表现出了良好的性能,这说明了压缩函数的有效性。尤其在-10 dB低信噪比下,表现更为优异,达到了平均67.0%的检测效果。

3) 为了进一步说明CEMBPD-SVD特征在低信噪比声音事件检测的性能,本文将几种常用的特征结合RF分类器进行比较,包括:MFCC[23]、HOG[24]、PNCC[25]、GLCM-SDH[26]、LBP[27]、MBPD-DCTZ[18]。本文也将EMBPD-SVD特征加入对比实验。在6种背景噪声、4种信噪比下的不同特征对动物声音事件的平均检测率如表2所示。

表2 不同特征对动物声音事件的平均检测率 %

可以看出,CEMBPD-SVD特征、EMPBD-SVD特征和MBPD-DCTZ特征在4种信噪比下的表现大幅度优于MFCC、HOG、PNCC、LBP、GLCM-SDH特征;在0 dB和5 dB信噪比下三者检测率相近,但在-10 dB信噪比下,CEMBPD-SVD特征检测率明显优于EMPBD-SVD特征和MBPD-DCTZ特征。这验证了CEMBPD-SVD特征在低信噪比下具有良好的检测性能。

4) 不同信噪比及不同环境下,本文方法与MFCC-SVM[23]、SIF-SVM[16]、MP-SVM[13]、SPD-KNN[17]、CNN-MNIST手写数字识别网络[28]和AlexNet[29]网络的实验结果比较如表3所示。由表3可知,神经网络在较高的信噪比下识别效果优于本文方法,说明了神经网络强大的特征表征能力。但在低信噪比情况下,由于强噪声的干扰,使得声音事件的有用信息减少,神经网络识别效果不佳。而本文所提的CEMBPD-SVD与RF结合的方法均能保持较好的检测率,且低信噪比下的检测效果大幅度优于其他几种方法。

表3 6种噪声下不同方法对动物声音事件的平均检测率 %

5 讨 论

从上述实验及结果可知,在更低的信噪比,如-10 dB和-5 dB情况下,本文方法在各种背景噪声下的声音事件检测都表现出良好的性能,尤其在-10 dB情况下,平均检测率达67%。在较高的信噪比,如0 dB和5 dB下,本文方法仍保持着高的检测率。下面本文以图8所示的茶隼声音为例,就本文方法在低信噪比下相关的机理进行讨论,其中黑框均为茶隼声音所处主要频带范围。

5.1 压缩函数与能量所处频带的问题

1) 当声音能量所处频带与噪声能量所处频带在能量谱上区分明显时,主要是声音事件能量处在中高频带,噪声能量处在低频带。由图3的压缩函数曲线可见,低频部分的系数小,高频部分的系数大,此时不同频带的能量乘以对应的压缩系数。在归一化的规则下,相当于低频部分的噪声能量被压缩,中高频部分的声音事件能量被增强,从而在CEMBPD图上实现噪声能量等级下移,声音事件能量等级提升,使声音事件所在的区域特征最大程度保持与纯净样本的特征一致,从而使声音事件检测率大幅上升。公路背景噪声的能量主要集中在较低频部分,如图8(a)所示,此时压缩函数表现最佳。如图8(d)到图8(e)黑框的变化:黑框的能量等级显著提升与图8(b)纯净声音事件的黑框相似,而且黑框左侧的噪声能量等级明显下移。这是公路背景噪声在-10 dB低信噪比下比EMBPD-SVD方法提升了约35个百分点,达到90%左右的主要原因。

2) 当声音事件能量与噪声能量两者所处的频带相近时,由图3的压缩函数曲线可以看出相近频带的压缩系数差距不大。在低信噪比下,声音事件能量与噪声能量乘以对应的压缩系数。由于压缩系数差距不大,在归一化后,噪声与声音事件在CEMBPD图上的能量等级变化不如问题1)那样明显,此时噪声的能量等级有所下降,声音事件的能量等级有所提升,噪声仍处于能量等级较高的位置。如图8(f)到图8(g)过程所示(横线仅图8(f)与图8(g)做对比时用):黑框的能量等级有所提升,黑框左侧的能量等级有所下降,能量等级仍处于较高的位置。因此,最终检测率的提升不如问题1)幅度大,但仍有较高的提升,表1中的海浪背景噪声就是这类情况,-10 dB下约有15百分点的提升。

3) 当声音事件能量所处的频带被噪声能量所处的频带掩盖,主要是背景噪声为宽频高能的噪声。此时压缩函数fs在压缩声音事件的能量的同时也同比例压缩了同频带的噪声能量,在归一化的规则下,高能噪声仍处于能量等级高的位置,此时压缩函数fs对声音事件的能量等级提升有限,对于低频部分的能量等级起到压缩作用。雨声背景噪声频域宽且有许多分布不均的高能点,如图8(b)所示。从图8(h)、图8(i)、图8(j)三图对比可以看出,图8(j)相对于图(i)黑框能量等级变化很小,这说明此时压缩函数fs对被掩盖的声音事件能量等级调整有限;图8(i)、图8(j)与图8(h)对比黑框以外的区域变化不大,且图8(j)低频部分相对于图8(i)低频部分的能量等级有所下移,这说明压缩函数fs对宽频噪声的调整起到压缩低频带能量等级的作用。同时,高能噪声点会对声音事件形成污染,从而影响最终检测结果。从表1的数据来看,基于MBPD的CEMBPD在处理宽频且有分布不均的高能点的雨声背景噪声所表现出来的性能并不理想,检测率虽然从28.5%提升到42%,但仍远低于其他噪声类型的检测率。

(a) 公路能量谱图 (b) 雨声能量谱图

(c) 纯净茶隼叫声能量谱图及EMBPD图

(d) -10 dB公路环境下茶隼叫声能量谱图及EMBPD图

(e) -10 dB公路环境下茶隼叫声压缩后的能量谱图及CEMBPD图

(f) -10 dB海浪环境下茶隼叫声能量谱图及EMBPD图

(g) -10 dB海浪环境下茶隼叫声压缩后的能量谱图及CEMBPD图

(h) 雨声的EMBPD图

(i) -10 dB雨声环境下茶隼叫声的EMBPD图

(j) -10 dB雨声环境下茶隼叫声的CEMBPD图图8 各种环境下的茶隼叫声能量谱图以及对应的EMBPD图和CEMBPD图

5.2 进一步提高检测率的猜想

从表1可以看出系数a对不同噪声背景下的声音事件检测率提升不同,因此本文对进一步提高声音事件检测率提出猜想:(1) 针对不同类型噪声的能量、频带宽度、能量均匀程度等特点对系数a做出调整或者寻找一个更合适的压缩函数fs模型,提升对某一类型噪声的声音事件检测率;(2) 将本文方法与神经网络结合,利用神经网络强大的特征提取能力,对CEMBPD图进行深度的特征挖掘,提升声音事件的检测率。

6 结 语

本文提出一种基于CEMBPD-SVD特征的随机森林检测方法。该方法在较高信噪比下保持着高的检测率的同时,在更低的信噪比下,通过压缩噪声能量等级,提升声音事件能量等级的方式,从而有效地提升了低信噪比下声音事件的检测率。同时,CEMBPD一定程度上解决了MPBD和SPD在低信噪比声音事件检测中出现的声音事件能量下移问题,在低信噪比情况下,尤其在-10dB信噪比下,CEMBPD-SVD特征表现出的优势更为明显。

猜你喜欢
频带信噪比噪声
小型化双频带蝶形微带天线设计
“白噪声”助眠,是科学还是忽悠?
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于经验分布函数快速收敛的信噪比估计器
一种基于扩频信号的散射通信信噪比估计方法
基于声类比的仿生圆柱壳流噪声特性研究
Wi-Fi网络中5G和2.4G是什么?有何区别?
基于能量检测的认知无线电频谱感知算法研究
超材料吸收器设计方法的研究进展
要减少暴露在噪声中吗?