改进型多特征语音端点检测方法

2022-12-21 01:35刘艳辉
关键词:子带端点信噪比

刘艳辉

(三门峡职业技术学院 信息传媒学院,河南 三门峡 472100)

端点检测是语音识别的关键性技术,准确地确定语音的起始点和结束点,方可为语音识别系统的后续环节节省空间,提高语音识别系统的性能。语音端点检测方法分为基于参数的端点检测和基于模型的端点检测,基于参数的端点检测方法计算简便、运算量少,是最普遍的检测方式。

经典的基于短时能量和短时过零率的特征检测方法通过语音和噪声的能量进行比较,以及语音信号围绕零点的上下振动次数来判别信号;双门限判别检测方法[1]设定阈值进行判别,确定语音段与噪声段;基于倒谱[2]、分形维数、谱熵[3]、LMS[4]、谱减[5]等的端点检测方法,根据语音信号与噪声信号特征参数的不同表现,能够很好地区分而进行检测。这些检测方法均基于阈值,即将特征参数与设定的阈值进行比较,在噪声环境单一或较安静的情况下有较好的识别效果,但在信噪比较低的情况下,检测效果较差。本研究针对低信噪比时检测效果差的问题提出改进的多特征端点检测方法,结合谱减法及自适应滤波,一边进行降噪,一边进行语音增强,以提高信噪比,并进一步改进谱减法的特征参数,从而增强端点检测效果。

1 改进谱减法及噪声平滑算法

1.1 谱减法

谱减法是利用噪声的统计平稳性及加性噪声与语音不相关的特点提出来的一种语音增强方法,该方法的运算量小且易于实现。谱减法工作原理见图1。

图1 谱减法工作原理

将无语音段的噪声功率谱作为期望值,可以较好地得到增强后的语音信号。假设x(i)为带噪语音信号,s(i)为无噪声的纯净语音信号,n(i)为叠加在语音信号上的加性噪声信号,在考虑噪声时,认为噪声叠加在语音信号波形上,故语音信号可以用以下公式来表示:

x(i)=s(i)+n(i)。

(1)

(2)

(3)

基于此进行语音降噪,但噪声的功率谱|N(ω)|2无法直接获得,故经常选取带噪语音信号前100 ms的平均功率谱作为噪声的初始估计值。由此可知,通过谱减法得到的语音信号功率谱可表示如下:

(4)

谱减法语音增强效果见图2。

图2 谱减法语音增强效果

对比图2(a)至(d)可知,谱减法得到的期望信号功率谱在经过傅里叶反变换后,对语音降噪起到了一定作用,但效果相对有限。

1.2 噪声平滑算法

实际的噪声环境是复杂多变的,所以应在谱减法的基础上对噪声进行自适应平滑,即使用子带谱熵的阈值确定初始阈值进行比较,并在确定为噪声段后,使用当前噪声帧的频谱分量Y(l,k)与前一帧的频谱分量λ(l,k-1)做加权求和并进行更新:

(5)

式中:μ取值为0.8[6];λ(l,k-1)表示经过噪声平滑后第l帧信号的第k个频谱分量;Y(l,k)表示当前第l帧语音信号的第k个频谱分量;λ(l,k-1)表示第l帧语音信号的第k-1个频谱分量。

经过式(5)的运算,对每一帧的频谱分量进行了自适应平滑处理,进一步提高了噪声的实时估计,在信噪比较低、噪声情况较复杂的情况下,可以很好地对噪声进行检测。

1.3 谱减法的改进

针对实际的噪声环境使用改进的谱减公式[7]:

(6)

公式(6)为公式(4)的变形,当参数α=2、β=1时,改进谱减法降为基本谱减法,即变为公式(4)。引入的参数α和β分别为信号修正系数和噪声修正系数。

首先,对这两个参数进行修正。若减少参数比重,则会残留更多的噪声,无检测效果;若增大参数比重,则可能会滤除一部分语音信号,出现语音失真的现象,影响后续的识别。接下来对参数α和β进行进一步修正:

α=2(1+SNR),

(7)

(8)

式中:SNR为信噪比。

引入信噪比及自适应噪声平滑来进一步改进参数α和β,针对式(7)和式(8)中的SNR,采用噪声平滑的方式进行处理,这样可以使SNR的值更加精准,详见公式(5)。

2 改进算法流程

2.1 多特征端点检测算法流程

基于改进谱减法与噪声平滑的多特征端点检测方法如下:

(1)对语音信号x(t)进行采样,得到信号x(n)。对采样的语音信号x(n)进行分帧,帧长为256,帧移为80,运用汉明窗w(n)对语音信号做加窗处理,得到分帧后的语音信号:

s(n,m),n=1,2,…;m=1,2,…,q,

(9)

式中:s(n,m)为第m帧语音信号;q为帧数。

(2)对求得的分帧后的语音信号s(n,m)做快速傅里叶变换,得到每一帧语音信号的功率谱,并求得此时语音信号的相位:

(10)

式中:X(k,m)为第m帧语音信号经过快速傅里叶变换后的第k个分量;N为帧长。

(11)

式中:XE(k,m)为X(k,m)的能量值。

(4)将频域中的语音信号XE(k,m)第m帧语音信号每4点放在一起,求得子带谱熵:

(12)

式中:Eb(l,m)为第m帧语音信号的第l个子带能量;Nb为子带数。

子带谱熵概率

(13)

式中:分母为当前m帧语音信号的总能量。

子带谱熵

(14)

(5)对子带谱熵的结果进行噪声预估计,可得到噪声的估计值Ts,计算方法如下:

(15)

式中:η为前5帧语音信号的谱熵均值;Hb(l)为第l帧语音信号的谱熵值。

(16)

式中:σ为前5帧语音信号的谱熵方差值。

Ts=η+α*σ,

(17)

式中:Ts为噪声估计值;α为加权值。

进行噪声估计时,将前5帧语音信号的谱熵均值与谱熵方差值进行取加权平均计算,其中α=1.25。

(6)将计算所得Ts作为初始噪声估计值,并与带噪语音信号的子带谱熵每一帧信号进行比较,当信号的谱熵值小于噪声的初始估计值时,开始进行噪声平滑,以获得更新的噪声值。信噪比

(18)

(7)运用改进谱减法对带噪语音信号进行降噪:

(19)

对参数α、β运用公式(18)及先验信噪比进行更新:

(20)

(21)

(8)通过上述步骤得到经过语音增强的降噪语音信号功率谱,并对该功率谱进行傅里叶反变换得到分帧语音信号。

(9)从处理过的语音信号中抽取出最终的语音序列。

(10)使用谱熵法对得到的语音信号进行语音端点检测,得到端点检测结果。

2.2 仿真实验

仿真实验基于MATLAB R2013a软件进行,其中语音信号为NOISEX-92噪声库、NOIZEUS语音库的纯净语音信号、噪声信号及各种信噪比情况下的含噪语音信号,加入不同信噪比的含噪语音信号进行端点检测研究。

实验1选取的是一段加入5 dB白噪声的语音信号,分别运用基本谱减法和本改进算法进行仿真比较,结果见图3和图4。

图3 加入5 dB白噪声信号的基本谱减法检测结果

图4 加入5 dB白噪声信号的改进算法检测结果

观察图3和图4发现,本改进算法在低信噪比情况下,对添加了5 dB白噪声的语音信号具有更好的滤波效果。

实验2选取的是一段添加5 dB火车噪声的语音信号,运用谱减法和本改进算法进行仿真比较,结果见图5和图6。

观察图5和图6发现,本改进算法具有更好的滤波效果。

图5 加入5 dB火车噪声信号的基本谱减法检测结果

图6 加入5 dB火车噪声信号的改进算法检测结果

实验3选取一段加入5 dB白噪声的语音信号,根据改进型语音端点检测算法来进行端点检测,结果如图7和图8所示。

图7 加入5 dB白噪声信号的改进算法检测结果

图8 改进算法的语音信号端点检测结果

仿真结果表明,改进型多特征语音端点检测算法在低信噪比情况下,对语音信号有较好的检测效果。

3 结语

本研究在基本谱减算法的基础上提出了结合改进谱减法与噪声平滑的多特征端点检测算法。仿真结果显示,运用改进算法降噪后进行端点检测有很好的效果,而且在低信噪比情况下仍有较好的滤波效果,具有很好的适用性和有效性。

猜你喜欢
子带端点信噪比
非特征端点条件下PM函数的迭代根
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
一种基于奇偶判断WPT的多音干扰抑制方法*
子带编码在图像压缩编码中的应用
基于深度学习的无人机数据链信噪比估计算法
不等式求解过程中端点的确定
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
基于虚拟孔径扩展的子带信息融合宽带DOA估计
基丁能虽匹配延拓法LMD端点效应处理
保持信噪比的相位分解反褶积方法研究