融合Burg谱估计与信号变化率测度的语音端点检测

2014-07-31 22:39张君昌胡海涛

西安电子科技大学学报 2014年3期

关键词：谱估计端点测度

张君昌,胡海涛,崔力

(西北工业大学电子信息学院,陕西西安 710129)

融合Burg谱估计与信号变化率测度的语音端点检测

张君昌,胡海涛,崔力

(西北工业大学电子信息学院,陕西西安 710129)

针对现有基于特征的语音端点检测方法在低信噪比及非平稳噪声下检测性能较低的问题,提出了一种融合Burg谱估计与长时段信号变化率测度(LTSV)的语音端点检测方法.该方法采用表征较长时段语音变化率的LTSV参数,较准确地反映了语音的非平稳程度.与传统基于特征的语音端点检测方法相比,该方法在低信噪比及非平稳噪声情况下的检测性能有了较大提高.并融合Burg谱估计,与传统Welch谱估计方法相比,提高了LTSV参数的区分度,从而进一步提高了检测的准确率.仿真结果表明:采用融合Burg谱估计与LTSV的语音端点检测方法在低信噪比(-10dB)及非平稳噪声情况下,与传统基于特征的语音端点检测方法相比,检测准确率普遍提高了约6%以上,说明该方法在低信噪比及非平稳噪声环境下鲁棒性更好.

语音端点检测;信号变化率测度;Burg谱估计;低信噪比;非平稳性

语音端点检测是语音识别的一个关键技术问题,其目的是区分出语音段和非语音段,准确定位出语音段的起始点和终止点,将语音信号精确地检测出来.语音端点检测在语音识别系统中起着重要的作用,准确的端点检测不仅能使语音识别系统处理时间减到很小,而且能排除无声段的噪声干扰,而不准确的端点检测则会引起语音识别系统的性能下降和计算量增加.

目前语音端点检测方法主要有基于特征[1]的方法和基于模式识别[2]的方法两大类.其中基于特征的方法以其简单、快速的优点被广泛地研究和应用.现有的各种基于特征的方法均有其局限性,如基于短时平均幅度的端点检测方法虽然简单,但难以区分弱摩擦音与结尾时的鼻音;基于短时平均过零率的端点检测方法虽然对清音的检测效果较好,但其抗噪声性能较差;基于谱熵的端点检测方法由于语谱的固有特征能够有效地区分语音和噪声,但对清音部分的检测效果较差,尤其是实际应用中的“毛刺”问题.为了提高端点检测的准确率,许多学者提出了结合多个特征的语音端点检测方法,如目前应用较广的基于谱熵、短时过零率与倒谱距离的检测方法.该算法将谱熵、短时过零率和倒谱距离三种语音特征结合起来进行端点检测,试图克服传统单一特征抗噪声性能差的缺点,利用各自特征参数的优点,提高端点检测的准确率.但在低信噪比情况下,特别是对非平稳噪声,其检测性能会迅速变差.

为了克服传统语音端点检测算法的缺点,文献[3]提出了一种新的基于长时段信号变化率测度的语音端点检测算法,该算法在一个长时语音段(如20帧)测度输入信号的非平稳度变化,利用语音和非语音的不同变化特征,来区分语音和非语音.该算法较之传统语音端点检测算法在低信噪比下对于非平稳噪声的检测性能更好,适合不同的噪声类型.然而进一步的分析发现,文献[3]中的方法采用了经典的Welch谱估计算法,其频率分辨率低,偏差较高,在低信噪比及复杂噪声情况下对含噪语音与噪声信号的误分类率较高.因此,笔者提出一种融合Burg谱估计算法与长时段信号变化率测度的语音端点检测方法,有效地降低了含噪语音与噪声信号的误分类率,在低信噪比及复杂噪声情况下检测性能更好,鲁棒性更强.

1 融合Burg谱估计与长时段信号变化率测度的语音端点检测方法

1.1 长时段信号变化率测度及其参数选择

传统基于特征[4]的语音端点检测方法对于在低信噪比及非平稳噪声下语音信号的检测性能较差,因此Ghosh等人提出了一种基于信号变化率测度的语音端点检测算法[3],其算法如下:

首先估计信号x(n)在频点ωk处的功率谱

最后计算输入m帧信号在不同频率点ωk处的方差lx(m),

假设输入信号是平稳噪声N(n),因为N(n)是平稳的,在理想状态下噪声频谱不随时间变化.因此,噪声功率谱sN(n,ωk)对于所有n值都是不变的.假定噪声谱已知sN(n,ωk)=σk,代入式(2),可得log R.因此,对于任意频点ωk,其方差lx(m)=0.

如果输入信号x(n)为含加性平稳噪声语音,即x(n)=S(n)+N(n),假定噪声与语音信号是不相关的,因此,输入信号的功率谱为Sx(n,ωk)=Ss(n,ωk)+σk,其中Ss(n,ωk)为语音信号功率谱.LS+N(m)是在不同频率值ωk处的方差.如果输入信号信噪比SNRk≪1,则对于任意的频率值ωk,有

因此,LS+N(m)≈0.另一方面,如果含噪语音信号具有较高的信噪比,语音信号在不同频率处强度大不相同,即使输入信号含有加性噪声,信号强度在不同频点仍有较大波动.因此,LS+N(m)显著大于零.

非平稳噪声的频谱是随时间变化的.因此,当输入信号是非平稳噪声时,其频谱是不可知的,lx(m)也不再是零.lx(m)由噪声信号的类型及其非平稳度决定,因此,理论分析变得很困难.然而,通过从TIMIT语料库选取纯净语音,与噪声库NOISEX-92中9种噪声(坦克噪声、军用车辆噪声、飞机座舱噪声、高频信道噪声、F16座舱噪声、汽车内部噪声、机关枪噪声、Babble噪声、工厂噪声)合成3种信噪比(0dB、-5dB、-10dB)的含噪语音样本进行大量实验仿真发现,当输入信号是含非平稳噪声语音时,信号频谱在频点ωk处sx(n,ωk)由信噪比SNRk决定,含噪语音信号的功率谱变化程度远大于噪声信号的功率谱变化程度,因此,LTSV算法在非平稳噪声情况下同样具有较好的检测性能.

通过LTSV算法分析不同噪声,发现信噪比越高,lS+N与lN曲线的分离度就越好.为了分析在不同频点处lS+N与lN的曲线变化,文中采用较高信噪比情况.在4 k Hz以下,含噪语音的信噪比较高,这是因为语音信号本质上是一种低通信号,语音识别信息主要在500 Hz～4 k Hz之间.所以在这个区间选择,K由抽样频率FS及离散傅里叶变换(DFT)点数nDFT决定,其计算公式为

R与M是计算lx(m)的两个参数,文中R取值为30,M取值为20.

1.2 谱估计方法选择

谱估计法是决定lS+N与lN曲线分离度的一个重要因素.经典的周期图法直接利用有限个序列数据的傅里叶变换来估计其功率谱,估计方差较大.为此,一种应用较广泛的改进方法就是加权交叠平均法[5],该方法采取数据分段加窗处理,先分别求出每一段的谱估计,然后进行总平均.但是无论是周期图还是其改进方法,都存在着频率分辨率低,方差性能不好的问题.其原因是经典谱估计利用加窗的方法,用有限个数据或其自相关函数来估计无限个数据的功率谱,造成了经典谱估计较差的分辨率.为此,笔者采用现代AR参数模型[6]谱估计法根据对过程的先验知识,建立一个近似实际过程的模型,然后利用观测数据或自相关函数来估计假设的模型参数,最后进行识别或谱估计.因为在这个过程中没有用到窗函数,所以可以消除掉窗函数的畸变影响,得到比经典谱估计更高的频率分辨率.对于AR模型,参数估计性能较好的是Burg算法[7],因此,笔者采用Burg算法进行谱估计.

1.3 融合Burg谱估计与LTSV语音端点检测判决

融合Burg谱估计算法的长时段信号变化率测度的语音端点检测方法的系统框图如图1所示.

图1 语音端点检测系统框图

输入信号首先用汉宁窗加窗分帧,帧长为20 ms,帧移为10 ms,采用Burg谱估计法估计输入信号的功率谱.在第l帧窗口上,lx(l)由当前帧及前R-1帧信号计算得到,lx(l)与判决门限相比较,以判决在R帧内是否含有语音段.用Dl来判断,如果Dl=0,则说明结束于第l帧的前R帧信号是噪声段;如果Dl=1,则说明是语音段.

语音端点判决如图2所示,每10 ms帧移间隔判决一次,从第l帧开始采集R+1次判决Dl,Dl+1,…,Dl+R+1,当前判决与前一次判决有10 ms帧移间隔.如果这些判决有80%是语音,则认为10 ms的帧移是语音信号,否则认为是噪声.

图2 语音端点检测系统端点判决

2 实验结果与分析

纯净语音采用TIMIT语料库,随机选择TIMIT语料库中一段男声语音“Hurdle the pit with the aid of a long pole”.噪声采自NOISEX-92噪声库,分别采用5段不同类型的噪声(白噪声、汽车噪声、坦克噪声、HF噪声、机枪噪声).合成多段不同信噪比(-10dB,-5dB,0dB,5dB,10dB)下的含噪语音进行测试.

图3 -10dB汽车噪声下基于两种谱估计方法的语音端点检测结果

在汽车噪声环境下,测试语音采样频率为16 k Hz,信噪比为-10dB,在matlab平台基于Welch谱估计与基于Burg谱估计的LTSV方法检测结果如图3所示.

从图3可以看出,基于Welch谱估计的LTSV方法在0.26 s将语音误判为噪声,在1.49 s同样误判;而基于Burg谱估计的LTSV方法则无误判,较Welch谱估计法,检测准确率[6]明显提高.

在汽车噪声情况下,传统基于特征的语音端点检测方法、基于Welch法谱估计的LTSV方法与基于Burg谱估计的LTSV方法在5种不同信噪比下检测准确率对比如图4所示.

传统基于特征的语音端点检测方法、基于Welch谱估计的LTSV与融合Burg谱估计的LTSV语音端点检测方法在低信噪比(-10dB)的5种噪声环境下检测准确率如表1所示.

图4 不同端点检测准确率方法对比

表1 3种方法在不同噪声类型下检测准确率%_

从图4与表1中可以看出,在低信噪比(-10dB)下基于特征的语音端点检测方法已经失效,基于Welch谱估计的LTSV方法检测性能有了较大提高,而基于Burg谱估计的LTSV方法对低信噪比下平稳噪声(白噪声)与非平稳噪声(汽车噪声、坦克噪声等)均有良好的检测性能,说明基于Burg谱估计的LTSV方法具有较高的频率分辨率,进一步提高了检测准确率,从而验证了基于Burg谱估计的LTSV方法在低信噪比及复杂噪声环境下进行语音端点检测的有效性和鲁棒性.

同时发现,对于机枪噪声,3种方法的检测性能均较差.这是因为机关枪噪声包含机关枪子弹发射间隔噪声与子弹发射噪声两种噪声,两种噪声混杂在一起造成信号非平稳度的无规律变化.因此,LTSV方法的检测性能也变差,这正是基于LTSV语音端点检测方法的局限性所在.

3 结束语

笔者提出了一种融合Burg谱估计的长时信号变化率测度的语音端点检测方法.该方法采用Burg谱估计,进一步提高了LTSV参数的区分度.大量实验仿真表明,在低信噪比和非平稳噪声情况下,该方法的检测准确率达到了85%以上,而传统基于特征的语音端点检测方法只有约50%,这说明LTSV算法在低信噪比及非平稳噪声下具有更好的鲁棒性.值得注意的是,使用长时窗进行信号分析计算量稍大,会造成语音端点判决的延时.因此,在系统检测延迟与系统检测性能之间需要一个较好的折中方案,这也是笔者下一步研究的重点.

[1] 胡波,肖熙.检测语音端点及基音的概率模型及方法[J].清华大学学报(自然科学版),2013,53(6):749-752. Hu Bo,Xiao Xi.Endpoint Detection and Pitch Determination Method Based on a Probability Model[J].Journal of Tsinghua University(Science and Technology),2013,53(6):749-752.

[2] 李远征,卢朝阳,李静.一种基于多特征融合的视频目标跟踪方法[J].西安电子科技大学学报,2012,39(4):624-629. Li Yuanzheng,Lu Chaoyang,Li Jing.A Robust Video Object Tracking Algorithm Based on Multi-feature Fusion[J]. Journal of Xidian University,2012,39(4):624-629.

[3] Ghosh P K,Tsiartas A,Narayanan S.Robust Voice Activity Detection Using Long-Term Signal Variability[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19(3):601-613.

[4] Cheng Gong,Zhang Xiongwei,Li Yaobo,et al.Voice Activity Detection Method Based on Gray Correlation Analysis Algorithm[J].Journal of PLA University of Science and Technology,2012,56(7):1014-1022.

[5] Cho N,Kim E K.Enhanced Voice Activity Detection Using Acoustic Event Detection and Classification[J].IEEE Transactions on Consumer Electronics,2011,57(1):196-202

[6] Chiu Y H B,Raj B,Stern R M.Learning-Based Auditory Encoding for Robust Speech Recognition[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(3):900-914.

(编辑:李恩科)

Robust voice endpoint detection fusing Burg spectrum estimate and signal variability

ZHANG Junchang,HU Haitao,CUI Li
(School of Electronic Information,Northwestern Polytechnical Univ.,Xi’an 710129,China)

Voice Endpoint Detection is challenging,especially in nonstationary noise and a low signal-tonoise ratio(SNR),so this paper proposes a novel Robust Voice Endpoint Detection method fusing Burg spectrum estimate and long-term signal variability(LTSV).This method uses a novel long-term signal variability measure,by which the degree of nonstationarity in various signals can be indicated.Comparison with the traditional Voice Endpoint Detection method based on signal features,this method’s detection performance has been greatly improved under the condition of a low signal-to-noise ratio and nonstationary noise.Also,Burg spectrum estimate is proposed,which improves the LTSV parameter discrimination degree,thus further improving the detection accuracy.Simulation results show that in comparison with the standard Voice Endpoint Detection method,the new method’s accuracy is generally improved by more than about 6%,which shows that the new method has better robustness in the non-stationary noise and low signal-to-noise ratio environment.

voice endpoint detection;long-term signal variability measure;Burg spectrum estimate;low signal-to-noise ratio;nonstationarity

TN702

1001-2400(2014)03-0192-04

10.3969/j.issn.1001-2400.2014.03.029

2013-07-15< class="emphasis_bold">网络出版时间:

时间:2013-11-22

陕西省自然科学基金资助项目(2011JQ8038)

张君昌(1969-),男,副教授,博士,E-mail:zhangjc@nwpu.edu.cn.

http://www.cnki.net/kcms/detail/61.1076.TN.20131122.1628.201403.209_029.html