基于EMD与RLS的说话人识别抗噪算法

2016-06-08 05:48茅正冲
计算机应用与软件 2016年5期
关键词:特征参数耳蜗信噪比

茅正冲 龚 熙

(江南大学轻工过程先进控制教育部重点实验室 江苏 无锡 214122)



基于EMD与RLS的说话人识别抗噪算法

茅正冲龚熙

(江南大学轻工过程先进控制教育部重点实验室江苏 无锡 214122)

摘要语音信号是一种典型的非平稳信号。为了分析语音的非平稳特性,提出一种基于经验模态分解(EMD)与递推最小二乘算法(RLS)自适应滤波器相结合的语音信号去噪预处理器,进一步提高语音信号的信噪比和可懂度。再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种方法应用于说话人识别抗噪系统,系统的识别率及鲁棒性都有明显提高。

关键词抗噪系统EMDRLS识别率

0引言

说话人识别中关键问题之一是提取有效的特征参数。不同的特征参数对说话人识别会产生不同的效果,直接影响识别系统的识别率及鲁棒性。目前常见的特征参数有线性预测系数(LPC)、线性预测倒谱参数(LPCC)、线谱对参数(LSP)和Mel频率倒谱系数(MFCC)等。然而,在实际的说话人识别系统中,容易受到噪声的干扰,尤其是在低信噪比下,系统的识别率大大下降[1-3]。

对语音信号进行预处理能有效地去除信号中的噪声,尤其是在低信噪比的环境下,语音信号的预处理能对识别效果产生很大的影响。文献[4]采用改进谱减法能更好地去除背景噪声和残余噪声,但在低信噪比环境下对语音信号的可懂度损伤较大。文献[5]中采用听觉掩蔽效应能对语音消噪,但掩蔽门限的估计会存在很大误差。文献[6]中Gammatone滤波器组是基于人耳耳蜗听觉模型建立的,该滤波器组能很好地模拟基底膜的分频特性,能进一步抑制背景噪声,提高说话人语音信号的可懂度,但是不能提高语音信噪比。

任何信号都是由一些不同的基本模式分量组成的。每个模式可以是线性的或非线性的,一个信号可以包含多个基本模式分量,如果模式之间相互重叠,则形成复合信号。语音信号作为非平稳复合信号,分析时需要使用具有局域性的基本量和基本函数。一般采用的方法有:短时傅里叶变换、Gabor展开、小波变换等。这些方法的共同点就是采用具有有限支撑的震荡衰减波形作为基函数,然后截取一小段时间区域内的信号进行相似性的度量,而且这些基函数大多数预先选定的。而经验模态分解(EMD)方法则得到了一个自适应的广义基。基函数没有统一的表达式,而是依赖信号本身,是自适应的,不同的信号经分解会得到不同的基函数,与传统的分析工具有本质的区别。基于EMD的时频分析方法能够定量地描述频率和时间的关系,准确地刻画信号的非平稳特性,实现对时变信号的完整分析[7]。RLS自适应滤波器可以按事先设定的准则自动调节本身的传递函数以达到所需要的输。本文将EMD和RLS相结合作为语音信号预处理器,将带噪信号经过预处理后进行EMD分解,分解得到时间尺度不同的基本模式分量(IMF)。这些IMF会按照频率从高到低的顺序排列,然后对噪声主要存在的IMF通过递推最小二乘算法(RLS)构造的滤波器滤波,自适应地最优逼近噪声分量,然后重构出信号,以此达到去噪的效果。最后通过Gammatone滤波器组,提取特征参数GFCC用于此说话人识别。在低信噪比的背景下,该方法的识别率和鲁棒性均高于普通增强处理的说话人识别系统。

1EMD与RLS的语音抗噪算法

1.1EMD分解算法

基本模式分量须满足两个条件:

(1) 在整个语音信号数列中,信号极值点数量与过零点数量相差小于等于1。

(2) 在任意一段时间内,信号上包络线、下包络线确定的平均值为0[8]。

对于给定信号x(t),EMD分解方法[9]如下:

(1) 检测x(t)所有局部极大、极小值点,进而分别确定x(t)的上、下包络线。再取两条包络线的平均值组成新序列m(t)。

(2) 从x(t)中减去m(t),得:h1(t)=x(t)-m(t),如果h1(t)不满足条件(1)和(2),则把h1(t)作为新的x(t),重复步骤(1)和步骤(2),直到h1(t)满足条件,记:c1(t)=h1(t)。

(3) 从x(t)中分解出第一个基本模式分量c1(t)后,减去c1(t),得到剩余值序列:r1(t)=x(t)-c1(t)。

(4) 把r1(t)作为新的原始信号重复上述操作,依次可得c1(t),c2(t),…,cn(t),最后分解剩余一项rn(t)。记:

(1)

对分解的过程设定一个停止条件:当cn(t)或rn(t)小于预设值Sd时,则分解停止,即:

(2)

式中,T表示信号的时间长度;hk-1(t)和hk(t)为筛选基本模式过程中的两个连续处理结果的时间序列。Sd的值通常取0.2~0.3[10]。图1和图2给出了一段受高斯白噪声污染的语音信号(-5 dB),及这段加噪信号经EMD分解后的IMF分量。可以发现,噪声信号基本包含在高频的基本模式分量中。

图1 含噪语音信号

图2 含噪语音信号的各阶IMF分量

1.2RLS算法

RLS算法即“递推最小二乘法”[11],它是考察一个由平稳信号输入的自适应系统在一段时间内输出误差信号的平均功率,并使该平均功率达到最小作为自适应系统的性能准则。RLS算法的递推公式为:

v(n)=v(n-1)+g(n)[d(n)-xT(n)v(n-1)]

(3)

式(3)说明在n时刻的最佳值v(n)可由n-1时刻的最佳值v(n-1)加一修正量得到,g(n)[d(n)-xT(n)v(n-1)]为修正量。其中xT(n)v(n-1)为根据n-1时刻的最佳加权和n时刻数据对d(n)之预测值。g(n)为比例增益系数,表达式为:

(4)

式中,λ为遗忘因子,它是小于1的正数,其变化对算法影响很大。算法的有效记忆长度用t来表示,t定义为:

(5)

因此,λ越小,对应的t越小,稳态误差就越大,这样对信号的非平稳性跟踪性能就越好。但是如果λ太小,t会小于信号每个平稳段的有效时间,因而就不能充分利用所有能够获取的采样数据,导致计算出的权矢量v(n)将会受到噪声的严重影响,对于平稳信号λ的最佳值为1。图3为自适应噪声消除器的结构图。

图3 自适应噪声消除器的结构图

图3中带噪信号d(n)包括原始语音信号和噪声,x(n)为参考噪声输入。在实际工作过程中,此种自适应噪声消除器主要是完成d(n)中的噪声估计,使输出的噪声估计值y(n)尽可能接近d(n)中的噪声信号,然后从带噪信号中直接减去y(n),进而达到消噪的效果。

1.3本文算法

针对几种典型的高频噪声,本文提出了一种将EMD和RLS结合作为预处理器的语音信号抗噪算法。在实验室环境下采用不同的噪声对语音信号加噪,然后用经验模式分解法(EMD)分解加噪后语音信号,进而得到时间尺度不同的IMF分量。这些IMF会按照频率从高到低的顺序排列,理论上分解后的绝大部分IMF分量中都会掺杂所加的噪声信号的分量。考虑到实验采用的噪声信号一般时间尺度小,频率相对较高,所以当用EMD方法分解带噪语音信号后,噪声信号主要分布在频率较高的IMF分量中。这样可以避免对带噪信号进行全频降噪处理,损害到一些无需处理的有用原始语音信号,而只需对高频IMF分量进行处理。因此,本文提出一种只对高频的IMF分量采用RLS自适应滤波器进行处理的算法,算法框图如图4所示。首先对带噪语音信号进行数字化、预加重、加窗分帧和端点检测等前处理。然后对处理后的信号EMD分解,对分解出的高频IMF分量(第1~m级)进行RLS处理,m一般取N/3。将处理后的IMF分量与未处理的低频IMF分量进(第m+1~N级)行叠加,重构增强后的语音信号。最后输入Gammatone滤波器组,提取特征参数GFCC,用高斯混合模型对语音信号识别。

图4 EMD+RLS算法过程

2Gammatone特征提取

2.1Gammatone滤波器

Gammatone滤波器[12]最早应用于描述听觉系统脉冲响应函数的形状,后来应用于耳蜗听觉模型,用来模拟人耳听觉频率响应,其时域表达形式如下:

g(f,t)=kta-1e-2πbtcos(2πft+φ)t≥0

(6)

式中,k为滤波器增益,a为滤波器阶数,f为中心频率,φ为相位,b为衰减因子,该因子决定相应的滤波器的带宽,它与中心频率f的关系为:

b=24.7(4.37f/1000+1)

(7)

由于Gammatone滤波器的时域表达式为冲击响应函数,所以将其进行傅里叶变换就可以得到其频率响应特性。不同中心频率的Gammatone滤波器幅频响应曲线如图5所示。

图5 一组不同中心频率下Gammatone滤波器的幅频响应曲线

2.2GFCC特征参数的提取

根据Gammatone滤波器的特性,准备将该滤波器应用到说话人识别系统中。将输入的语音信号通过一组Gammatone滤波器,进而语音信号由时域转换到频域。

这里采用一组64个的4阶Gammatone滤波器,其中心频率在50~8000 Hz之间。由于滤波器的输出保留原来的采样频率,按时间维度取响应频率为100 Hz、通道数为64的Gammatone滤波器。这样就产生了相应的帧移为10 ms,进而可以应用到短时间的语音特征提取中。当语音信号通过以上的滤波器时,输出信号Gm(i)的响应表达式为:

Gm(i)=[|g|(i,m)]1/2i=0,…,N-1m=0,…,M-1

(8)

式中,N=64是滤波器的通道数,M是采样之后的帧数。

这样Gm(i)构成了一个矩阵,代表输入信号在频域的分布变化。这里采用类耳蜗图[13]来描述输入信号在频域的分布变化。与具有直观分辨率的语谱图不同,类耳蜗图在低频段的分辨率优于在高频段的分辨率。图6是一段纯净语音信号的语谱图和类耳蜗图。图7是一段加噪语音信号的语谱图和类耳蜗图。从图中对比可以看出,类耳蜗图的分辨效果更加清晰,能更好地反映语音信号的能量分布,尤其是在有噪声背景下,类耳蜗图的优势更突出,更能反映出语音信号的特性。因此,将对类耳蜗图进行下一步的分析。

图6 一段纯净语音的语谱图和类耳蜗图

图7 一段加噪语音的语谱图和类耳蜗图

将类耳蜗图的每一帧称为Gammatone特征系(GF),一个GF特征矢量由64个频率成分组成。但是在实际的说话人识别系统中,GF特征矢量的维度比较大,计算量较大。此外,由于相邻的滤波器通道有重叠的部分,GF特征矢量相互之间存在相关性。因此,为了减小GF特征矢量的维度及相关性,这里对每一个GF特征矢量进行离散余弦变换(DCT),具体表示为:

(9)

G(i)={Cj(i)|j=1,…,26}

(10)

3实验结果与分析

实验所用的语音库是利用麦克风录制的,语音采用的是单声道,8 KHz的采样频率,16 bit量化。该语音库由20人录制的,每个人录制10段语音,时长分2、5和10 s不等,将每个人的4段语音作为训练样本集,另外6段语音作为测试样本集。混入噪声选自NOISEX-92标准噪声库[15]中的White噪声、Car噪声、Factory噪声,信噪比分别为-10、-5、0、5和10 dB。采用的识别方法是高斯混合模型(GMM),GMM的混合数是16。特征参数GFCC的提取采用64通道的Gammatone滤波器,实验数据表明,经过DCT变换后的GFCC参数,低26维系数占据了全部GFCC参数的主要特征信息,而高于26维的GFCC值都接近于0,提供的信息几乎可以忽略。因此本文采用26维GFCC作为特征向量,仿真结果如图8所示。

图8 仿真结果

为了获得经本文算法处理后的语音的听觉主观感受,采取主观MOS评分法,接受10位听众的听觉感受测试。听众根据处理后语音的清晰度、可懂度和噪声情况综合给出评分,然后记录不同算法处理后的MOS均分,如表1所示。

表1 主观MOS评分比较

从图8和表1中可以看出,本文算法的识别率和MOS评分要高于一般的语音去噪增强算法,不仅提高了信噪比,主观感觉到的噪声也明显降低,体现出了本文算法的优越性。

4结语

语音信号作为一种典型的非平稳性信号,容易受到噪声的污染。本文给出了一种将EMD+RLS作前处理,与Gammatone滤波器组相结合提取GFCC的说话人识别抗噪算法。实验结果表明,其识别率、鲁棒性及主观感受都优于传统的语音增强识别算法。GFCC能很好地模拟人耳基底膜特性,降低加性噪声的影响;EMD能很好地刻画信号的非平稳性;RLS能够实时自适应逼近噪声信号,提高语音信号的信噪比,进一步改善带噪语音信号的清晰度。然而,RLS 算法运算中增益g(n)是一个随着输入的不同而改变的函数,增加了运算量,在短时间内进行说话人识别时,识别的效果还需进一步改进。因此,如何简化本文的算法减少计算量,实现短时识别将是以后研究的重点。

参考文献

[1] Nilu Singh,R A Khan,Raj Shree.Applications of Speaker recognition[C]//International Conference on Modelling,Optimisation and Computing(ICMOC 2012),2012,38:3122-3126.

[2] Meng Jianliang,Zhang Junwei,Zhao Haoquan.Overview of the Speech Recognition technology[C]//Computational and Information Sciences(ICCIS),2012:199-202.

[3] Zhao Xiaojia,Shao Yang,Wang Deliang.CASA-based robust speaker identification[J].IEEE Transactions on Audio,Speech and Language Processing.United States,Institute of Electrical and Electronics Engineers Inc,2012,20(5):1608-1616.

[4] 许瑞杰.基于改进增益函数谱减法的语音增强技术研究[J].计算机工程与设计,2010,31(16):3681-3684.

[5] 杨畅.基于听觉掩蔽效应的改进谱减法算法研究[D].西安:西安电子科技大学,2009.

[6] 陈世雄,宫琴,金慧君.用Gammatone滤波器组仿真人耳基底膜的特性[J].清华大学学报:自然科学版,2008,48(6):1044-1048.

[7] Hawley S D,Atlas L E,Chizeck H J.Some properties of an empirical mode type signal decomposition algorithm[J].IEEE Signal Processing Letters,2008,17(1):3625-3628.

[8] Huang Daji,Zhao Jinping,Su Jilan.Practical implementation of Hilbert-Huang Transform algorithm[J].Acta Oceanologica Sinica,2003,22(1):1-14.

[9] 王辉,袁淑丹.基于EMD和功率谱熵的语音端点检测[J].电声技术,2013,37(11):40-44.

[10] 宋倩倩.基于Hilbert-Huang变换的语音信号时频分析[D].无锡:江南大学,2009.

[11] 李宁,徐守坤,马正华,等.自适应语音识别算法仿真研究[J].计算机仿真,2011,28(8):181-185.

[12] 王玥,钱志鸿,王雪,等.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3):525-528.

[13] Shao Yang,Jin Zhaozhang,Wang Deliang.An auditory-based feature for robust speech recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.United States,Institute of Electrical and Electronics Engineers Inc,2009:4625-4628.

[14] Zhang Wanfeng,Yang Yingchun,Wu Zhaohui,et al.Experimental evaluation of a new speaker identification framework using PCA[C]//IEEE International Conference on Systems,Man and Cybernetics,2003:4147-4152.

[15] 茅正冲,王正创,黄芳,等.基于GFCC与RLS的说话人识别抗噪系统研究[J].计算机工程与应用,2015(10):215-218.

[16] 胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-172.

A SPEAKER RECOGNITION ANTI-NOISE ALGORITHM BASED ON EMD AND RLS

Mao ZhengchongGong Xi

(KeyLaboratoryofAdvancedProcessControlforLightIndustry,MinistryofEducation,JiangnanUniversity,Wuxi214122,Jiangsu,China)

AbstractSpeech signal is a kind of typical non-stationary signal. In order to analyse the non-stationary characteristic of speech signal, in the paper we present a speech signal denoising pre-processor, which is based on the combination of empirical mode decomposition (EMD) and recursive least-squares (RLS) adaptive filter, and further improves SNR and speech intelligibility of signals. Then through Gammatone filter bank it deals with the denoised speech signals, and extracts the feature parameters GFCC of speaker speech signals. We conduct the simulation experiment in Gaussian mixture model recognition system. Experimental results show that applying the algorithm in speaker recognition anti-noise system, the recognition rate and robustness of the system are all obviously improved.

KeywordsAnti-noise systemEMDRLSRecognition rate

收稿日期:2014-11-25。国家自然科学基金项目(60973095);江苏省自然科学基金项目(BK20131107)。茅正冲,副教授,主研领域:机器人视听觉识别。龚熙,硕士生。

中图分类号TP391.4

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.058

猜你喜欢
特征参数耳蜗信噪比
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
耳蜗微音器电位临床操作要点
冕洞特征参数与地磁暴强度及发生时间统计
基于深度学习的无人机数据链信噪比估计算法
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究
DR内听道像及多层螺旋CT三维重建对人工耳蜗的效果评估
豚鼠耳蜗Hensen细胞脂滴的性质与分布
保持信噪比的相位分解反褶积方法研究