薛梅,周南
(电子科技大学 电子工程学院,四川 成都 610054)
人类语音的频带信息主要分布在50 Hz~8 kHz的频率范围之间。但是,由于在传输过程中受到位率等因素的影响,电话语音的频带被限制在300 Hz~4 kHz的范围内,降低了语音的可懂度,听起来也不太自然。为了在不增加额外成本的前提下得到宽带语音,提高语音的可懂度和自然度,人们进行了语音带宽扩展算法的研究。目前的语音带宽扩展算法通常是基于线性源滤波器模型,该模型主要包括两个部分:宽带谱包络的估计和宽带激励信号的估计。宽带语音信号由宽带激励信号通过宽带谱包络合成滤波器生成。带宽扩展的关键就是如何利用窄带信号估计宽带激励信号和宽带谱包络。
当前,带宽扩展算法中宽带激励信号的估计方法以谱折叠、白噪声激励、谐波噪声模型最为典型。
迄今为止,谱包络扩展算法主要有线性映射法、码本映射法和统计映射法。线性映射法模型过于简化,估计得到的高频带谱包络失真较大;统计映射法无法找到表示谱包络的最佳特征,并且特征之间没有良好的区分标准;码本映射法能有效地估计窄带特征与宽带特征之间的相关性,得到良好的宽带谱包络系数,并且计算量小,实时性好。因此,码本映射法是最常用的映射法。
本文提出的加权的码本映射算法比传统的码本映射法得到的带宽扩展效果更好。
宽带谱包络的估计一般是通过提取窄带信号的特征参数然后结合预先训练得到的宽带谱包络信息来估计输入信号的宽带谱包络。
基于码本映射法的带宽扩展算法大都源于信号压缩中的矢量量化技术[1]。矢量量化就是用一个预先训练好的码本按照某一预定义好的距离测度来编码输入矢量,从而用码本中最接近输入矢量的码本矢量来表示输入矢量。设计矢量量化器的主要任务是设计码本。
带宽扩展算法的码本映射法使用两个码本,一个用于窄带矢量,另一个用于宽带矢量。这两个码本一起训练,并且它们之间存在一一对应的关系。码本映射过程为通过窄带码本搜索与输入的窄带特征矢量最接近的码字矢量,然后将最佳的窄带码字索引映射到宽带码本,使用相应的宽带特征矢量来估计丢失的谱包络[2]。
在码本映射的过程中,预测的宽带谱包络的数量会受到码本容量的限制。用加权的方式对宽带码本进行插值可以有效地减少这一限制。对某个输入的窄带谱包络矢量选择N个相近的窄带码本包络矢量,通过码本映射找到N个相应的宽带码本矢量。然后对这N个宽带码本矢量进行加权得到最终需要的宽带谱包络矢量。用w1,w2,…,wN对宽带谱包络向量进行加权求和。如图1所示为N=3时估计宽带谱包络特征的加权求和。其中,n表示码本容量,一般为2的整数次幂。
图1 加权的码本映射(N=3)Fig.1 Weighted codebook mapping(N=3)
激励源包含了关于语音谐波结构的重要信息,因而其在合成宽带谱的精细结构时是必不可少的。主要的宽带激励方法有以下几种:
l)脉冲和噪声激励[3];
2)非线性失真[4];
3)谱折叠[5];
4)谱平移。
脉冲和噪声激励由于仅使用二元激励而导致恢复出的语音效果有很大局限。非线性失真的主要缺点是由整流产生的频谱成分有很大的不可预见性。因此,它经常产生类似噪声的高频成分,尤其是在语音为浊音时。谱折叠和谱平移的方法源于对基带编码器的研究,这两种方法是目前的带宽扩展里宽带激励源再生方法中使用最广泛的方法。
谱折叠的实现方法很简单,将残差信号直接上采样即可,如图2所示。从语音信号线性预测分析的原理可知,浊音的残差信号具有很强的周期性。因此,窄带残差信号幅度谱的低频段具有明显的谐波结构,谱折叠会给宽带激励信号的高频段带来明显的谐波分量,这会使重建后的宽带语音缺乏自然度。
图2 谱折叠的实现过程Fig.2 The implementation of spectral fold
谱平移的实现方法如图3所示。从图中可以看出,谱平移在实现过程中需要经过两次滤波,因此谱平移的实现要比谱折叠复杂。但是,谱平移可以有效地减弱使用谱折叠时由明显的谐波结构而引起的缺乏自然度的宽带语音信号。因此,谱平移的实际效果要好于谱折叠。在本文中使用谱平移的方法来产生宽带激励信号。
图3 谱平移的实现过程Fig.3 The implementation of spectral translation
在本文设计的带宽扩展系统中,宽、窄带特征都用的是线谱对系数(LSP),因为它有很好的插值特性[6-7]。为了提高估计宽带语音谱包络的准确性,将映射码本分为浊音码本和清音码本。带宽扩展结构框图如图4所示。
图4 语音带宽扩展结构框图Fig.4 Block diagram of speech bandwidth extention
训练语音为从TIMIT语音数据库中提取的时长为20 s、采样率为8 kHz的窄带语音和其对应的时长为20 s、采样率为16 kHz的宽带语音。测试语音先用此训练语音中的窄带语音,然后用从TIMIT语音数据库中提取的,但是时长为100 s的,而且说话者不同于训练语音中的窄带语音。
Mel滤波器组个数为20。LSP参数设定为10维矢量。训练采用LBG算法,码本容量为1024。码本映射中,N=5,w1=w2=…=wN=1/N。在重建语音时,窄带语音帧长为160样点,恢复出的宽带语音帧长为320样点(帧延时20 ms)。
为了测试此算法的有效度,对估计带宽信号和原始带宽信号进行对比,先用训练语音中的窄带语音做为测试语音。这样,在理想情况下,重建后的估计宽带信号就应该是训练语音中的宽带语音,即原始语音。看此算法的带宽扩展情况最直观的方法除了直接听(主观测试,3.4中介绍)以外就是看频谱图。图5所示为原始宽带语音(上图)和估计宽带语音(下图)的频谱图。观察可知,它们的频谱包络几乎是相同的,这就说明从窄带语音中恢复宽带语音就达到了很好的带宽扩展效果。
图5 估计宽带语音与原始宽带语音的频谱图Fig.5 The frequency spectrum of estimated wideband speech and original wideband speech
所谓客观测试就是用一定的标准来度量估计宽带语音谱包络与原始宽带语音谱包络之间的区别,也就是估计宽带语音相对于原始宽带语音的失真度,将估计宽带语音的质量量化。
3.4.1 宽带谱失真测度
本文使用的失真测度为:
其中,
Ak(w)和 A′k(w)分别为第 k 帧原始语音和合成宽带语音的谱包络;ws为宽带语音信号采样频率(16 kHz)。补偿增益因子GC可以有效地去除两个原始包络之间的均方误差。此失真测度只测试谱包络之间的失真。
3.4.2 客观测试结果
客观测试结果如表1中所示。
表1 客观测试结果Tab.1 Objective test result
主观测试就是用人对听到的语音的主观感觉来判断听到的语音(估计宽带语音)的质量,并对其进行评分。
3.5.1 主观测试标准
本文的主观测试采用MOS评分。MOS(Mean Opinion Score)即平均意见评分,是目前国际上最常用的主观评分方法。具体评分标准见表2。
表2 主观测试标准Tab.2 Subjective test standard
3.5.2 主观测试结果
测试结果如表3所示。
表3 主观测试结果Tab.3 Subjective test result
在人工带宽扩展算法的研究中,算法的选择是首要的。但是除此之外,还有以下几个问题值得注意:
1)滤波器的选取。不同类型的滤波器达到的滤波效果不一样。在本文中,用的是5阶椭圆滤波器。因为椭圆滤波器相比其他类型的滤波器,在阶数相同的条件下有着最小的通带和阻带波动。
2)包络特征的选取。合适的包络特征可以给算法的实现带来很大的帮助。在本文中使用的是语音信号的线谱对参数(具体原因在第三节一开始有介绍)。
3)码本容量的选取。码本容量过小就达不到好的带宽扩展效果,过大则会增加计算复杂度。
4)对比图5中上下两图可知,虽然频谱很相似,但是在其开始部分和频率为4 kHz处的幅度是不一样的。这是需要改进和继续研究的地方。
本文在现有带宽扩展算法的基础上提出了一种加权码本映射的语音带宽扩展算法,灵活地运用了宽窄带谱包络特征之间一一映射的原理,减少了区间划分带来的误差。主、客观测试表明,加权的码本映射法优于一般的码本映射法,其产生的谱包络失真更小,能带来更好的带宽扩展效果,使得扩展后的语音具有更好的可懂度和自然度。
[1] 陈善学,李方伟.矢量量化与图像处理[M].北京:科学出版社,2009.
[2] Hu R,Krishnan V,Anderson D V.Speech bandwidth extension by improved codebook mapping towards increased phonetic classification[J].Interspeech,2005:1501-1504.
[3] Avendano C,Hermansky H,Wan E A.Beyond Nyquist:Towards the recovery of broad-bandwidth speech from narrowband width speech[C]//Fouth European Conference on speech communication and Technolgy,1995:165-168.
[4] McCree A.A 14 kb/s wideband speech coder with a parametric highband model[C]//IEEE International Conference on Acoustics, Speech, Signal Processing,2000(2):1153-1156.
[5] 窦庚欣.4 kb/s快速 DP-CELP语音编码与频带扩展技术研究[D].北京:北京工业大学,2006.
[6] Jax P.Artificial bandwidth extension of speech signal[C]//ICASSP, 2003:78-88.
[7] Neuendorf M,Gournay P,Multrus M,et al.Unified speech and audio coding scheme for high quality at low bitrates[C]//ICASSP,2009:1-4.