基于双门限算法的端点检测改进研究∗

2017-12-18 06:21王满洪张二华王明合

计算机与数字工程 2017年11期

关键词：辅音门限端点

王满洪张二华王明合

（南京理工大学模式识别与人工智能实验室南京 210094）

基于双门限算法的端点检测改进研究∗

王满洪张二华王明合

（南京理工大学模式识别与人工智能实验室南京 210094）

端点检测技术是语音识别中的一个重要步骤，其准确性直接影响语音信号处理的效率，近年来对语音信号端点检测技术的研究一直是语音信号处理的热点。传统的双门限端点算法在实验室环境下检测结果较为准确，但在复杂信道环境下，正确率大大下降。针对传统双门限算法的局限性，论文提出了一种基于二级判决的改进方法。该算法采用短时振幅来构造过零“带”，增强复杂环境下过零率的抗干扰性。同时增设辅音能量阈值和疑似辅音阈值，解决清辅音丢失以及无声段混入问题。实验结果表明，该方法在复杂信道条件下端点检测正确率有较大提高。

端点检测；双门限算法；短时能量；短时过零率；复杂信道

1 引言

一段语音信号通常可以分为静音段、噪声段、过渡段和有声段。有声段又分为浊音和辅音，说话人个性特征主要包含在浊音当中［1］。在语音信号处理中，要运用端点检测技术对语音信号进行分割，从包含语音的一段信号中确定出语音的起点及结束点，提取有效语音段后，再进行特征提取等后续操作。这样可以排除静音或纯噪声段的干扰，减少语音系统的运算量并提高正确性。

常用的端点检测方法有能量阈值、基音检测、频谱分析、倒谱分析及LPC预测等。其中基于能量和过零率的双门限判决法最为常用［1］。在低信噪比的条件下，传统的双门限算法识别率大大下降，特别在复杂信道下的说话人识别中，识别结果很不理想。本文针对二级判决进行改进，以提高端点检测结果的鲁棒性。

2 时域参数

2.1 短时能量

短时能量是语音信号时域的一个重要特征参数，反映能量随时间的变化。对于语音信号x(n)，第n帧短时能量定义为

其中h(n)=w(m)2，N为帧长，w(m)为窗函数。从式（1）可以看出，短时能量可以看做语音信号的平方经过一个线性滤波器的输出，滤波器的冲击响为h(n)。故而窗函数的选择决定了短时能量表示方法的特点。本文选择主瓣变化较平滑的汉明窗。

由于浊音比清音能量大的多，短时能量可以用于有效区分清音和浊音；其次，可以用短时能量对有声段和无声段进行判定，对声母和韵母分界等；也可当做一维特征参数用于语音识别系统中。

短时能量对高电平非常敏感，实现时容易产生溢出［2］。可以采用短时平均振幅来替代，公式为：

2.2 短时平均过零率

短时平均过零率是指每帧内信号通过零值的次数。对于连续语音信号，可以观察其时域波形通过时间轴的情况；对于离散信号，短时平均过零率就是信号采样点符号变化的次数。短时平均过零率仍可以在一定程度上反映其频谱性质，可以通过短时平均过零率获得谱特性的一种粗略估计。定义语音信号xn(m)的短时过零率为：

其中，sgn［］是符号函数。对于语音信号，清音的短时能量虽然低，易判为无声段，但它的短时过零率明显大于浊音部分，因此可以使用过零率来区分清音和浊音。

3 传统双门限算法

传统的基于双门限判决的端点检测算法主要分为两大步骤。第一步，设置两个能量阈值：高能量阈值EH和低能量阈值EL。此时，语音信号可以划分为无声段、过渡段和语音段，如图1所示。在无声段，当能量参数超过低能量阈值EL时，标记为进入过渡段，过渡段一般为辅音，也就是汉语中的声母；在过渡段，如果能量参数回落到低能量阈值EL以下时，标记为恢复到无声段；若能量参数超过高能量阈值EH，则表示进入了语音段；在语音段，当能量参数回落到低能量阈值EL以下时，则标记为结束点。第二步，利用短时平均过零率对判决结果进行补充。由于清音的短时平均过零率要明显高于浊音和静音，因而使用短时平均过零率就可以很好的将清音和无声段区分开来。

图1 语音信号划分图

然而传统的双门限判决方法仅在高SNR环境下有较好结果，而在固定电话信道等复杂信道条件下识别效果大大降低。研究表明，一些突发性的随机噪声或背景噪声往往会引起短时能量或短时过零率的数值很高，造成误判或找不到语音段的起止端点［7］。下面将针对传统双门限的这种局限性作出改进。

4 改进的双门限端点检测算法

本章针对传统双门限算法的两大判决阈值，短时能量和短时过零率，分别做出改进。然后给出改进后的双门限端点检测算法的判决步骤。

4.1 增设辅音能量阈值

对传统双门限端点检测算法，实验测试后发现其检测辅音时仅考虑了短时过零率，只要满足条件：过零率参数Z≥ZH，就判断为了辅音，忽略了能量的限制，造成大量能量微弱的无声段混入辅音，如图2所示。

图2 “这”字原始语音与时域特征参数

从图2中可以看出，“这”字的前面无声段部分过零率比较高，容易被判断为辅音段。因此，增加一个辅音能量阈值Ec：

其中Eave为语音信号所有帧的平均能量，α1为0到1之间的变量。这样，判断一帧为可靠辅音的条件就修改为：当 EC≤E＜EL，且Z≥ZH，即使用短时能量和短时过零率双重检测辅音。

4.2 增设疑似辅音阈值

实验测试发现，清辅音在起始阶段能量较强，尾部接近元音时能量反而减弱，或者过零率迅速下降，导致误判为无声段，造成辅音与元音中断，从而导致整个辅音段丢失，图3为汉语中“去”字语音的短时能量与短时过零率：

图3 “去”字原始语音与时域特征参数

从图3可以看出，“去”字的声母为清辅音，在接近元音部分时，能量参数和过零率参数极速下降，不利于端点检测的判断。因此，增加一个疑似辅音的能量阈值Es：

当满足条件：ES≤E＜EC且 Z≥ZH时，或者EC≤E＜EL且 Z≤ZH时，即能量达标或过零率达标，则判断为疑似辅音段。若二者均未达标，则作为无声段予以排除。疑似辅音段在依靠辅音段的条件下可以合并到辅音中去。

4.3 改进过零率

在固定电话等噪声环境下，信道随机噪声使短时过零率发生明显变化。背景噪声的短时过零率增大，容易将无声段混入辅音段，严重影响检测效果。

对于过零率不再以过“零”来计算，而应设置上下门限，将过零率修改为跨过正负门限的次数。过零率公式修改为

该公式的含义为：既跨了上门限T，也跨了下门限 -T，计算为1次过“零”；若只跨了上门限而未跨下门限，只算半次过“零”；同理，若只跨了下门限而未跨上门限，也只算半次过“零”。这样计算的短时平均过零率有一定的抗干扰能力。即使存在较小的信道随机噪声，只要它不超过正负门限所约束的带，就不会产生虚假的过零率。

图4中每个折点为一个数据点，从样本点 X1到X10，只算一次过零率，而不是传统方法的6次过零率。可见，过零“带”能很好地解决信道随机噪声环境下端点检测的困扰。

图4 样本信号击穿过零“带”示意图

一般情况下，训练语音开始部分存在一小部分无声段，其中包含的就是背景噪声信息。因此，可以用语音文件前N帧中振幅值最小的β帧平均值对端点检测门限T赋初值。

图5显示的是固话条件下改进过零率前后过零率曲线对比，由于信道噪声影响，图5（a）中元音部分的过零率甚至低于静音段，这就造成大量静音段误判为辅音。从图5（b）可以看到，静音段的过零率大大降低，无声段与语音段的区分更明显，更有利端点检测正确的判断。

图5 固话条件下改进过零率前后过零率结果对比

4.4 改进算法判决准则

表1给出了双门限算法改进后端点检测的判决方法，其检测步骤如下：

1）首先计算各帧的短时能量、短时过零率等时域特征参数，初始化能量和过零率阈值。

2）第一次帧循环，找出E≥EH的强振幅语音帧，这是能独立存在的主音段，是过渡段以及标准辅音段的依赖。

3）第二次帧循环，搜索EL≤E＜EH的中振幅语音帧（无论过零率大小），主要为临近主音段的过渡帧或标准辅音帧（这两种语音帧可相互作为桥梁与主音段连通），将其合并至与其连续的主音段。

4）第三次帧循环，寻找疑似辅音帧，若疑似辅音帧与右侧中振幅语音帧连续，则合并。

5）再次帧循环，读取各帧端点标记信号，查重补漏，完成整体语音段的端点检测。

表1 语音段判断方法

5 实验结果与分析

5.1 实验环境

实验数据来自南京理工大学NJUST603语音库，库中含有423人录音，男生210，女生213，每人有三段数字录音，四段文本录音。录制时同时采用麦克风，固定电话和手机信道分别录音。所以，每个说话人有三种信道下的7段录音。采样频率为1.6kHz，采样精度为16位，帧长 32ms，512个数据点，帧移16ms。在Win7系统VS平台对三种信道下改进的端点检测算法进行实验。

5.2 结果分析

实验抽取语音样本中的一段“韩纪庆”作为本次实验样本，包括固定电话和麦克风两种信道情况下的实验测试。实验结果图中，用实线表示语音段的开始，虚线表示语音段的结束。实线到虚线，表示一个语音段，虚线到实线，表示静音段。

图6表示麦克风条件下双门限端点检测结果，从图6（a）中可以看出，传统双门限大致可以检测出语音端点，但并不准确，“韩”音节的辅音段前部分和元音段后部分都被丢弃一小部分，“纪”音节和“庆”音节的元音末尾也有一些丢失；但图6（b）在同样麦克风条件下，使用改进的双门限端点检测后，图6（a）中存在的情况得到很好的改善，端点检测结果非常理想。由图6可以看出，改进双门限算法后的优势很明显，可以完整提取出语音的声母和韵母。

图6 麦克风条件下改进双门限算法前后端点检测结果对比

图7 测试的是固定电话条件下的录音信号。从语音信号波形上看，由于固话信道随机噪声的影响，固定电话录音波形比麦克风录音波形更稀疏，它的振幅更小，静音部分比较粗糙。可以看到图7（a）中，传统双门限检测结果基本失效，这是因为固话信道条件下，随机噪声的大量增加，导致传统过零率检测方法检测出来的结果已经失去过零率的意义，静音部分的过零率甚至超过了辅音段，必然会导致检测结果的失败。而图7（b）中，在改进双门限端点检测方法后，可以完整识别出每一段语音，结果非常理想。

图7 固定电话下改进双门限算法前后端点检测结果

图8 表示的是手机信道下的双门限端点检测算法改进前后的实验结果对比。从波形上看，特别是在无声段部分，它比麦克风语音要粗糙，但比固话语音要清晰。在图8（a）中传统的双门限算法能成功检测出两段语音，但是“纪”字被丢失。而在改进端点检测算法检测后，如图8（b），可以完整并精确地找到每一段语音的起止点。

图8 手机信道下改进双门限算法前后端点检测结果

为了进一步检验改进的双门限端点检测算法的性能，对三种信道下的端点检测结果正确率进行计算并统计。端点检测的正确率计算公式为：

表2为麦克风、固定电话和手机三种信道下的双门限端点检测算法改进前后识别率：

表2 不同信道下端点检测结果对比 %

在固定电话，手机和麦克风三种信道下，随机噪声的影响逐渐减弱。传统的双门限法在麦克风条件下的实验结果能达到82.5%，但表2中可以看到，在手机和固定电话下，识别结果大大下降。改进算法后，同样可以看到，三种信道下的识别正确率都有很大的提高，鲁棒性更强。

6 结语

复杂信道下的鲁棒性说话人识别技术一直是语音识别研究的重难点［8～12］，说话人的个性特征主要蕴含在浊音中，静音段和噪声段会降低识别结果。而端点检测可以用来提取有效数据帧，所以，复杂信道下的端点检测技术研究是很有必要的。文中通过改进传统双门限端点检测技术，经大量数据测试，实验效果理想。在实际应用中，需要调整不同信道下的参数阈值，以得到最佳实验效果。把改进算法结合好复杂信道下的说话人识别将是下一步工作研究的重点［13］。

［1］韩纪庆，张磊，郑铁然.语音信号处理［M］.北京：清华大学出版社，2004：32-50.HAN Jiqing，ZHANG Len，ZHEN Tieran.Speech Signal Processing［M］.Beijing：Tsinghua university press，2004：32-50.

［2］胡光锐.语音处理与识别［M］.上海：上海科学技术文献出版社，1994：23-29.HU Guangrui.Speech Processing and Recognition［M］.Shanghai：Shanghai science and Technology Literature press，1994：23-29.

［3］夏敏磊.语音端点检测技术研究［C］.杭州：浙江大学，2005：11-20.XIA Minlei.Research on speech endpoint detection technology［C］.Hangzhou：Zhejiang university，2005：11-20.

［4］张志仁，崔慧娟.基于短时能量的语音端点检测算法研究［J］.电声技术，2005，52（7）：51-62.ZHANG Zhiren，CUI Huijuan.Speech Endpoint Detection Algorithm Analyses Based on short-term Energy［J］.Audio Engineering，2005：52（7）：51-62.

［5］路青起，白燕燕.基于双门限两级判决的语音端点检测方法［J］.电子科技，2012，25（1）：13-15.LU Qingqi，BAI Yanyan.A Speech Endpoint Detection Algorithm Based on Dual-threshold Two Sentence［J］.Electronic Science and Technology，2012，25（1）：13-15.

［6］Deller J R，Proakis J G，Hansen J H L.Discrete-Time Processing of Speech Signals［M］.New York：Macmillan，1993：20-40.

［7］陈振华，徐波.基于子带能量特征的最优化语音端点检测算法研究［J］.声学学报，2005，30（2）：171-176.CHEN Zhenhua，XU Bo.Optimization of Speech endpoint detection base on sub-band energy feature［J］.Acta Acustica，2005，30（2）：171-176.

［8］WuGinDcr，Lin ChinTeng.Word boundary detection with mel-scale frequency bank in noisy environment［C］//IEEE Transactions on Speech and Audio Processing，2000，8（5）：540-553.

［9］Wang HuanLian，Han jiqing，Lihaifeng.Robust endpoint detection based on feature weighted likelihood and dimension reduction［J］.Acta Acoustica，2007，32（1）：62-68.

［10］林兴华，肖熙.基于多子带能量和基音特征的语音端点检测方法［D］.北京：清华大学，2011，35（9）：34-37.LIN Xinhua，XIAO Xi.Speech Endpoints Detection Method Based On Sub-bands Energy and Pitch Characteristics［D］.Beijing：Tsinghua university，2011，35（9）：34-37.

［11］Canny J.A computational approach to edge detection［C］//IEEE Trans on Pattern Analysis and Machine Intelligence，1986，8：677-695.

［12］冉国敬，夏秀渝，张凤仪.信道失配环境下鲁棒说话人识别［J］.计算机系统应用，2015，24（3）：1-5.RAN Guojing，XIA Xiuyu，ZHANG Fengyi.Robust Speaker Recognition Under Channel Mismatch Environment［J］.Computer Systems and Application，2015，24（3）：1-5.

［13］G.Suvarna Kumar，K.A.Prasad Raju，et al.Speaker Recognition Using GMM［J］.International Journal of Engineering Science and Technology，2010，2 （6）：2428-2436.

Research and Improvement on Endpoint Detection Based on Dual-threshold Algorithm

WANG ManhongZHANG ErhuaWANG Minghe

（Laboratory of Pattern Recognition and Artificial Intelligence，Nanjing University of Science and Technology，Nanjing 210094）

The technology of endpoint detection which has been the focus of speech processing in recent years is an important step of speech recognition，and it has a great influence on speech processing，speech recognition and speaker identification etc.For clear speech，The traditional dual-threshold algorithm is accurate，however，it's greatly reduced while in the complex channel environment.Aiming at the limitations of the traditional dual-threshold algorithm，an improved method based on two sentences is proposed in this paper.In order to enhance the anti interference of zero rate in the complex environment，the short term amplitude is used to construct the zero band.At the same time，the energy thresholds of the consonants and suspected consonants are used to solve the problem of the loss of the voiceless consonants and the mixing of the silent voice segment.Experimental results prove that the proposed method can improve the endpoint accuracy obviously，although in the background of complex channel.

endpoint detection，dual-threshold，short-term energy，short-term zero rate，complex channel

TN912

10.3969/j.issn.1672-9722.2017.11.030

Class Number TN912

2017年5月13日，

2017年6月17日

王满洪，男，硕士研究生，研究方向：语音信号处理。张二华，男，博士后，副教授，硕士生导师，研究方向：微地震检测与语音信号处理。王明合，男，博士，研究方向：语音信号处理。