飞机驾驶舱噪声环境下的飞行员语音端点检测

2018-01-19 00:53,,,
计算机工程 2018年1期
关键词:子带端点正确率

, ,,

(上海交通大学 a.航空航天学院; b.电子信息与电气工程学院,上海 200240)

0 概述

民用航空飞行安全是民用航空器有效运行的基础[1]。当前,航空人为因素已经成为导致飞行事故最为主要的因素。飞机驾驶舱中的人为因素研究作为航空人为因素研究的重点,需要准确地识别和测量出飞行员的行为或动作,例如通信、导航、执行检查单等,从而评价飞行员的工作负荷,对飞机驾驶舱的设计或飞行员操作流程进行改进,避免由于飞行员任务负荷过重导致的人为操作错误[2]。

飞行员语音信息是分析飞行员行为或动作的重要依据,利用语音端点检测(Speech Endpoint Detection,SED)技术可以提取语音记录中的飞行员语音[3]。然而飞机驾驶舱中的噪声环境十分复杂,包括发动机噪声、飞机飞行时外部气流紊流声、机舱内被操纵器件的活动声、空调噪声等,使得在低信噪比的情况下,基于线谱频率、全带宽信号能量、低频带信号能量或过零率的传统语音端点检测方法的检测效果急剧下降[4]。

有研究表明,语音的共振峰频率信息能更有效地体现语音信号的时变特性[5]。基于此结论,文献[6]利用谱减法进行降噪,并将降噪后语音的子带谱熵作为判决参数实现语音端点检测。但是谱减法比较适用于噪声平稳的条件,其对于非平稳的、复杂的航空背景噪声抑制能力较弱,且在降噪过程中会产生音乐噪声[7]。子带谱熵能有效地区分语音和噪声,但在有嘈杂人声时性能较差,而此时语音与噪声的能量仍是超过噪声的,因此,文献[8]引入一种结合熵与能量的判决参数,但该文献方法在低信噪情况下性能不稳定。

针对飞机驾驶舱中的强噪声环境,本文结合最优改进对数谱幅度估计(Optimally Modified Log-Spectral Amplitude Estimator,OM-LSA)语音增强算法与Teager能量算子(Teager Energy Operator,TEO),提出一种鲁棒语音端点检测方法。首先通过OM-LSA算法对含噪语音数据进行初步降噪处理;然后利用TEO对噪声的抑制作用进一步滤除残留的噪声,降低其对语音端点判决的干扰;最后整合降噪后语音的能量值与谱熵得到端点检测的判决参数,实现强航空背景噪声环境下对飞行员语音端点的有效检测。

1 检测原理

1.1 OM-LSA算法

OM-LSA算法作为一种单通道频域语音增强算法,能够适应多种噪声环境,在保护较弱语音信号分量的同时,可避免音乐噪声的产生。该算法对于低输入信噪比和非平稳噪声尤其有效[7]。假设语音信号为s(n),叠加一个不相关的噪声信号u(n),构成含噪语音信号y(n):

y(n)=s(n)+u(n)

(1)

其中,s(n)和u(n)是统计独立的。

对含噪语音信号y(n)加窗分帧处理后,得到第i帧语音信号yi(m),通过短时傅里叶变换求yi(m)的傅里叶变换系数,如式(2)所示。

Y(k,i)=S(k,i)+U(k,i)

(2)

其中:k为频率分量;i为帧数。

OM-LSA算法是基于最小均方误差的对数幅度谱估计器,对于符合高斯分布的语音和噪声信号,可以通过式(3)估计语音信号的傅里叶变换系数。

(3)

语音存在时的增益函数GH1可以根据下式估计得到:

(4)

其中,υξγ/(1+ξ)。

(5)

1.2 Teager能量算子

TEO是一个强大的非线性算子,可以跟踪调制能量并识别瞬时幅度和频率[10-11]。TEO对噪声具有抑制作用,可以进一步滤除含噪语音信号经OM-LSA算法处理后残留的噪声[12]。

在离散时间条件下,s(n)的TEO定义如式(6)所示,含噪语音信号y(n)的TEO如式(7)所示。

Ψd[s(n)]=s(n)2-s(n+1)s(n-1)

(6)

Ψd[y(n)]=Ψd[s(n)]+Ψd[u(n)]+

(7)

从上述推导可以看出,TEO主要提取的是含噪语音信号中语音的能量。图1显示了含噪语音信号y(n)和Ψd[y(n)]的语谱图,y(n)的信噪比为10 dB。

图1 语谱图对比

对比语谱图可以看出,TEO不仅抑制了噪声能量,并且在保留语音信号能量的同时,突出了语音的共振峰信息。

1.3 短时能量与子带谱熵

设各帧语音信号yi(m)的帧长为N,短时能量指各语音帧的能量,其定义如下:

(8)

图2为y(n)和Ψd[y(n)]的短时能量曲线。可以看出,y(n)的能量值是噪声能量与语音能量的叠加,而Ψd[y(n)]的能量值曲线能较好地跟踪纯净语音信号能量的变化,且在噪声段更平滑。

图2 短时能量曲线对比

谱熵反映了离散信源在频域内幅值分布的无序性。将熵值作为特征参数进行端点检测的实验结果表明,语音的熵与噪声的熵存在较大区别[13]。

子带谱熵的提出是为了消除每一条谱线幅值受噪声影响的问题,其将每帧语音信号的全频带均匀地分成Nb个子带,语音信号第i帧的第w个子带的能量谱为:

(9)

相应地,每帧各子带的归一化概率密度pb(w,i)和每帧的子带谱熵Hb(i)分别为:

(10)

(11)

图3为y(n)和Ψd[y(n)]的子带谱熵曲线。可以看出,当语音信噪比下降时,子带谱熵对语音和噪声的区分性也相应下降。

图3 子带谱熵曲线对比

1.4 端点检测方法

本文结合OM-LSA语音增强算法和TEO对飞行员语音记录中的航空背景噪声进行抑制,然后计算降噪后语音信号的短时能量与子带谱熵。从图2和图3可以看出,在语音中的有话区间,短时能量曲线是向上凸起的,而子带谱熵曲线却相反,其在有话区间向下凹陷。若将两者的比值作为双门限判决的参数,则可以放大有话区间的判决参数值,从而实现强航空背景噪声环境下的飞行员语音端点检测。基于上述分析,本文方法的检测过程如图4所示。

图4 语音端点检测过程

(12)

图5为y(n)和Ψd[y(n)]的归一化能熵比曲线。可以看出,基于TEO的能熵比曲线增强了语音与噪声段的区分性,且在噪声段更平滑。

图5 能熵比曲线对比

利用能熵比检测语音端点的主要步骤如下[14]:

1)选取一个较高的阈值(门限)T2对EERTEO(i)进行一次粗判,高于T2的肯定是语音。

2)选取一个较低的阈值(门限)T1,从1)中的交汇点向两旁扩展搜索,分别找到EERTEO(i)与T1相交的2个点,将其判定为语音的起止点。

2 实验与结果分析

2.1 实验场景及数据

实验中的飞行员语音记录采集自如图6所示的驾驶舱中。

图6 实验场景

在飞行过程中,通过头戴式麦克风采集飞行员语音,采样率为8 kHz,采样精度为16 bit,帧长选择25 ms,帧移为10 ms。实验对10段语音数据(总时长为48 min)进行检测,计算检测正确率与错误率的平均值。

2.2 实验方法

首先利用OM-LSA语音增强算法对飞机驾驶舱中的语音记录做增强处理,然后对基于短时能量与过零率比值的检测算法(EZR)[15]、基于短时能量与谱熵比值的检测方法(EER)以及本文方法进行比较,具体过程如图7所示。

图7 实验过程

2.3 评价指标

对飞机驾驶舱中的飞行员语音记录进行人工标定起止点,将算法检测结果与手工标定的起止点进行比较,通过以下3个客观评价指标来评价端点检测方法的性能[5]:

1)语音帧检测正确率,如式(13)所示。

PS=TS/frameS

(13)

其中:TS为语音信号中被正确判断为语音帧的帧数;frameS为手动标定为语音帧的总数。

2)噪声帧检测正确率,如式(14)所示。

PN=TN/frameN

(14)

其中:TN为语音信号中被正确判断为噪声帧的帧数;frameN为手动标定为噪声帧的总数。

3)检测错误率,如式(15)所示。

PF=(FN+FS)/(frameS+frameN)

(15)

其中:FN为被错误判断为语音帧的噪声帧数;FS为被错误判断为噪声帧的语音帧数。

2.4 结果分析

图8(a)和图8(b)为一段原始飞行员语音数据及其语谱图,在136 Hz~2 170 Hz的频率范围内,语音信号的频谱被噪声的频谱遮掩,在2 170 Hz~4 000 Hz频率范围内,可见语音信号的频谱。图8(c)和图8(d)为语音经过OM-LSA算法初步降噪后的语音数据及其语谱图,其中中低频的噪声能量被滤除,可见语音信号的频谱,但在2 170 Hz~4 000 Hz频率范围内仍有能量较小的噪声残留。利用TEO进一步降噪后的端点检测结果标记在图8(c)中。

图8 语音端点检测结果

对飞行员语音数据集进行测试,得到的平均检测正确率和错误率如表1所示。可以看出,本文方法在对语音帧和噪声帧检测的平均正确率上,均高于EZR和EER方法。

表1 3种方法的检测性能对比 %

3 结束语

提取飞行员语音记录中的飞行员语音信息,对于分析飞行员的行为或动作起到关键的作用,也是驾驶舱人为因素研究的重点。针对飞机驾驶舱中的强噪声环境,以及基于能量参数和基于频谱熵参数方法在低信噪比情况下的局限性,本文提出一种结合OM-LSA语音增强算法与TEO的语音端点检测方法。首先利用OM-LSA算法对飞行员语音数据初步降噪;然后通过TEO做进一步的噪声滤除,减少其对端点检测的干扰;最后将降噪后语音的能量与频谱熵比值作为端点检测的判决参数,实现强航空背景噪声下的飞行员语音端点检测。实验结果表明,本文方法对语音帧和噪声帧的平均检测正确率可达95.6%和92%,能准确获取飞行员语音信息。后续工作将改进端点检测过程中所使用的判决参数,进一步提高检测正确率。

[1] KRAUSE S.Aircraft Safety:Accident Investigations,Analyses,& Applications[M].[S.l.]:McGraw-Hill Professional,2003.

[2] SHAPPELL S A,WIEGMANN D A.A Human Error Approach to Aviation Accident Analysis:The Human Factors Analysis and Classification System[M].[S.l.]:Ashgate Publishing,Ltd.,2012.

[3] KOLA J,ESPY-WILSON C,PRUTHI T.Voice Activity Detection[EB/OL].[2016-10-10].http://ece.umd.edu/merit/archives/merit2011/merit_fair11_reports/report_Kola.pdf.

[4] BENYASSINE A,SHLOMOT E,SU H Y,et al.ITU-T Recommendation G.729 Annex B:A Silence Compression Scheme for Use with G.729 Optimized for V.70 Digital Simultaneous Voice and Data Applications[J].IEEE Communications Magazine,1997,35(9):64-73.

[5] WANG K C,TASI Y H.Voice Activity Detection Algorithm with Low Signal-to-Noise Ratios Based on Spectrum Entropy[C]//Proceedings of the 2nd Inter-national Symposium on Universal Communication.Washington D.C.,USA:IEEE Press,2008:423-428.

[6] JIN Li,CHENG Jiang.An Improved Speech Endpoint Detection Based on Spectral Subtraction and Adaptive Sub-band Spectral Entropy[C]//Proceedings of Inter-national Conference on Intelligent Computation Tech-nology and Automation.Washington D.C.,USA:IEEE Press,2010:591-594.

[7] COHEN I,BERDUGO B.Speech Enhancement for Non-stationary Noise Environments[J].Signal Processing,2001,81(11):2403-2418.

[8] HUANG L,YANG C.A Novel Approach to Robust Speech Endpoint Detection in Car Environments[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,2000:1751-1754.

[9] 刘凤增,李国辉,李 博,等.OM-LSA和小波阈值去噪结合的语音增强[J].计算机科学与探索,2011,5(6):547-552.

[10] KAISER J F.On a Simple Algorithm to Calculate the Energy of a Signal[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1990:381-384.

[11] 霍铖宇,黄晓林,宁新宝,等.基于Teager算子的短时HRV样本熵算法[J].计算机工程,2012,38(23):281-283.

[12] 李 杰,周 萍,杜志然.短时TEO能量在带噪语音端点检测中的应用[J].计算机工程与应用,2013,49(12):144-147.

[13] SHEN J,HUNG J,LEE L.Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments[C]//Proceedings of ICSLP’98.Sydney,Australia:Australian Speech Science and Technology Association,1998:232-235.

[14] LI X,LI G,LI X.Improved Voice Activity Detection Based on Iterative Spectral Subtraction and Double Thresholds for CVR[C]//Proceedings of 2008 Workshop on Power Elec-tronics & Intelligent Transportation System.Washington D.C.,USA:IEEE Press,2008:153-156.

[15] 张徽强.带噪语音信号的端点检测和声韵分离[D].长沙:国防科学技术大学,2005.

猜你喜欢
子带端点正确率
非特征端点条件下PM函数的迭代根
一种基于奇偶判断WPT的多音干扰抑制方法*
门诊分诊服务态度与正确率对护患关系的影响
子带编码在图像压缩编码中的应用
不等式求解过程中端点的确定
高分辨率机载SAR多子带合成误差补偿方法
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
基丁能虽匹配延拓法LMD端点效应处理