采用差异度的多参数声带疾病嗓音识别方法*

2013-12-30 09:48张晓俊顾济华赵鹤鸣朱俊杰

电子器件 2013年3期

周强，张晓俊，顾济华，赵鹤鸣，朱俊杰，陶智*

(1.苏州大学物理科学与技术学院，江苏苏州215006;2.苏州大学电子信息学院，江苏苏州215006)

随着人们生活改善和节奏加速，语言交流活动日益频繁，嗓音疾病的发生率呈明显上升趋势。嗓音疾病是发声言语器官的功能性或器质性损害而导致的发声言语功能障碍，其中由于声带疾病导致的病理嗓音占有很大的比例。早期对于病理嗓音的检测主要是医学专家进行主观的判别，其误判率较大。电子仪器诊查方法的缺点是，肉眼很难捕捉发音瞬间，且会给病人带来不便，导致不准确的诊断结果［1］。因此采用嗓音声学评估方法与信号处理手段去识别病态嗓音的研究已逐渐成为一个多学科交叉领域。

由于嗓音的声学参数与声带振动的生物力学密切相关，计算机嗓音测试可作为研究声带振动的理想工具。目前使用较多的客观参数可分为3大类，包括基频衍生类:基频微扰百分比(Jitter)、相对平均扰动(RAP)和基频扰动商(PPQ)等;强度衍生类:振幅微扰(Shim)、振幅扰动商(APQ)及峰值幅度变化(VAm)等;含噪成分衍生类:谐噪比(HNR)、嗓音扰动指数(VTI)及软发音指数(SPI)等。由黄昭鸣博士、万萍［2］指出，上述参数与嗓音的音质主观评估里的多个指标均有很强的相关性，是能有效反应嗓音音质的客观声学参数。上述参数被用来进行病理嗓音的诊断［3-5］。

但同类型参数之间会存在着相关性，如果用这些参数来表征声带类疾病嗓音的特性，必然存在着很大的冗余。而且各参数在描述不同类别嗓音疾病时会有不同的效果。本文对参数之间的相关性进行了研究，并对正常嗓音与声带疾病嗓音、声带疾病嗓音与非声带疾病嗓音各参数的差异度进行了研究，并提出了基于差异度的多参数声带疾病嗓音识别方法。并以TMS320VC5502为核心实现声带疾病嗓音识别系统。

1 嗓音特征及分析

1.1 嗓音特征介绍

基频表征着声带每秒振动的次数，它与声带的本身的生理状态有关，当声带发声病变会在基频上有所反应。基频类参数主要反映声带振动的周期性间频率的差异，可以衡量基频总体稳定程度。Jitter为基频变化百分比，其定义为:

为了满足不同时长观察基频扰动的需要，微扰函数阶数定义为平滑因子fsmo，与此相关的参数为sPPQ(Smoothed Pitch Period Perfarbetion)，表达式为:

其中T(i)表示为i帧的基音周期，当微扰阶数为3时即为RAP，阶数为5时即为PPQ。

嗓音强度是指单位时间内，通过垂直于声波传播方向单位面积的声学能量。嗓音强度受声门面积大小、声带张力程度及声门下压的影响，反映声带振动的强度、声门开放程度和声门面积大小。sAPQ描述短时嗓音信号峰峰值的振幅变化，定义为:

其中A(i)为i帧的峰峰值，当平滑因子fsmo(Smoothed Factor)为1时等同为Shim，fsmo为11时等同为APQ。同时还有表征峰峰值标准差的VAM。

NHR计算的是频率带宽1 500 Hz～4 500 Hz中非谐波成分能量与70 Hz～4 500 Hz中谐波成分能量的比值，表征嗓音信号的全局噪声程度;VTI计算的是频率带宽2 800 Hz～5 800 Hz中非谐波成分能量与70 Hz～4 500 Hz中谐波成分能量的比值，即信号能量中、高频噪声信号的水平，它与声带的不完全振动相关;SPI为频率带宽70 Hz～1 600 Hz中谐波成分能量与1 600 Hz～4 500 Hz中谐波成分能量的比值［6］。

1.2 参数间相关性分析及差异性评价

同类别参数之间会存在着相关性，采用相关系数表示参数之间相关性程度:

其中E(x)和D(x)为求期望与方差。ρ范围为0～1，当为0.6～1认为两变量有强相关性，当为0.3～0.6时认为有弱相关性，0～0.3认为不存在相关性。相关性越大表明两参数在表征同一类嗓音特性时存在越多的冗余;相反则表明参数之间具有越好的互补性。

特征参数可以表现两类嗓音的差异性，同一参数表征不同类型嗓音的特性时会有不同的效果，所以不同两种嗓音的差异性会不同。定义两种参数差异度为:

其中¯、S2(x)和n(x)分别对应x样本均值、方差和样本容量¯、S2(y)和n(y)分别对应y样本的均值方差和样本容量。可以看出Df越大表明差异性越显著。

1.3 多参数组合

由于不同类型的参数从不同的角度表现了声带振动的情况，所以将各类型参数组合起来表征信号的特性。具体算法如下:

(1)求取参数对两类嗓音信号的差异度，然后在此类参数中选出最大所对应的作为主参数;

(2)根据参数间的相关系数，去除与主参数强相关的参数;

(3)根据区分度Df采用ω=［exp(-1/Df)］/Z来对每种参数进行权重分配;

(4)同一类型参数加权求和得到一个新参数，将所有类型的新参数组合为最终特征向量。

图1 系统框图

2 嗓音识别的DSP实现

2.1 系统的硬件设计

系统由MIC嗓音输入模块、音频模块和处理模块组成，系统框图如图1所示。嗓音信号由麦克风输入至TLV320AIC23对嗓音信号进行AD转换和滤波后，再通过DSP芯片TMS320VC5502对信号进行预处理、特征参数提取、建模及识别构成。

DSP芯片TMS320VC5502最高可在300 MHz主频下工作，具有16 kbyte的缓存和17×17 bit双乘法器，并带有32 k×16 bit的RAM和16 k×16 bit的ROM。其片上外设主要包括时钟发生器、DMA控制器、外部存储器接口(EMIF)、主机接口(HPI)、I2C总线、通用输入输出GPIO口、3个多通道缓冲串行端口(McBSP)、两个64 bit通用定时器(GPT)和一个可编程看门狗定时器、通用异步收发器(UART)，外部寻址空间达8 Mbyte，可扩展大容量SDRAM。音频编解码芯片TLV320AIC23是可编程芯片，内置耳机输出放大器，内部有11个16 bit寄存器，编程设置这些寄存器可得到所需的采样频率、输入输出增益和传输数据格式等。AIC23通过外围器件对其内部寄存器进行编程配置，其配置接口支持SPI总线和I2C总线接口数据传输格式支持右判断模式、左判断模式、I2S模式和DSP模式，其中DSP模式专门针对TI公司的DSP设计。

2.2 软件设计

系统中所有对DSP的控制和调试都是在CCS3.3境下进行的，利用CCS3.3强大的片级支持库(CSL)与API接口，可以轻松地对DSP上的寄存器进行查询和赋值。系统软件设计包括DSP系统运行主程序和信号的数据处理、采样、传输控制、训练、识别等部分。采样、传输控制等子程序用C语言完成，信号的数据处理利用Matlab7.0软件来完成。系统软件流程如图2所示。

图2 软件流程图

3 实验及分析

3.1 实验数据

本实验采用MEEI数据库［7］中的嗓音，该数据库包含了1384例病理嗓音/ɑ/，给出了患者的年龄、性别、是否抽烟等信息，并给出了专家诊断结果。其具体统计数据见表1。

表1 嗓音信号统计

3.2 实验评价指标

受试者工作特征曲线ROC(Receiver Operating Characteristic Curves)被用来形象地描述识别的效果。ROC曲线［8］的横坐标是假阳性率，纵坐标为真阳性率。而且ROC曲线下的面积AUC(the Area Under the ROC Curve)也被用来表征识别的效果的优劣。Kappa也被用来对识别效果进行评价［9］，它用来表征识别效果和随机识别的差别，越接近1表明识别结果越好，其定义为:

其中P0为观测一致性，Pc为期望一致性。

3.3 数据分析

对3类特征参数之间的相关性进行了统计，统计情况如表2所示。从表中可以看出基频衍生类参数之间具有较强的相关性，强度衍生类中VAM参数与其他两参数存在弱相关性，而含噪成分衍生类参数间相关性较弱。

表2 参数间相关系数统计

3.4 识别实验

分别进行了声带疾病嗓音与正常嗓音(a)和声带疾病嗓音与非声带疾病嗓音(b)的识别实验，采用传统的9个参数与本文方法进行对比，分类器为RBFNetwork。识别结果如表3所示。

表3 识别实验结果

从表3得到:本文方法的识别率比原来9个参数都有提高。声带疾病嗓音和正常嗓音的识别实验中，识别率提高了4.35%;声带疾病嗓音和非声带疾病嗓音的识别试验中，识别率提高了9.27%。

图3给出了声带疾病嗓音与正常嗓音和声带疾病嗓音与非声带疾病嗓音的识别ROC曲线。ROC曲线也表明本文算法在识别中的优越性。

图3 识别ROC曲线

4 结论

声学参数之间存在着相关性，且在描述不同类型的嗓音时有不同的差异性。针对上述问题，提出了一种基于差异度的多参数声带疾病嗓音识别算法，并以DSP芯片TMS320VC5502为核心实现识别系统。提出的算法比传统的9个参数在声带疾病嗓音和正常嗓音的识别实验中有4.35%的识别率提升，在声带疾病嗓音和非声带疾病嗓音的识别实验中有9.27%的识别率提升。本文只是研究了传统的声学参数，未来将研究其他参数;识别系统缺少显示部分，系统完善也是未来的工作内容。

［1］Gavidia-Ceballos L，Hansen J，Kaiser J.Vocal Fold Pathology Assessment Using AM Autocorrelation Analysis of the Teager Energy Operator［C］//ICSLP，1996:757-760.

［2］黄昭鸣，万萍.嗓音声学参数与嗓音音质的相关研究等的研究［J］.临床耳鼻喉头颈外科杂志，2008，22(6):251-254.

［3］Parsa V，Jamieson D.Identification of Pathological Voices Using Glottal Noise Measures［J］.Speech，Lang，Hear，Res，2000，43(2):469-485.

［4］Uloza V，Verikas A，Bacauskiene M.Categorizing Normal and Pathological Voices:Automated and Perceptual Categorization［J］.Journal of Voice，2011，25(6):700-708

［5］Boyanov B，Hadjitodorov S.Acoustic Analysis of Pathological Voices，A Voice Analysis.Systerm for the Screening of Laryngeal Diseases［J］.IEEE Eng Med Biol Mag，1997，16(4):74-82.

［6］Multi-Dimensional Voice Program Help files［R］.http://www.kayelemetrics.com.htm，2012.

［7］Massachusetts Eye，Ear Infirmary.Voice Disorders Database，Version 1.03［R］.Kay Elemetrics Corp，Lincoln Park，NJ，1994.

［8］Fawcett T.ROC Graphs:Notes and Practical Considerations for Researches［R］.HP Laboratories，Palo Alto，CA，2004.

［9］Siegel S，Castellan N J.Non-Parametric Statistics for the Behavioral Sciences［M］.2nd ed.McGraw-Hill，New York，N.Y，1988.