基于GMM的听觉场景识别算法研究

2021-12-22 00:13刘明曾伟浩

科技信息·学术版 2021年2期

刘明曾伟浩

摘要：佩戴助听器的听力患者像正常人一样生活在安静的卧室、嘈杂的道路或音乐会等各种环境中。有些助听器算法只适用于一个场景，但在另一个场景可能没有效果，甚至带来更糟糕的结果。有些助听器需要患者根据不同的环境手动调整一些参数，通过音量调节开关来控制输出音量，以适应当前的环境，获得更好的声音。而且，一次设置后，佩戴后不可能一直手动调整，手动选择功能对于老年人、儿童或残疾人等弱势群体非常不方便。如果助听器使用算法自动识别场景，自动设置参数以适应当前环境，并自动增益输出音量，而不是人工操作的繁琐部分，将大大提高助听器的智能化程度。

关键词：助听器自动识别场景自动增益

一、引言

听佩戴数字助听器的听障患者通常处于各种听力环境中，如言语、噪音或音乐等[1]。为了获得最佳的听觉体验，在早期的数字助听器中，数字助听器厂商会将适合各种场景的程序预刻录到芯片中，通过拨动开关选择相应的程序，即不同的频率响应或其他处理选项，如麦克风阵列语音增强、噪声抑制、宽动态压缩和回声消除等[2]。用户需要确定他们所处的环境，并手动切换开关来选择与场景相对应的节目。然而，对于听障患者来说，识别当前环境并选择与场景相对应的节目是一项非常困难的任务。即使对于一个听力健康的人来说，也不清楚选择哪个节目来匹配当前的场景。最大的问题是，老年人是数字助听器的主要用户，让他们根据不同的应用场景进行功能切换是非常困难的。

二、听觉场景分析算法概述

根据数字助听器的语音信号整体的处理流程可知，听觉场景分析算法属于事先准备好的，也就是说经过算法训练好的模型。算法流程分为三部分，分别是特征提取、模式分类器和参数控制。第一步，数字助听器通过特征提取将接收到语音信号转换成特征向量。这一步是识别算法中非常关键的阶段，因为选择的特征向量包含有可以区分不同类型的环境的信息，选择合适的特征向量将会影响到整个算法的识别率[3]。第二步是模式分类器根据特征向量判决输入的语音信号是属于哪个场景模型。第三步根据第二步判断出的场景，配置其他算法的一些参数以适应当前场景。听觉场景分析的整体结构如图1所示：

图1 听觉场景识别系统框架图

在本文中，考虑到数字助听器芯片的功耗和计算能力，特征提取采用12维MFCC 梅尔倒谱系数和12维一阶二阶MFCC 梅尔倒谱系数，分类器采用改进的GMM模型[4]。实验中，分别比较了改进的GMM算法和改进的GMM算法的识别率，比较了不同维数的特征参数和不同高斯混合数的识别率，最后选择了最佳参数并应用于数字助听器系统中。

三、实验方法

日常生活中，听觉场景的种类数目众多，找出典型的听觉场景是该算法的第一步。因此，为了验证听觉场景识别算法的准确性，采用文献提到的方法从在线声音库的网站freesound.org收集到7类音频数据，分别是嘈杂的语音、展馆上的语音、餐厅中的语音、街道上的语音、列车中的语音、纯净的语音和音乐音频。其中前五种属于带噪语音[5]。每个种类总共有300段音频，其中225段作为训练数据，75段作为测试数据，每段音频时间是2s，采样率为16KHZ，精度为16位。由于语音信号具有短时平稳特性，因此在实验时可以对每短时音频信号进行分帧、加窗（汉明窗），每帧音频信号帧长20 ms，采样数为320，帧移设置为15 ms，采样数为240，FFT长度为256。本文首先从GMM高斯核数方面来比较传统GMM算法和本文提出的改进的GMM算法的整体识别率。特征参数先固定选用12维的MFCC系数。高斯混合数分别取2，4，8，16和32。

四、结论

基于GMM模型的听觉场景识别算法分为训练和识别两部分。训练部分首先对语音信号进行采样和量化，然后从语音信号中提取36维特征参数，如MFCC、一阶MFCC和二阶MFCC。首先，通过GMM训练算法训练每個听觉场景的特定模型参数，最后通过GMM识别算法识别听觉场景。听觉场景识别算法是现代数字助听器的一项高级功能，它极大地提高了现代数字助听器的智能性，解决了许多听力受损患者的不便问题。

参考文献

[1]曹旭来.数字助听器中响度补偿算法的研究[D].南京邮电大学，2014.

[2]雍雅琴.数字助听器中主要语音信号处理方法研究[D].北京协和医学院，2013.

[3]魏政，尹雪飞，陈克安.可实现听觉场景匹配的智能数字助听器算法[J].声学技术，2012，31（5）：511-516.

[4]何鑫，高勇.一种语音增强中新的噪声预估计算法[J].通信技术，2018，51（10）：2320-2324.

[5]Dillon H.Hearing Aids[M].Thieme，2001.

基金项目：

1：深圳市科技计划项目（项目编号：JCYJ20180307123857045）

2：广东省教育厅科技项目（项目编号：2019GKQNCX122）

3：校级科研项目（项目编号：SZIIT2019KJ026）