基于GMMi—vector的说话人识别研究

2018-10-31 10:31王致垚
中国新技术新产品 2018年16期
关键词:语音识别深度学习

王致垚

摘 要:语音识别技术飞速发展,在现实生活中扮演着越来越重要的角色,语音识别简单来说就是让计算机理解人的语音,它有两大研究领域:语种识别和说话人识别。说话人识别是指计算机能够识别出语音来自那个说话人,在身份验证等众多领域有很广泛的应用。本文着重探究哪种细微声音对说话人识别的效果好,这些细微声音有“嗯”“啧啧”“清嗓子”“清鼻子”等,最后进行人机大战,得出机器的准确率普遍比较高的结论。

关键词:语音识别;说话人识别;高斯混合模型;深度学习

中图分类号:TP391 文献标志码:A

0 前言

随着移动互联网的兴起,手机APP的广泛应用以及移动电子商务的需求,人们对安全保密系统的要求也越来越高。除了传统的密码输入方式外,基于生物特征的身份认证(如指纹、虹膜、掌纹以及人脸等)成为目前最主要的研究方向。在这其中,语音信号是用于个人身份辨识和确认的一种有效的生物特征,其技术在生物识别中占有重要地位。

语音信号处理是用数字信息技术处理语音,可以分为语音合成、语音识别、语音编程和说话人识别。说话人识别是指从语音信号中提取说话人的特征,并对说话人进行识别的研究领域。说话人识别实际上是一个模型识别问题。而基于Kaldi的GMM i-vector说话人识别系统则是其中比较新颖的技术。本文探讨的是利用i-vector说话人识别系统来处理一些比较特殊的问题。

1 说话人识别研究的目的及意义

信息输入方式的变化,也是由于生物识别技术的发展。说话人识别技术能够更加快捷便利的确定说话人的身份,能够应用于说话人核对,(例如语音类别身份证)电子设备,信息系统的安全工作,刑侦技术的人员追踪,公安、军事、机密的防护等众多领域、将会在电脑、手机、汽车、电子锁等电子产品上有众多应用

说话人识别也叫做声纹识别,属于生物识别技术的一种。相对于传统认证,具有安全、保密、不易伪装、不会遗忘或丢失,方便等优点。比起其他的生物识别技术,说话人识别更有廉价、简洁轻便、应用广泛、易于操作和接受等优点。

2 说话人识别发展概述

1876年贝尔(Bell)发明了电话。1952年Davis等人在贝尔实验室研制出第一个10个英语字母的语音识别设备。1956年Cooley和Tukey提出了离散傅里叶变换的快速算法(FFT算法)。20世纪80年代,人们应用非线性技术提出了梅尔频率倒谱系数(MFCC),MFCC是最实用的语音特征参数。在20世纪90年代后期,高斯混合模型(GMM,在HMM的基础上被提出)被应用到了说话人识别,GMM成了现在说话人识别的基础。21世纪后,人们在高斯混合模型的基础上提出了高斯混合模型—通用背景模型(GMM—UBM),克服了外部环境的干扰。GMM—UBM成为目前说话人识别领域最为经典的建模方法。

1997年,IBM 将ViaVoice应用于商业。2011年iPhone手机上出现了Siri语音助手服务,语音识别技术在生活中普及开来。现在几乎身边的电子设备如手机、电脑、iPad都会具备语音识别功能。

3 说话人识别的研究方法

3.1 说话人识别的基本流程

说话人识别实际上是一个模型识别类型,其基本原理是将识别目标说话人形成的特征模型与训练好的特征模型进行匹配。根据匹配的距离或概率近似度来判断说话者是训练模型中的哪个人(说话人辨认),或是否是被申明的人(说话人确认)。

3.1.1 预处理

预处理指令可以使输入的语音信号在不同的执行环境中方便被修改或翻译。大致分为预加重、分帧加窗和端点检测。

3.1.2 特征提取

特征提取是在音频中提取能够代表说话人语音特征的信息,消除无用的信息。从而有利于后续的特征比较,提取的特征能够直接辨别说话人身份,充分体现不同语音间的差异。

3.1.3 训练过程:训练模型、模型参数储存

根据提取的特征参数建立说话人的模型,建立训练过程的模型。建立模型的方法分为模板匹配法和概率统计模型法。并将模型进行储存,作为识别过程中的匹配模板。

3.1.4 测试过程:匹配得分,决策判断

将待测试的语音文件的特征参量与已建立的模型库进行对比、匹配和识别,计算出来得分,查看相似性的最大值,根据相似性匹配说话人。

值得一提的是,如果被测试的音频文件不属于已知的说话人模型。(闭集情况)系统不能随意抽取相似得分的最大值,因为这样会将陌生说话人误判为模型库中的某一说话人。应当确定一个适当大小的阈值,判断测试语音是否属于已经建立模型的說话人。若测试得分低于阈值则系统判断测试音频不属于任何一个说话人模型。

3.2 说话人识别的传统方法

在提取特征之后,要进行模型训练。在模型匹配方面,大体分为模板匹配法和概率统计模型法。

可是在实际应用中,常常会受到周边噪声的干扰,对基于GMM的说话人识别系统要求便有所增加,因此要训练准确的高斯混合模型需要很多语音数据,而每一个训练说话人的语音又不够,因此UBM通用背景模型便被提出来了。在众多语音数据中训练好一个和说话人特征无关的通用背景模型来模拟实际的外部环境,通过自适应算法来得到目标的说话人模型。

4 细微声音识别实验

4.1 实验原理

说话人识别是一类典型的模式识别类型,包括说话人模型训练和测试语音打分判决两个阶段。

训练阶段:对每个使用系统的说话人预留充足的语音;对预留语音提取声学特征;根据提取的声学特征训练得到说话人模型;将每个说话人模型存入说话人模型库中。

测试阶段:系统获取待测试识别的语音;与训练阶段相同,提取测试语音的声学特征;将测试语音的声学特征与说话人模型库进行比对,根据预先定义的相似性准则,在说话人模型上进行打分判别;最终得到测试语音的说话人身份。

本实验基于Kaldi的GMM i-vector说话人识别系统主要由4个步骤组成:数据列表准备(scp文件)、特征提取(MFCC提取特征及vad)、模型训练(UBM、T-matrix训练和i-vector提取)、打分判决(Cosine、LDA、PLDA),其流程如图1所示。

4.2 實验过程及结果分析

实验测试中,首先采集了网站上20人的细微声音判别记录见表1,同一种细微声音中,让测试人员去听该声音是否是同一个人发出的,每个人听3组同种细微声音,最后提交表单,得到该20人的测试记录错误率。由于网站上会对每个测试者选择的音频有记录,然后将测试的音频全部取出来,同种细微声音的音频放在一起,然后利用图1所示的i-vector模型对细微声音进行判别,从而得出机器对该细微声音的错误率,其结果见表2。

从实验结果来看,4种细微声音中,“嗯”的识别错误率最低,也就是“嗯”相对其他3种,其识别效果更好;另外从人机测试结果来看,细微声音中对“嗯”“啧啧”“清嗓子”的识别准确率,机器明显优于人类,然而对“清鼻子”的识别准确率,人类优于机器,由于不同测试者清鼻子变化多样,人类可以根据语境及背景声音是否一致来判断是否为同一个人发出来的,而机器不可以这样判断,这个实验结果也是在合理范围内的。

结语

说话人识别是语音识别的热点之一。本文首先介绍了说话人识别研究的目的和意义以及发展概述。重点研究了基于Kaldi的GMM i-vector说话人识别系统,对说话人识别系统的工作过程及其工作原理进行了深刻的阐述,并着重探究了4种细微声音的识别,通过人机测试的对比,得出了机器的识别效果明显比人类的识别正确率要高的结果。由于本实验探讨的是在特殊情况下的说话人识别(嗯、啧啧、清嗓子、清鼻子),因此探讨了基于i-vector说话人识别系统在各种极端情况下的工作情况。或许以后说话人识别不再需要说出一大段文字,而是直接发出几种声音就可以实现识别。

参考文献

[1]谈建慧.基于深度学习的语音识别研究[D].广西:桂林电子科技大学,2016.

[2]陈强.基于GMM的说话人识别系统研究与实现[D].湖北:武汉理工大学,2010.

[3]周利锋.人工神经网络的概念[J].医学信息(上旬刊),1998(11):8-10.

[4]马平.基于i-vector的稳健说话人识别研究[D].新疆:新疆大学,2016.

猜你喜欢
语音识别深度学习
通话中的语音识别技术
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于LD3320的非特定人识别声控灯系统设计