基于隐马尔科夫模型的语音识别技术实现

2019-12-17 03:32陈焕泽中南大学软件学院
数码世界 2019年12期
关键词:声学百度语音

陈焕泽 中南大学软件学院

关键字:语音识别 声学模型 隐马尔科夫模型

1. 引言

智能语音技术,是一种完成人机通过语言进行类似于人与人之间交互的技术,其中的核心技术包括语音识别技术和语音合成技术。20世纪50年代,智能语音技术已经在语音识别领域开展了研究。而在人机交互中,语音识别这一环节也处于第一个环节,也是核心环节。

2. 语音识别的相关基础概念

2.1. 语音识别的定义和原理

2.1.1. 定义

语音识别技术即将语音转化为有意义的文字内容的技术。

2.1.2. 基本实现原理

从原始语音信号中提取某次语音识别所要分析的信号后,利用特征处理将所提取的信号从时域转变为频域,从而为声学模型提供适当的输入向量,声学模型根据其本身模型所训练而得的参数,计算每一个输入向量在其该模型上的得分;而语言模型则根据语言学相关的知识,计算出各种不同文本序列搭配的可能性;最后由已有的数据字典,对文本序列进行解码操作,得到可能性最高的文本内容。

而该过程中,如何将每一帧中的音素对应于某个状态是个难题,这里利用概率论的知识,通过训练声学模型,得到相应的概率分布,在其中选择概率最高的,即所求帧对应的状态。

输入语音数据:o=o1...om

各种可能的文本序列组成的集合:W=w1,...,wk

语音识别:根据输入语音数据o以及各种可能的文本序列集合W中找到最可能的那个文本序列:

其中,声学模型负责获得P[o|w],语言模型负责获得P[w]。

3. 语音识别核心组件介绍

3.1. 声学模型

3.1.1. 定义

给定语言学单元,计算输入语音匹配的可能性,进行对P[o|w]的概率估计;

3.1.2. 发展历史

表1:声学模型的发展

3.1.3. 各个主要声学模型优缺点比较

HMM-DNN声学模型

优点:

①前后各自扩充n帧,从而利用帧的上下文信息

②与HMM-GMM相比,可以学习深度非线性特征转换缺点:

无法利用历史信息来进行操作

HMM-LSTM声学模型

优点:

①是一个单向时序模型,具有长短时记忆能力

②更契合时序建模问题

③减轻了RNN的梯度消散和梯度爆炸的影响

缺点:

计算复杂度大幅增加,且由于递归链接的影响使得并行操作难度加大

HMM-BLSTM声学模型

优点:

相比HMM-LSTM,增添了反向时序信息,使模型的建模能力更强缺点:

①计算复杂度加大

②GPU的显存需求增大从而降低了并行度,最终导致模型训练变慢

③实际应用中的实时性问题

3.2. 语言模型

3.2.1. 定义

由声学模型提供的发音序列,计算各种不同文本序列搭配的可能性。

对于某一句话s:

其中wi是统计单元,可以是字、单词、短语等。

则句子s的概率可以表示为:

但若按此方法计算句子的概率存在两个缺陷:

②数据过于稀疏:在语料库中没有出现的多词对组合,由最大似然估计得到概率将为0.

4. 语音识别发展现状

4.1. 语音识别词错率的突破

2016年,Microsoft的语音识别技术在产业标准 Switchboard 语音识别基准测试中词错率已降低至5.9%,达到与专业速记员同等水平。而在2017年,词错率更是达到了惊人的5.1%。从90年代到2010年左右,由于上一代声学模型发展碰到瓶颈,语音识别的词错率实际上没有太大的变化。在2010年后,由于DNN的提出与深度网络的提出与研究,语音识别的词错率开始大幅减小。

4.2. 语音助手上的暗战

4.2.1 Apple Siri

2011年,在iPhone 4s的发布会上,以智能语音助手身份亮相的Apple Siri成为当时全场最大的亮点。但由于当时粗糙的技术,使得Siri反应慢,出错率高,不被大众看好。而如今,具备人工智能特性的Siri已经会说36个国家的21种语言。而在智能汽车方面,Siri目前已经整合进奥迪、宝马、克莱斯勒等全球9家知名汽车中。

4.2.2 Mircrosoft Cortana

2014年7月30日,微软在Windows Phone 8.1 Update中国区发布会上正式发布了中文版Cortana,其中文命名为“微软小娜”。

2016年12月,微软在旧金山宣布,开放Cortana,使其能够集成到智能音响、智能汽车、智能家电等硬件平台上。

2018年8月,亚马逊与微软双方各自完成了语音助手Alex和Cortana的整合。

4.2.3 百度小度

2015年9月,百度官方在百度世界大会发布了语音助手度秘。

2017年3月,百度官方在百度世界大会发布小度系统1.0(DuerOS1.0)。

在与第三方合作上,百度已经与中兴、小米、联想、索尼、网易游戏、比亚迪、特斯拉等企业建立了长久的合作关系。

5. 结论

借助云计算和大数据的发展,人工智能近年来发展迅猛。而在语音识别领域,研究者们也已经取得了不少成果,其背后潜在的巨大经济效益也吸引了各国互联网企业的注意,如今的语音识别技术虽然日趋成熟与完善,但仍然存在一定的难题,这就需要相关科研人员的努力。在计算机计算能力的进一步提升和5G通信普及的趋势下,未来智能语音识别技术将会有令人意想不到的表现。

猜你喜欢
声学百度语音
进一步放大细腻通透的优势 Davis Acoustics(戴维斯声学) MODEL M/MODEL S/BASSON 88
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
Robust adaptive UKF based on SVR for inertial based integrated navigation
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
对方正在输入……
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
百度年度热搜榜