基于隐马尔科夫模型的语音识别技术实现

2019-12-17 03:32陈焕泽中南大学软件学院

数码世界 2019年12期

关键词：声学百度语音

陈焕泽中南大学软件学院

关键字：语音识别声学模型隐马尔科夫模型

1. 引言

智能语音技术，是一种完成人机通过语言进行类似于人与人之间交互的技术，其中的核心技术包括语音识别技术和语音合成技术。20世纪50年代，智能语音技术已经在语音识别领域开展了研究。而在人机交互中，语音识别这一环节也处于第一个环节，也是核心环节。

2. 语音识别的相关基础概念

2.1. 语音识别的定义和原理

2.1.1. 定义

语音识别技术即将语音转化为有意义的文字内容的技术。

2.1.2. 基本实现原理

从原始语音信号中提取某次语音识别所要分析的信号后，利用特征处理将所提取的信号从时域转变为频域，从而为声学模型提供适当的输入向量，声学模型根据其本身模型所训练而得的参数，计算每一个输入向量在其该模型上的得分；而语言模型则根据语言学相关的知识，计算出各种不同文本序列搭配的可能性；最后由已有的数据字典，对文本序列进行解码操作，得到可能性最高的文本内容。

而该过程中，如何将每一帧中的音素对应于某个状态是个难题，这里利用概率论的知识，通过训练声学模型，得到相应的概率分布，在其中选择概率最高的，即所求帧对应的状态。

输入语音数据：o=o1...om

各种可能的文本序列组成的集合：W=w1，...，wk

语音识别：根据输入语音数据o以及各种可能的文本序列集合W中找到最可能的那个文本序列：

其中，声学模型负责获得P[o|w]，语言模型负责获得P[w]。

3. 语音识别核心组件介绍

3.1. 声学模型

3.1.1. 定义

给定语言学单元，计算输入语音匹配的可能性，进行对P[o|w]的概率估计；

3.1.2. 发展历史

表1：声学模型的发展

3.1.3. 各个主要声学模型优缺点比较

HMM-DNN声学模型

优点：

①前后各自扩充n帧，从而利用帧的上下文信息

②与HMM-GMM相比，可以学习深度非线性特征转换缺点：

无法利用历史信息来进行操作

HMM-LSTM声学模型

优点：

①是一个单向时序模型，具有长短时记忆能力

②更契合时序建模问题

③减轻了RNN的梯度消散和梯度爆炸的影响

缺点：

计算复杂度大幅增加，且由于递归链接的影响使得并行操作难度加大

HMM-BLSTM声学模型

优点：

相比HMM-LSTM，增添了反向时序信息，使模型的建模能力更强缺点：

①计算复杂度加大

②GPU的显存需求增大从而降低了并行度，最终导致模型训练变慢

③实际应用中的实时性问题

3.2. 语言模型

3.2.1. 定义

由声学模型提供的发音序列，计算各种不同文本序列搭配的可能性。

对于某一句话s：

其中wi是统计单元，可以是字、单词、短语等。

则句子s的概率可以表示为：

但若按此方法计算句子的概率存在两个缺陷：

②数据过于稀疏：在语料库中没有出现的多词对组合，由最大似然估计得到概率将为0.

4. 语音识别发展现状

4.1. 语音识别词错率的突破

2016年，Microsoft的语音识别技术在产业标准 Switchboard 语音识别基准测试中词错率已降低至5.9%，达到与专业速记员同等水平。而在2017年，词错率更是达到了惊人的5.1%。从90年代到2010年左右，由于上一代声学模型发展碰到瓶颈，语音识别的词错率实际上没有太大的变化。在2010年后，由于DNN的提出与深度网络的提出与研究，语音识别的词错率开始大幅减小。

4.2. 语音助手上的暗战

4.2.1 Apple Siri

2011年，在iPhone 4s的发布会上，以智能语音助手身份亮相的Apple Siri成为当时全场最大的亮点。但由于当时粗糙的技术，使得Siri反应慢，出错率高，不被大众看好。而如今，具备人工智能特性的Siri已经会说36个国家的21种语言。而在智能汽车方面，Siri目前已经整合进奥迪、宝马、克莱斯勒等全球9家知名汽车中。

4.2.2 Mircrosoft Cortana

2014年7月30日，微软在Windows Phone 8.1 Update中国区发布会上正式发布了中文版Cortana，其中文命名为“微软小娜”。

2016年12月，微软在旧金山宣布，开放Cortana，使其能够集成到智能音响、智能汽车、智能家电等硬件平台上。

2018年8月，亚马逊与微软双方各自完成了语音助手Alex和Cortana的整合。

4.2.3 百度小度

2015年9月，百度官方在百度世界大会发布了语音助手度秘。

2017年3月，百度官方在百度世界大会发布小度系统1.0（DuerOS1.0）。

在与第三方合作上，百度已经与中兴、小米、联想、索尼、网易游戏、比亚迪、特斯拉等企业建立了长久的合作关系。

5. 结论

借助云计算和大数据的发展，人工智能近年来发展迅猛。而在语音识别领域，研究者们也已经取得了不少成果，其背后潜在的巨大经济效益也吸引了各国互联网企业的注意，如今的语音识别技术虽然日趋成熟与完善，但仍然存在一定的难题，这就需要相关科研人员的努力。在计算机计算能力的进一步提升和5G通信普及的趋势下，未来智能语音识别技术将会有令人意想不到的表现。