语音识别技术原理概述

2019-09-10 03:29周钧锴武志亨宁湘翼

炎黄地理 2019年3期

关键词：语音识别

周钧锴　武志亨　宁湘翼

摘要：语音识别技术作为信息社会向智能化发展的关键技术之一，对人们的生活产生着广泛的影响，具有重要的研究意义和实用价值。本文概括介绍了语音识别技术和语音识别技术系统的实现原理，并对语音识别技术的发展趋势做了简单的阐述。

关键词：语音识别；特征参数提取；隐马尔可夫模型

0 引言

语音识别作为一门交叉学科，近30年来得到迅速的发展，逐渐由实验室技术向市场产品转化，越来越多地应用到人们的生活中。语音识别因为具有方便快捷、易于控制的优势，会被应用到越来越多的领域中，对人们的生活产生更广泛的影响。

1 语音识别技术概述

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术是以语音信号为研究对象，涉及信号处理、模式识别、概率论和信息论、人工智能等多个领域。

1.1 语音识别系统分类方式

语音识别技术具有多种分类方式，常见的有根据识别对象分类、是否针对特定发音人和待识别语音的词汇量大小鳳方式。

根据识别的对象不同，可以分为孤立词识别，关键词识别和连续语音识别三类。其中，孤立词识别的任务是识别事先已知的孤立的词；关键词识别的任务是检测连续语音中已知的若干关键词的位置，但并不识别全部文字；连续语音识别的任务则是识别任意的连续语音。

根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别。特定人语音识别只能识别一个或几个人的语音，而非特定人语音识别则可以识别任何人的语音。非特定人语音识别系统更符合实际需要，但实现难度更大。

根据待识别语音的词汇量大小，可以分为小词汇量、中等词汇量和大词汇量语音识别系统。小词汇量语音识别系统的识别范围为几十个词，中等词汇量的语音识别系统的识别范围为几百个词到千个词，而大词汇量语音识别系统的识别范围为几千到几万个词。

2 语音识别系统实现原理

不同语音识别系统的具体实现细节不同，但基本的技术原理相似。一个基本的语音识别系统主要包括语音识别单元的选取、特征提取技术、模式匹配准则和模型训练技术四个部分。

2.1 语音识别单元的选取

语音识别单元有单词句、音节和音素三种。首先需要根据研究的具体任务确定识别的单元：单词句单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统；音节单元多见于汉语语音识别；音素单元以前多见于英语语音识别的研究中。

2.2 特征参数提取技术

特征参数提取的目的是从语音信号中提取出对语音识别有用的信息，即去除与识别无关的冗余信息，保留与识别有关的信息。目前应用最广泛的特征参数提取技术为线性预测（LP）分析技术，许多成熟的语音识别系统都采用基于LP技术提取的倒谱参数。Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱也是常用的特征参数提取方法。

2.3 模型训练及模式匹配技术

模型训练是指根据一定的准则，从大量己知模式中获取表征该模式本质特征的模型参数，语音识别就是通过这些提取的特征参数所建立的。模式匹配是按照一定的准则，使未知模式与模型库中的某一个模型获得最佳匹配。常用的模型训练及模式匹配技术有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）和人工神经元网络（ANN）。

动态时间规整技术是基于动态规划的思想，解决了发音长短不一的模板匹配问题，广泛应用在孤立词的语音识别中，但不适合连续语音和大词汇量识别系统。

隐马尔可夫模型由相互关联的两个随机过程共描述信号的统计特性，其中一个是隐蔽的（不可观测的）具有有限状态的链，另一个是与链的每一状态相关联的观察矢量的随机过程（可观测的）。

人工神经元网络的发展为语音识别的实现提供了新的解决方案，人工神经元网络模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括等能力。这些能力都是隐马尔可夫模型不具备的，但人工神经元网络不具有隐马尔可夫模型的动态时间规整性能。所以如果将两者的优点结合起来，可以提高整个模型的鲁棒性。

3 语音识别技术发展趋势

目前，各种形式的隐马尔可夫模型和算法日趋成熟，以它为基础形成了语音识别的整体框架模型，统一了语音识别中声学层和语音学层的算法结构，以概率的形式将声学层中得到的信息和语音学层中已有的信息结合在一起。

另外，通过语音命令控制可以使原本需要手工操作的工作用语音来完成。因此，语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。世界各国也都加快了语音识别应用系统的研究开发，并已有一些实用的语音识别系统投入商业运营。

参考文献

[1]詹新明，黄南山，杨灿.语音识别技术研究进展[J].现代计算机（专业版），2008（09）：43-45+50.

[2]禹琳琳.语音识别技术及应用综述[J].现代电子技术，2013，36（13）：43-45.

[3]马志欣，王宏，李鑫.语音识别技术综述[J].昌吉学院学报，2006（03）：93-97.

[4]段红梅，汪军，马良河，徐冉.隐马尔可夫模型在语音识别中的应用[J].工科数学，2002（06）：16-20.

[5]孙宁，孙劲光，孙宇.基于神经网络的语音识别技术研究[J].计算机与数字工程，2006（03）：58-61.

[6]刘长明，任一峰.语音识别中DTW特征匹配的改进算法研究[J].中北大学学报（自然科学版），2006（01）：37-40.

[7]吴炜烨.基于神经网络语音识别算法的研究[D].中南大学，2009.