一种利用人工神经网络优化语音识别的方法

2017-12-21 14:15魏爽

数字技术与应用 2017年10期

魏爽

摘要：语音识别就是利用机器通过识别和理解，将语音信号转变为文本，已经在很多行业得到了应用。由于每个人说话的方式都不同，其说话的特征都不一样。说话人识别就是通过一段语音识别出说话人的技术。结合人工神经网络对语音识别进行优化，平均准确率达到了94.5%。

关键词：神经网络；人工智能；语音识别；数据挖掘；反向传播

中图分类号：TP391 文献标识码：A 文章编号：1007-9416（2017）10-0228-02

1 引言

受生物神经网络启发，1943年心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型。人工神经网络（Artificial Neural Network，ANN）由大量高度互联的信息处理单元组成，这些信息处理单元共同合作完成信息处理工作。这使得ANN特别适合于处理直觉和形象思维信息。经过了半个世纪的发展，ANN已经在图像处理、语音处理、以及人工智能的其他领域得到了广泛的应用。语音识别就是利用机器通过识别和理解，将语音信号转变为文本。近20年，语音识别领域得到了快速发展。市场上在家电、通信、消费电子产品等领域已经有一批语音识别的应用。本文通过将ANN和数据挖掘技术应用到语音识别上，优化语音识别性能，平均识别准确率达到了94.5%。

2 基本概念

2.1 人工神经网络

ANN是一种非线性的预测模型。它模仿生物神经网络的结构，经过训练学习，可以通过相对简单的函数组成的网络，以任意的精度近似任何非线性函数。经过多年的发展，现在的神经网络模型有很多种，如自适应谐振理论、反向传播（Back-Propagation，BP）网络以及Hopfield网等，其中BP网络应用的最为广泛[1-3]。人工神經网络的结构基本上可以分为递归（反馈）网络和前馈网络两类。

神经网络由单个的神经元组成。每个神经元由多个输入xi， i=1，2， …，n和一个输出y组成，中间状态e由输入信号的权和表示如公式（1），θ为阈值。输出y一般采用二值函数或者S形的函数，如（2）、（3）所示，（3）为常用的Sigmoid函数。

e=x1*w1+x2*w2-θ （1）

f（x）= （2）

f（x）= （3）

构造好了神经网络后，需要训练样本集对神经网络进行训练学习。一般来讲，训练样本集包含了输入信号（X1、x2）和输出值的希望值z。神经网络的训练是一个迭代的过程。每一次的迭代都根据训练样本集中的数据对权值进行修正。

2.2 数据挖掘

数据挖掘就是从大量的数据中发现隐藏在数据里面的信息。使用数据挖掘，可以让拥有大量数据的机构将其关注的重点放在最重要的信息上。

2.3 语音识别

语音识别即是从听到的语音或者音频文件中识别出其中特定语言的语句，输出对应的文本。说话人的场景、语气以及说话发音习惯等都会对语音识别的精度有较大影响。此外，从某种程度上来讲，词汇量是无限的，语音识别系统应该具备智能识别未知词的能力[4-6]。

3 实验方法

特征提取就是通过对原始数据进行变换得到最能反应分类本质的特征。线性预测系数就是一种能够有效表示语音信号的特征：通过对若干过去的语音采样进行线性组合来逼近当前的语音信号，可以得到一组唯一的预测系数，即线性预测系数。其优势在于可以用极少的参数来正确地表示语音信号的时域和频域特性[7，8]。

在本文中，每一个语音信号样本都用p个之前采集的语音样本的权和加上一个激励表示，如公式（4）。s[n]表示表示语音信号样本，a[k]表示预测系数。在保证最小预测误差的情况下，获取线性预测系数。

s[n]≈a[k]s[n-k] （4）

总的平方预测误差为：

e=（∑n[s]-a[k]s[n-k] ）2 （5）

线性预测分析就是要确定a[k]的值，使得（5）的值最小。可以通过使（5）a[k]对应的偏导数为0，获取最终的a[k]。

具体的实验步骤为：首先，从包含有预先定义好的输入和目标向量集的数据文件中加载数据，通过数据挖掘提取特征信息并优化，创建神经网络，再用加载的数据对神经网络进行训练，直至找到输入和目标之间的关系。

4 实验结果

二层前馈网络是最常见的采用反向传播算法的神经网络。反向传播算法的主要思想是通过输入信息经输入层和隐层逐层计算出各单元的输出值，然后将输出误差逐层向前计算出各单元的误差并利用此误差修正前层的权值。文中实验采用的就是这种二层前馈网络，在其隐层使用了20个神经元，输出层的神经元为1个。

实验先对神经网络进行训练。然后，采用了25个人的100组语音数据对神经网络进行测试，实验结果如表1所示。此模型总的准确率为94.5%。

5 结语

通过实验可以看出，采用反向传播算法的神经网络模型适合于语音识别。下一步，通过优化数据挖掘算法，进而语音特征进行进一步的优化，进一步提高模型的性能。

参考文献

[1]毛健，赵红东，姚婧婧.人工神经网络的发展及应用[J].电子设计工程，2011，19（24）：62-65.

[2]汤素丽，罗宇锋.人工神经网络技术的发展与应用[J].电脑开发与应用，2009，22（10）：59-61.

[3]于俊婷，刘伍颖，易绵竹，李雪，李娜.国内语音识别研究综述[J].计算机光盘软件与应用，2014，17（10）：76-78.

[4]禹琳琳.语音识别技术及应用综述[J].现代电子技术，2013，36（13）：43-45.

[5]詹新明，黄南山，杨灿.语音识别技术研究进展[J].现代计算机（专业版），2008，（09）：43-45+50.

[6]纪友芳，刘桂斌.一种改进的线性预测语音编码技术及实现[J].计算机工程与应用，2009，45（15）：163-165.

[7]孔俊宝.语音信号的线性预测编码技术[J].电讯技术，1987，（05）：31-40.

[8]王山海，景新幸，杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J/OL].计算机应用研究，2015，32（08）：2289-2291+2298.