基于循环神经网络的语音识别研究

2019-08-12 02:35唐美丽胡琼马廷淮
现代电子技术 2019年14期
关键词:语音识别小波变换BP神经网络

唐美丽 胡琼 马廷淮

摘  要: 语音识别作为人工智能研究中不可或缺的一部分已经逐渐渗透到人们的日常生活中。针对传统语音识别方法不能很好地实现并识别复杂多变、非特定人语音的问题,文中提出利用在时间序列上关联性较强的循环神经网络(RNN)建立语音识别模型。考虑到語音信号丰富的时频信息表达,在特征提取环节进行改进,利用具有较好时频分辨率的小波变换(WT)取代快速傅里叶变换(FFT)作为该模型的输入;然后,采用随时间展开的反向传播算法(BPTT)进行特征学习与训练。在实验测试中,首先,对比分析了基于小波变换的特征提取对识别效果的影响;其次,通过与传统的HMM模型及BP神经网络的识别率做对比,验证RNN神经网络可提高语音识别准确率和稳定性。

关键词: 语音识别; 循环神经网络; 反向传播算法; 特征提取; 小波变换; HMM模型; BP神经网络

中图分类号: TN912?34; TP391.1               文献标识码: A                    文章编号: 1004?373X(2019)14?0152?05

Research on speech recognition based on recurrent neural network

TANG Meili, HU Qiong, MA Tinghuai

(Nanjing University of Information Science & Technology, Nanjing 210044, China)

Abstract: Speech recognition as an indispensable part of artificial intelligence research has gradually penetrated into people's daily live. In allusion to the problems that the traditional method of speech recognition can not properly identify the complex and non?specific speech, establishing a speech recognition model based on recurrent neural network (RNN) with strong correlation in time series is propose in this paper. In consideration of the abundant time?frequency information of speech signal, the feature extraction process is improved, in which the wavelet transform (WT) with better time?frequency resolution is used as the input of the model to replace the fast Fourier transform (FFT). The back propagation time algorithm (BPTT) expanding with time is adopted to conduct the feature learning and training. In the experiment test, the contrastive analysis on the influence of the feature extraction based on wavelet transform on recognition effect was carried out, and the recognition rate of the speech recognition model proposed in this paper was compared with that of the traditional HMM model and BP neural network. By the above measures, the RNN neural network is proved that its accuracy of speech recognition rate and the stability of the recognition are improved to a certain extent.

Keywords: speech recognition; recurrent neural network; back propagation algorithm; feature extraction; wavelet transform; HMM model; BP network

0  引  言

随着人工智能的迅猛发展,语音识别作为人机交互的枢纽工具而备受人们青睐,而且已经初步应用于手机、车载系统、搜索引擎、机器人、电子商务等多个领域。语音识别在应用上的蓬勃发展使得对它的研究不断更新和完善,传统的模板匹配方法和统计学习方法对语音识别而言已趋成熟甚至出现了瓶颈[1],而利用人工神经网络进行语音识别因其突出效果而方兴未艾。利用人工神经网络对语音进行学习与处理的优势在于神经网络的工作原理模仿了人脑神经元的活动机理,通过各节点连接形成网络结构再辅之以自适应算法完成识别过程。另一方面神经网络可映射复杂语音信号之间的非线性关系,对语音序列有强大的学习能力[2?3]。语音信号具有在时间序列上展开以及包含丰富的时频信息两个重要特点。传统声学模型虽然分析了各语音音子的内部状态,但忽略了音子与音子之间相互影响的关系;而常用的人工神经网络虽然强调了语言音子之间的联系,但内部状态之间没有形成全连接而是以层与层的形式连接。鉴于以上方法的缺点,本文采用能弥补以上缺陷的循环神经网络进行语音识别的研究。

猜你喜欢
语音识别小波变换BP神经网络
通话中的语音识别技术
MATLAB在《数字图像处理》课程中的辅助教学
基于互信息和小波变换的图像配准的研究
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
BP神经网络算法在数值预报产品释用中的应用
面向移动终端的语音签到系统
农业物联网平台手机秘书功能分析与实现
基于Android手机语音和Arduino控制板的机器人控制系统