浅析循环神经网络的研究进展

2019-09-10 07:22刘昌健
科学导报·科学工程与电力 2019年40期
关键词:深度学习

【摘  要】现如今循环神经网络(recurrent neural network,RNN)已经成为一种动态处理时间序列数据的高效的神经网络工具。循环神经网络(RNNs)能够从时间序列数据中学习特征和长期依赖关系。循环神经网络几乎可以对任何动态系统进行建模,但是训练过程中极易出现长程依赖的问题。本文介绍了循环神经网络在深度学习领域的基本原理和最新进展,并且分析了今后的研究挑战。

【关键词】循环神经网络;动态系统;深度学习;

RNN的提出与发展

人工神经网络(ANNs)是由被称为人工神经元的连接单元层构成的,其中浅层网络是指一个输入层,一个输出层,最多一个隐含层,没有重复连接的人工神经网络。随着层数的增加,网络的复杂度也随之增加,更多的层数或重复连接通常会增加网络的深度,并使其能够提供不同层次的数据表示和特征提取,这称为深度学习。由于各层的非线性组成所造成的优化困难,在2006年之前,深度网络体系结构方面的工作并不多[1]。而具有循环连接的神经网络被称为循环神经网络(RNNs),它能够对序列数据建模以进行序列识别和预测[2]。RNNs使用隐藏状态在时间维度上对数据信息进行保存和更新,这种结构使RNNs能够长时间存储、记忆和处理过去的复杂信息。基于RNNs的文献中已经发表了大量的论文,从架构涉及到应用发展。表1汇总了RNNs随着时间发展的主要研究进展。

梯度下降算法的发展给RNNs的研究提供了助力,但是RNNs的模型结构导致梯度消失或者爆炸的问题无法避免。为了解决上述问题,带有特殊门控机制的LSTM网络于1997年被提出[3]。到目前为止,已经有超过1000篇关于LSTM和其变体的研究论文发表,其中,900篇是在2015年后发表的。

RNN和其主要变体

循环神经网络(RNN)

RNN是前馈神经网络的一种,它通过包含跨越相邻时间步的有向边来增强单元计算,从而在模型中加入了时间的概念。在时刻t,模型的输入为x,前一个时刻的隐藏状态为h

则RNN的公式可以定义为:

h= tanh(Wh + Wx + b)

其中WW和b是可训练的权重参数,可通过BPTT(backpropagation through time)算法进行更新。

长短时记忆网络(LSTM)

LSTM是一种带有三个门控函数的特殊RNN变体,成功的解决了RNN的梯度消失爆炸问题,并且在传统的机器学习深度学习领域广泛应用。LSTM定义如下:

i=        sigmoid(Wx + Wh + b)

f=        sigmoid(Wx + Wh + b)

o=        sigmoid(Wx + Wh + b)

c= tanh(Wx + Wh + b)

c= fΘc+ iΘc

h= oΘtanh(c)

RNN应用方向

RNN主要应用于自然语言处理领域中,比如语言模型任务。LSTM的提出改进了用于语言建模的RNN模型,因为LSTM能够更好地学習序列中的长期依赖关系,而不是简单的隐藏状态。RNN还被应用如生成文学作品如诗词,歌词等。此外,RNN还在文档分类中表现优秀,如GRU被用来进行文档级情绪分析,RCNNs被用于多个数据集的文本分类。在这种方法中,通常将单词映射到一个特征向量,然后将特征向量序列作为输入传递给RNN模型。

在语音信号识别领域中,语音和音频信号会随着时间不断变化,音频信号固有的时序性和时变特性使RNNs成为该领域学习特征的理想模型。在图像识别领域中,虽然CNN在计算机视觉和图像处理方面的应用占主导地位,但RNNs在图像标记、图像建模和手写识别等方面也显示出良好的前景。

参考文献:

[1]Bengio Y,Boulanger-Lewandowski N,Pascanu R.Advances in optimizing recurrent networks[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2013:8624-8628.

[2] Bengio Y,Simard P,Frasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks,1994,5(2):157-166.

[3] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.

作者简介:

刘昌健(1994-),河北沧州人,宁夏大学硕士研究生在读,主要研究深度学习、自然语言处理方向。

(作者单位:宁夏大学信息工程学院)

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究