浅析循环神经网络的研究进展

2019-09-10 07:22刘昌健

科学导报·科学工程与电力 2019年40期

【摘要】现如今循环神经网络（recurrent neural network，RNN）已经成为一种动态处理时间序列数据的高效的神经网络工具。循环神经网络（RNNs）能够从时间序列数据中学习特征和长期依赖关系。循环神经网络几乎可以对任何动态系统进行建模，但是训练过程中极易出现长程依赖的问题。本文介绍了循环神经网络在深度学习领域的基本原理和最新进展，并且分析了今后的研究挑战。

【关键词】循环神经网络;动态系统;深度学习;

RNN的提出与发展

人工神经网络（ANNs）是由被称为人工神经元的连接单元层构成的，其中浅层网络是指一个输入层，一个输出层，最多一个隐含层，没有重复连接的人工神经网络。随着层数的增加，网络的复杂度也随之增加，更多的层数或重复连接通常会增加网络的深度，并使其能够提供不同层次的数据表示和特征提取，这称为深度学习。由于各层的非线性组成所造成的优化困难，在2006年之前，深度网络体系结构方面的工作并不多[1]。而具有循环连接的神经网络被称为循环神经网络（RNNs），它能够对序列数据建模以进行序列识别和预测[2]。RNNs使用隐藏状态在时间维度上对数据信息进行保存和更新，这种结构使RNNs能够长时间存储、记忆和处理过去的复杂信息。基于RNNs的文献中已经发表了大量的论文，从架构涉及到应用发展。表1汇总了RNNs随着时间发展的主要研究进展。

梯度下降算法的发展给RNNs的研究提供了助力，但是RNNs的模型结构导致梯度消失或者爆炸的问题无法避免。为了解决上述问题，带有特殊门控机制的LSTM网络于1997年被提出[3]。到目前为止，已经有超过1000篇关于LSTM和其变体的研究论文发表，其中，900篇是在2015年后发表的。

RNN和其主要变体

循环神经网络（RNN）

RNN是前馈神经网络的一种，它通过包含跨越相邻时间步的有向边来增强单元计算，从而在模型中加入了时间的概念。在时刻t，模型的输入为x，前一个时刻的隐藏状态为h

则RNN的公式可以定义为：

h= tanh（Wh + Wx + b）

其中WW和b是可训练的权重参数，可通过BPTT（backpropagation through time）算法进行更新。

长短时记忆网络（LSTM）

LSTM是一种带有三个门控函数的特殊RNN变体，成功的解决了RNN的梯度消失爆炸问题，并且在传统的机器学习深度学习领域广泛应用。LSTM定义如下：

i= sigmoid（Wx + Wh + b）

f= sigmoid（Wx + Wh + b）

o= sigmoid（Wx + Wh + b）

c= tanh（Wx + Wh + b）

c= fΘc+ iΘc

h= oΘtanh（c）

RNN应用方向

RNN主要应用于自然语言处理领域中，比如语言模型任务。LSTM的提出改进了用于语言建模的RNN模型，因为LSTM能够更好地学習序列中的长期依赖关系，而不是简单的隐藏状态。RNN还被应用如生成文学作品如诗词，歌词等。此外，RNN还在文档分类中表现优秀，如GRU被用来进行文档级情绪分析，RCNNs被用于多个数据集的文本分类。在这种方法中，通常将单词映射到一个特征向量，然后将特征向量序列作为输入传递给RNN模型。

在语音信号识别领域中，语音和音频信号会随着时间不断变化，音频信号固有的时序性和时变特性使RNNs成为该领域学习特征的理想模型。在图像识别领域中，虽然CNN在计算机视觉和图像处理方面的应用占主导地位，但RNNs在图像标记、图像建模和手写识别等方面也显示出良好的前景。

参考文献：

[1]Bengio Y，Boulanger-Lewandowski N，Pascanu R.Advances in optimizing recurrent networks[C]//2013 IEEE International Conference on Acoustics，Speech and Signal Processing.IEEE，2013：8624-8628.

[2] Bengio Y，Simard P，Frasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks，1994，5（2）：157-166.

[3] Hochreiter S，Schmidhuber J.Long short-term memory[J].Neural computation，1997，9（8）：1735-1780.

作者简介：

刘昌健（1994-），河北沧州人，宁夏大学硕士研究生在读，主要研究深度学习、自然语言处理方向。

（作者单位：宁夏大学信息工程学院）