【RNN基础】——一文搞明白RNN

举报
AI浩 发表于 2021/12/23 01:22:46 2021/12/23
【摘要】 目录 1、定义 2、有了CNN,为什么需要RNN? 3、RNN的主要应用领域有哪些呢? 4、RNN的计算过程 5、标准RNN前向输出流程 6、RNN的建模方式 1、一对多(vector-to-sequence ) 2、多对一(sequence-to-vector ) 3、多对多(Encoder-Decoder ) 7...

目录

1、定义

2、有了CNN,为什么需要RNN?

3、RNN的主要应用领域有哪些呢?

4、RNN的计算过程

5、标准RNN前向输出流程

6、RNN的建模方式

1、一对多(vector-to-sequence )

2、多对一(sequence-to-vector )

3、多对多(Encoder-Decoder )

7、CNN和RNN的异同点

8、RNN中为什么会出现梯度消失?如何解决?

9、如何理解RNN的注意力机制


1、定义

循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network) 。

对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一  ,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络  。

2、有了CNN,为什么需要RNN?

在CNN网络中的训练样本的数据为IID数据(独立同分布数据),所解决的问题也是分类问题或者回归问题或者是特征表达问题。但更多的数据是不满足IID的,如语言翻译,自动文本生成。它们是一个序列问题,包括时间序列和空间序列。比如时间序列数据,这类数据是在不同时间点上收集到的数据,反映了某一事物、现象等随时间的变化状态或程度。一般的神经网络,在训练数据足够、算法模型优越的情况下,给定特定的x,就能得到期望y。其一般处理单个的输入,前一个输入和后一个输入完全无关,但实际应用中,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。 这时就要用到RNN网络,RNN的结构图如下所示:

 序列样本一般分为:一对多(生成图片描述),多对一(视频解说,文本归类),多对多(语言翻译)。RNN不仅能够处理序列输入,也能够得到序列输出,这里的序列指的是向量的序列。RNN学习来的是一个程序,也可以说是一个状态机,不是一个函数。

3、RNN的主要应用领域有哪些呢?

RNN的应用领域有很多, 可以说只要考虑时间先后顺序的问题都可以使用RNN来解决.这里主要说一下几个常见的应用领域:

    ① 自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理

    ② 机器翻译, 机器写文章

    ③ 语音识别

    ④ 图像描述生成

    ⑤ 文本相似度计算

    ⑥ 推荐系统。例如:音乐推荐、网易考拉商品推荐、Youtube视频推荐等新的应用领域。

4、RNN的计算过程

在进一步了解RNN之前,先给出最基本的单层网络结构,输入是x,经过变换Wx+b和激活函数f得到输出y

 

在实际应用中,我们还会遇到很多序列形的数据,如:

  • 自然语言处理问题。x1可以看做是第一个单词,x2可以看做是第二个单词,依次类推。

  • 语音处理。此时,x1、x2、x3……是每帧的声音信号。

  • 时间序列问题。例如每天的股票价格等等。

    其单个序列如下图所示:

前面介绍了诸如此类的序列数据用原始的神经网络难以建模,基于此,RNN引入了隐状态h(hidden state),h​可对序列数据提取特征,接着再转换为输出。

为了便于理解,先计算h_1​:


注:图中的圆圈表示向量,箭头表示对向量做变换。

RNN中,每个步骤使用的参数U,W,b​相同,h_2的计算方式和h_1​类似,其计算结果如下:

计算h_3,h_4​也相似,可得:

 

接下来,计算RNN的输出y_1,采用Softmax作为激活函数,根据y_n=f(Wx+b),得y_1​:

使用和y_1​相同的参数V,c​,得到y_1,y_2,y_3,y_4​的输出结构:

以上即为最经典的RNN结构,其输入为x_1,x_2,x_3,x_4,输出为y_1,y_2,y_3,y_4,当然实际中最大值为y_n,这里为了便于理解和展示,只计算4个输入和输出。从以上结构可看出,RNN结构的输入和输出等长。

5、标准RNN前向输出流程

以x表示输入,h是隐层单元,o是输出,L为损失函数,y为训练集标签。t表示t时刻的状态,V,U,W是权值,同一类型的连接权值相同。以下图为例进行说明标准RNN的前向传播算法:

 

对于t时刻:

h^{(t)}=\phi(Ux^{(t)}+Wh^{(t-1)}+b)

其中\phi()为激活函数,一般会选择tanh函数,b为偏置。

t时刻的输出为:

o^{(t)}=Vh^{(t)}+c

模型的预测输出为:

\widehat{y}^{(t)}=\sigma(o^{(t)})

其中\sigma​为激活函数,通常RNN用于分类,故这里一般用softmax函数。

6、RNN的建模方式

    序列样本一般分为:一对多(生成图片描述),多对一(视频解说,文本归类),多对多(语言翻译),针对不同的序列建模方式也不一样。

1、一对多(vector-to-sequence )

     输入是一个单独的值,输出是一个序列。此时,有两种主要建模方式:

    方式一:可只在其中的某一个序列进行计算,比如序列第一个进行输入计算,其建模方式如下:

 

    方式二:把输入信息X作为每个阶段的输入,其建模方式如下:

应用场景:

1、从图像生成文字,输入为图像的特征,输出为一段句子 2、根据图像生成语音或音乐,输入为图像特征,输出为一段语音或音乐

2、多对一(sequence-to-vector )

输入是一个序列,输出是一个单独的值,此时通常在最后的一个序列上进行输出变换,其建模如下所示:

应用场景:

1、输出一段文字,判断其所属类别 2、输入一个句子,判断其情感倾向 3、输入一段视频,判断其所属类别

3、多对多(Encoder-Decoder )

建模步骤如下:

步骤一:将输入数据编码成一个上下文向量c,这部分称为Encoder,得到c有多种方式,最简单的方法就是把Encoder的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。其示意如下所示:

 

步骤二:用另一个RNN网络(我们将其称为Decoder)对其进行编码,方法一是将步骤一中的c​作为初始状态输入到Decoder,示意图如下所示:

 

方法二是将c作为Decoder的每一步输入,示意图如下所示:

1、机器翻译,输入一种语言文本序列,输出另外一种语言的文本序列 2、文本摘要,输入文本序列,输出这段文本序列摘要 3、阅读理解,输入文章,输出问题答案 4、语音识别,输入语音序列信息,输出文字序列

7、CNN和RNN的异同点

类别 特点描述
相同点

1、传统神经网络的扩展。

2、前向计算产生结果,反向计算模型更新。

3、每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接。

不同点

1、CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算

2、RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出

8、RNN中为什么会出现梯度消失?如何解决?

梯度消失的原因:sigmoid函数的导数范围是(0,0.25],tanh函数的导数范围是(0,1],他们的导数最大都不大于1,如果取tanh或sigmoid函数作为激活函数嵌套到RNN中,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。

实际使用中,会优先选择tanh函数,原因是tanh函数相对于sigmoid函数来说梯度较大,收敛速度更快且引起梯度消失更慢。

 解决RNN中的梯度消失方法主要有:

1、选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“,但设定合适的阈值可以解决这个问题。

2、加入BN层,其优点包括可加速收敛、控制过拟合,可以少用或不用Dropout和正则、降低网络对初始化权重不敏感,且能允许使用较大的学习率等。

2、改变传播结构,选择更高级的模型,例如:LSTM结构可以有效解决这个问题。

9、如何理解RNN的注意力机制

在上述的Encoder-Decoder结构中,Encoder把所有的输入序列都编码成一个统一的语义特征c​再解码,因此,c​中必须包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。如机器翻译问题,当要翻译的句子较长时,一个c​可能存不下那么多信息,就会造成翻译精度的下降。Attention机制通过在每个时间输入不同的c​来解决此问题。

引入了Attention机制的Decoder中,有不同的c,每个c​会自动选择与当前输出最匹配的上下文信息,其示意图如下所示:

 

举例,比如输入序列是“我爱中国”,要将此输入翻译成英文:

假如用a{ij}衡量Encoder中第j阶段的h_j和解码时第i阶段的相关性,a{ij}从模型中学习得到,和Decoder的第i-1阶段的隐状态、Encoder 第j个阶段的隐状态有关,比如a_{3j}​的计算示意如下所示:

 

最终Decoder中第i阶段的输入的上下文信息 c_i来自于所有h_j对a_{ij}的加权和。

其示意图如下图所示:

 

在Encoder中,h_1,h_2,h_3,h_4分别代表“我”,“爱”,“中”,“国”所代表信息。翻译的过程中,c_1会选择和“我”最相关的上下午信息,如上图所示,会优先选择a{11},以此类推,c_2会优先选择相关性较大的a{22},c_3会优先选择相关性较大的a{33},a{34},这就是attention机制。

 

文章来源: wanghao.blog.csdn.net,作者:AI浩,版权归原作者所有,如需转载,请联系作者。

原文链接:wanghao.blog.csdn.net/article/details/118029517

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。