深度学习（2）---循环神经网络(RNN)

news2025/4/8 6:05:32

文章目录

一、序列数据和语言模型
- 1.1 序列数据
- 1.2 语言模型
二、循环神经网络(RNN)
- 2.1 概述
- 2.2 门控循环单元(GRU)
- 2.3 长短期记忆网络(LSTM)

一、序列数据和语言模型

1.1 序列数据

1. 在深度学习中，序列数据（Sequence data）是指具有前后顺序关联的数据。常见的时间序列数据、文本数据（单词序列或字符序列）、语音数据等。这种数据不仅十分常见，而且往往具有很高的应用价值，比如我们可以通过过去的天气数据来预测未来的天气状况，通过以往的股票波动数据来推测股票的涨跌等。

比如：Cats average 15 hours of sleep a day.
其中第一个元素 “Cats” 和第三个元素 “15” 就具有关联性。

2. 序列数据的特点主要有以下两点：

时序关系：序列数据中的元素之间存在着时间上的依赖关系，每个元素都与其前面或后面的元素有关联。
变长性：序列数据的长度是可变的，不同序列可能包含不同数量的元素。

1.2 语言模型

1. 在自然语言处理中，语言模型是一种重要的技术，它的主要任务是估测一些词的序列的概率，即预测给定一个词的序列后，接下来可能出现的词的概率。

2. 自然语言处理中最常见的数据是文本数据。我们可以把一段自然语言文本看做一段离散的时间序列。假设一段长度为T的文本中的词依次为w1, w2, …, wT，那么在离散的时间序列中，wt（1 ≤ t ≤ T）可看做在时间步t的输出或者标签。

3. 给定一个长度为T的词的序列w1, w2, …, wT，语言模型将计算该序列的概率，即P(w1, w2, …, wT)。这个概率可以用来评估该词序列出现的可能性，从而在语言识别和机器翻译等任务中起到重要作用。

比如说一句话：“ chu fang li de shi you yong wan le ”。
那这句话是 “ 厨房里的石油用完了 ”还是 “ 厨房里的食油用完了 ”？
那语言模型要做的事是计算这两句序列的概率大小，比较并输出。即：P ( 厨 , 房 , 里 , 的 , 石 , 油 , 用 , 完 , 了 ) < P ( 厨 , 房 , 里 , 的 , 食 , 油 , 用 , 完 , 了)。

4. 语言模型计算序列概率的公式：

在这里插入图片描述
例如，一段含有4个词的文本序列的概率：

在这里插入图片描述

例如：P (我 , 在 , 听 , 课) = P (我) * P （在｜我） * P （听｜我，在） * P （课｜我，在，听）

5. 语言模型缺点：时间步 t 的词需要考虑 t - 1步的词，其计算量随 t 呈指数增长。那我们可以利用循环神经网络来解决这一缺点。

二、循环神经网络(RNN)

2.1 概述

1. 循环神经网络（Recurrent neural networks，简称RNN）是针对序列数据而生的神经网络结构，核心在于循环使用网络层参数，避免时间步增大带来的参数激增，并引入隐藏状态（Hidden State）用于记录历史信息，有效的处理数据的前后关联性。

考虑这样一个问题，如果要预测句子的下一个单词是什么，一般需要用到当前单词以及前面的单词，因为句子中前后单词并不是独立的。比如，当前单词是“很”，前一个单词是“天空”，那么下一个单词很大概率是“蓝”。
循环神经网络的来源就是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上，循环神经网络会记忆之前的信息，并利用之前的信息影响后面结点的输出。也就是说，循环神经网络的隐藏层之间的结点是有连接的，隐藏层的输入不仅包括输入层的输出，还包括上时刻隐藏层的输出。

2. 一个简单的循环神经网络如下所示，它由输入层、一个隐藏层和一个输出层组成：

在这里插入图片描述
3. 如果我们把上面的图展开，循环神经网络也可以画成下面这个样子：