【LLM_04】自然语言处理基础

一、神经网络
- 1、循环神经网络（RNN）
- 2、门控循环单元（GRU）
- 3、长短期记忆网络（LSTM）
- 4、双向RNN
- 5、卷积神经网络（CNN）
二、注意力机制
- 1、注意力机制原理介绍
- 2、注意力机制的各种变式
- 3、注意力机制的特点

一、神经网络

1、循环神经网络（RNN）

RNN的一个关键点在于它在处理序列数据的期间会进行一个顺序记忆。
序列数据：一段话或者一个音频都可以理解为序列数据。
顺序记忆是一种会使大脑更容易识别这个序列模式的数据的一个机制。而RNN可以很好的利用这个机制，来递归地进行更新我们这个生命记忆，以此来对我们这些序列数据进行一个很好的建模。

在这里插入图片描述

RNN是顺序记忆的原因：因为其每一个时间步下的隐藏状态变量计算都包含了我们过去的一个时间，是一个一个计算，按照顺序来的。

在这里插入图片描述

最终会经过softmax，然后输出词表上每个词的概率，我们选择概率最大的词来做我们的最终预测词。
整个RNN的结构就是每一个RNN单元的不断复制，因此每个RNN单元的功能都是一样的。所以 $W_i,W_h$ 都是相同的，代表输入的矩阵。这里面的权重
RNN的优点：（1）可以处理变量的数据（2）模型的大小不会随着输入的增加而增大，因为这里的权重基本是共享的，有很好的参数共享。
RNN的缺点：（1）由于我们是顺序的计算，因此我们需要计算前一个单元的学习结果，才能得到后面的这个结果，因此时间上较慢。（2）实际应用当中，随着时间步不停地往后进行推移，后面信息单元的计算就较难获取到之前信息单元的计算。
下面介绍两种RNN的变体：GRU和LSTM

2、门控循环单元（GRU）

在这里插入图片描述

门控机制：对当前的信息进行筛选，像阀门一样。GRU有两个门控：（1）更新门：update gate。（2）重置门：reset gate。它们的作用在于权衡我们过去的信息和当前的输入信息之间的比重问题。

3、长短期记忆网络（LSTM）

在这里插入图片描述

黄色方块：神经网络层。
粉色圈圈：元素之间的操作。
箭头：向量的传递。向量的合并与复制。

在这里插入图片描述

LSTM关键在于加了一个新的值，cell state。用它来学习长期的依赖关系。

在这里插入图片描述

第一个门称之为：遗忘门。它的作用主要来决定我们当前上一个状态，有哪些信息可以从cell状态中进行移除。
如果 $f_t=0$ ，即遗忘门的最终计算结果为0，则表示过去的某些信息我们可以直接进行丢弃。

在这里插入图片描述

输入门是决定有哪些信息可以存入cell状态里面去的，其计算方法与遗忘门叫类似。

在这里插入图片描述

最后是输出门，决定了哪些信息可以输出。
综上，LSTM很强大，因为我们每个隐藏层都是已经有一个内部的神经单元网络已经计算好了，所以在我们做堆叠或者我们做的很深的时候，LSTM会表现的性能很好。并且，由于我们引入了门控机制，它会对神经网络的输入和输出进行一个动态的控制，会增强我们对信息的利用能力。最后，LSTM可以有效的缓解梯度的问题。

4、双向RNN

前面提到的RNN都有一个特点，就是每一个时间步下的状态里面的隐藏状态变量都是从我们过去序列，以及当前输入来捕获信息的。或者允许过去的值来影响我们当前的状态。
但是在有些时候，我们计算当前的时候，不仅是依赖过去，还会依赖未来的输入，相当于我们会依赖整个输入序列。
例如：我们对手写体进行识别的时候，不仅会取决于过去，还会取决于未来的几个字，还有语音识别。

5、卷积神经网络（CNN）

在这里插入图片描述

CNN刚出现的时候，是运用在计算机视觉领域。但是由于其结构的特殊性，也可以运用在NLP领域。例如：情感分类、心态分类当中都有较好的运用。【这是归功于CNN比较擅长提取局部和位置不变的模式。】

在这里插入图片描述

CNN提取局部模式的步骤主要是用来计算一个句子当中所有可能的N元组短语的一个表示。
N元组：表示我们选取几个相邻的词作为短语。
CNN的运用领域：目标检测、语音识别、文本分类、视频分类等。

在这里插入图片描述

CNN比较擅长提取局部的特征。RNN可以很好的处理变长的文本。来对变长的文本依赖进行很好的建模。
模型机制不同导致RNN参数更多一些。
CNN主要是使用卷积核，卷积核在计算的时候是没有相互依赖的，因此可以很好的并行计算。RNN则依赖于过去的数据。

二、注意力机制

1、注意力机制原理介绍

Encoder将可变长度的输入序列编码成一个固定长度的向量；
Decoder将固定长度的向量解码成一个可变长度的输出序列；
Encoder-Decoder阶段的编码与解码的方式可以是CNN、RNN、LSTM、GRU等；

首先，以RNN模型为例，这个模型当中存在一个信息瓶颈的问题。

decoder端需要输出一个完整的句子，这要求encoder端得到的最后一个向量表示需要包含它输入句子的所有信息。但是这样的向量无法表达所有句子的多种多样的信息。
研究人员也发现这样的向量容量会限制模型encoder端的表示。因为在encoder端的每一个位置的隐向量都包含有丰富的信息，而其实最后的向量是整个encoder和decoder模型之间的一个信息瓶颈。
在这里插入图片描述
注：上图当中写的Seq2Seq其实是一个抽象的理论，只要满足输入序列生成输出序列的模式，都可以归类为Seq2Seq的模型。