文本分类-RNN-LSTM

1.前言

本节介绍RNN和LSTM，并采用它们在电影评论数据集上实现文本分类，会涉及以下几个知识点。

1. 词表构建：包括数据清洗，词频统计，词频截断，词表构建。

2. 预训练词向量应用：下载并加载Glove的预训练embedding进行训练，主要是如何把词向量放到nn.embedding层中的权重。

3. RNN及LSTM构建：涉及nn.RNN和nn.LSTM的使用。

2.任务介绍

本节采用的数据集是斯坦福大学的大型电影评论数据集（large movie review dataset） https://ai.stanford.edu/~amaas/data/sentiment/

包含25000个训练样本，25000个测试样本，下载解压后得到aclImdb文件夹，aclImdb下有train和test，neg和pos下分别有txt文件，txt中为电影评论文本。

来看看一条具体的样本，train/pos/3_10.txt：

本节任务就是对这样的一条文本进行处理，输出积极/消极的二分类概率向量。

3.数据模块

文本任务与图像任务不同，输入不再是像素这样的数值，而是字符串，因此需要将字符串转为矩阵运算可接受的向量形式。

为此需要在数据处理模块完成以下步骤：

a.分词：将一长串文本切分为一个个独立语义的词，英文可用空格来切分。

b. 词嵌入：词嵌入通常分两步。首先将词字符串转为索引序号，然后索引序号根据词嵌入矩阵（embedding层）取对应的向量。其中词与索引之间的映射关系需要提前构建，这就是词表构建的过程。

因此，代码开发整体流程：

1. 编写分词功能函数

2. 构建词表：对训练数据进行分词，统计词频，并构建词表。例如{'UNK': 0, 'PAD': 1, 'the': 2, '.': 3, 'and': 4, 'a': 5, 'of': 6, 'to': 7, ...}

3. 编写PyTorch的Dataset，实现分词、词转序号、长度填充/截断序号转词向量的过程由模型的nn.Embedding层实现，因此数据模块只需将词变为索引序号即可，接下来一一解析各环节核心功能代码实现。

序号转词向量的过程由模型的nn.Embedding层实现，因此数据模块只需将词变为索引序号即可，接下来一一解析各环节核心功能代码实现。

4.词表构建

参考配套代码a_gen_vocabulary.py，首先编写分词功能函数，分词前做一些简单的数据清洗，例如在标点符号前加入空格、去除掉不是大小写字母及 .!? 符号的数据。

接着，写一个词表统计类实现词频统计，和词表字典的创建，代码注释非常详细，这里不赘述。运行代码，即可完成词频统计，词表的构建，并保存到本地npy文件，在训练及推理过程中使用。

在词表构建过程中有一个截断数量的超参数需要设置，这里设置为20000，即最多有20000个词的表示，不在字典中的词被归为UNK这个词。

在这个数据集中，原始词表长度为74952，即通过split切分后，有7万多个不一样的字符串，通常可以通过降序排列，取前面一部分即可。

代码会输出词频统计图，也可以观察出词频下降的速度以及高频词是哪些。

5.Dataset编写

参考配套代码aclImdb_dataset.py，getitem中主要做两件事，首先获取label，然后获取文本预处理后的列表，列表中元素是词所对应的索引序号。

在self.word2index.encode中需要注意设置文本最大长度self.max_len，这是由于需要将所有文本处理到相同长度，长度不足的用词填充，长度超出则截断。

6.模型模块——RNN

模型的构建相对简单，理论知识在这里不介绍，需要了解和温习的推荐看看《动手学》。这里借助动手学的RNN图片讲解代码的实现。

在构建的模型RNNTextClassifier中，需要三个子module，分别是:

1. nn.Embedding：将词序号变为词向量，用于后续矩阵运算

2. nn.RNN：循环神经网络的实现

3. nn.Linear：最终分类输出层的实现

在forward时，流程如下：

1. 获取词向量

2. 构建初始化隐藏层，默认为全0

3. rnn推理获得输出层和隐藏层

4. fc层输出分类概率：fc层的输入是rnn最后一个隐藏层

更多关于nn.RNN的参数设置，可以参考官方文档：

torch.nn.RNN(self, input_size, hidden_size, num_layers=1, nonlinearity='tanh', bias=True, batch_first=False, dropout=0.0, bidirectional=False, device=None, dtype=None)

7.模型模块——LSTM

RNN是神经网络中处理时序任务最为经典的设计，但是其也存在一些缺点，例如梯度消失和梯度爆炸，以及长期依赖问题。

当序列很长时，RNN模型很难捕捉到远距离的依赖关系，导致模型预测不准确。

为此，带门控机制的RNN涌现，包括GRU（Gated Recurrent Unit，门控循环单元）和LSTM（Long Short-Term Memory，长短期记忆网络），其中LSTM应用最广，这里直接跳过GRU。 LSTM模型引入了三个门（input gate、forget gate和output gate），用于控制输入、输出和遗忘的流动，允许模型有选择性地忘记或记住一些信息。

input gate用于控制输入的流动

forget gate用于控制遗忘的流动

output gate用于控制输出的流动

相较于RNN，除了输出隐藏层向量h，还输出记忆层向量c，不过对于下游使用，不需要关心向量c的存在。同样地，借助《动手学》中的LSTM示意图来理解代码。

在这里，借鉴《动手学》的代码，采用的LSTM为双向LSTM，这里简单介绍双向循环神经网络的概念。

双向循环神经网络（Bidirectional Recurrent Neural Network，Bi-RNN）同时考虑前向和后向的上下文信息，前向层和后向层的输出在每个时间步骤上都被连接起来，形成了一个综合的输出，这样可以更好地捕捉序列中的上下文信息。

在pytorch代码中，只需要将bidirectional设置为True即可，

nn.LSTM(embed_size, num_hiddens, num_layers=num_layers, bidirectional=True)。

当采用双向时，需要注意output矩阵的shape为 [ sequence length ， batch size ，2×hidden size]

更多关于nn.LSTM的参数设置，可以参考官方文档：torch.nn.LSTM(self, input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0.0, bidirectional=False, proj_size=0, device=None, dtype=None)

详细参考：https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html#torch.nn.LSTM