3 种自然语言处理(NLP)技术：RNN、Transformers、BERT

自然语言处理 (NLP) 是人工智能的一个领域，旨在使机器能够理解文本数据。NLP 研究由来已久，但直到最近，随着大数据和更高计算处理能力的引入，它才变得更加突出。

随着 NLP 领域的规模越来越大，许多研究人员都试图提高机器理解文本数据的能力。经过大量的进步，许多技术在 NLP 领域被提出并应用。

本文将比较 NLP 领域中处理文本数据的各种技术。本文将重点讨论 RNN、Transformers 和 BERT，因为它们是研究中经常使用的技术。让我们开始吧。

< NLP - RNN、Tranformers、BERT>

循环神经网络

循环神经网络(RNN) 于 1980 年开发，但最近才在 NLP 领域引起关注。RNN 是神经网络家族中的一种特殊类型，用于处理顺序数据或不能相互独立的数据。顺序数据示例包括时间序列、音频或文本句子数据，基本上是任何具有有意义顺序的数据。

RNN 与常规前馈神经网络不同，因为它们处理信息的方式不同。在常规前馈神经网络中，信息是在层之后处理的。然而，RNN 使用循环周期来处理信息输入。为了理解差异，让我们看下面的图片。

如您所见，RNN 模型在信息处理过程中实现了循环。RNN 在处理此信息时会考虑当前和以前的数据输入。这就是为什么该模型适用于任何类型的顺序数据。

如果我们以文本数据为例，假设我们有句子“我早上 7 点起床”，并且我们将单词作为输入。在前馈神经网络中，当我们到达单词“起床”时，模型已经忘记了单词“我”、“起床”和“起床”。但是，RNN 会使用每个单词的每个输出并将它们循环回来，这样模型就不会忘记。

在 NLP 领域，RNN 经常用于许多文本应用，例如文本分类和生成。它经常用于词级应用，例如词性标注、下一个词生成等。

深入研究文本数据上的 RNN，RNN 有很多种类型。例如，下图是多对多类型。

看上图，我们可以看到每个步骤（RNN 中的时间步）的输出都是一步一步处理的，并且每次迭代总是考虑先前的信息。

另一种在许多 NLP 应用中使用的 RNN 类型是编码器-解码器类型（Sequence-to-Sequence）。其结构如下图所示。

此结构引入了模型中使用的两个部分。第一部分称为编码器，它接收数据序列并基于该序列创建新的表示。该表示将用于模型的第二部分，即解码器。使用此结构，输入和输出长度不一定相等。示例用例是语言翻译，其输入和输出之间的长度通常不相同。

使用 RNN 处理自然语言数据有各种好处，包括：

但是，它也存在一些缺点：

RNN 容易受到梯度消失和梯度爆炸的影响。梯度消失是指梯度结果接近于零（消失），导致网络权重仅更新很小的量，或者梯度结果非常显著（爆炸），以至于赋予网络不切实际的巨大重要性。
由于模型的序列特性，训练时间较长。
短期记忆意味着模型训练的时间越长，就会开始忘记。RNN 有一个扩展，称为LSTM，可以缓解这个问题。

Transformers

Transformers 是一种 NLP 模型架构，旨在解决 RNN 中以前遇到的序列到序列任务。如上所述，RNN 在短期记忆方面存在问题。输入越长，模型在遗忘信息方面就越突出。这就是注意力机制可以帮助解决问题的地方。

Bahdanau等人(2014)在论文中引入了注意力机制，用于解决长输入问题，尤其是编码器-解码器类型的 RNN。我不会详细解释注意力机制。基本上，它是一个层，允许模型在进行输出预测的同时专注于模型输入的关键部分。例如，如果任务是翻译，那么输入单词“Clock”将与印尼语中的“Jam”高度相关。

transformers 模型由Vaswani等人(2017)提出。该架构受到编码器-解码器 RNN 的启发，并考虑到注意力机制而构建，并且不按顺序处理数据。整个 transformers 模型的结构如下图所示。

在这里插入图片描述