循环神经网络RNN专题（01/6）

一、说明

RNN用于处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。本文将解释这种结构。

二、什么是 RNN？

循环神经网络（RNN）是一种深度学习模型，经过训练后可以处理顺序数据输入并将其转换为特定的顺序数据输出。顺序数据是指单词、句子或时间序列数据之类的数据，其中的顺序分量根据复杂的语义和语法规则相互关联。RNN 是一种由许多相互连接的组件组成的软件系统，这些组件模仿人类进行顺序数据转换的方式，例如将文本从一种语言翻译成另一种语言。RNN 在很大程度上正在被基于转换器的人工智能（AI）和大型语言模型（LLM）所取代，后者在顺序数据处理中的效率要高得多。

三、循环神经网络如何运作？

下图为 RNN 示意图。

RNN 由神经元组成，神经元是协同工作以执行复杂任务的数据处理节点。神经元分为输入层、输出层和隐藏层。输入层接收要处理的信息，输出层提供结果。数据处理、分析和预测在隐藏层中进行。

3.1 隐藏层

RNN 的工作原理是将接收到的顺序数据逐步传递给隐藏层。但是，RNN 还有一个自循环或循环的工作流程：隐藏层可以在短期记忆组件中记住之前的输入并使用这些输入进行未来的预测。它使用当前输入和存储的记忆来预测下一个序列。

例如，考虑以下序列：Apple is red。您想让 RNN 在接收输入序列 Apple is 时预测 red。当隐藏层处理 Apple 一词时，会在记忆中存储一份副本。随后，当接收到 is 一词时，它会从记忆中调取 Apple，并根据上下文理解完整序列：Apple is。然后，它可以预测 red 以提高准确性。这使得 RNN 在语音识别、机器翻译和其他语言建模任务中颇为有用。

3.2 训练

机器学习（ML）工程师通过向模型提供训练数据并优化其性能来训练 RNN 等深度神经网络。在机器学习中，神经元的权重是确定训练期间学到的信息在预测输出时影响力的信号。RNN 中每一层权重相同。

机器学习工程师可调整权重以提高预测准确性。他们使用一种称为随时间反向传播（BPTT）的技术来计算模型误差并相应地调整其权重。BPTT 将输出回滚到前一个时间步长并重新计算错误率。这样，它便可以识别序列中哪个隐藏状态导致了重大错误，并重新调整权重以减少误差幅度。

四、循环神经网络有哪些类型？

RNN 通常以一对一架构为特征：一个输入序列与一个输出关联。但是，您可以根据特定目的灵活将其调整为各种配置。以下是几种常见的 RNN 类型。

一对多

这种 RNN 类型将一个输入传送到多个输出。它通过使用单个关键字生成句子来支持图片说明文字之类的语言应用程序。

多对多

此模型使用多个输入来预测多个输出。例如，您可以使用 RNN 创建语言翻译器，该翻译器可以分析句子并正确用不同语言组织词句。

多对一

多个输入映射到一个输出。这在情绪分析之类的应用程序中非常有用，在情绪分析中，此模型可以根据输入的评价预测客户的正面、负面和中立情绪。

五、循环神经网络与其他深度学习网络相比如何？

RNN 是多种不同神经网络架构中的一种。

5.1 循环神经网络与前馈神经网络

与 RNN 一样，前馈神经网络是将信息从架构的一端传递到另一端的人工神经网络。前馈神经网络可以执行简单的分类、回归或识别任务，但无法记住之前处理的输入。例如，其神经元在处理 is 这个词时，它会忘记 Apple。RNN 通过在神经元中加入隐藏内存状态克服了这种内存限制。

5.2 循环神经网络与卷积神经网络

卷积神经网络是用于处理时序数据的人工神经网络。使用卷积神经网络，您可以通过神经网络中的一系列卷积层和池化层，从视频和图像中提取空间信息。RNN 旨在捕获顺序数据中的长期依赖关系

六、循环神经网络的局限性是什么？

自 RNN 推出以来，机器学习工程师在使用 RNN 及其变体的自然语言处理（NLP）应用程序方面取得了重大进展。但是，RNN 模型系列有一些限制。

6.1 梯度爆炸

在初始训练中，RNN 可能会错误地预测输出。您需要进行多次迭代来调整模型的参数，以降低错误率。您可以将与模型参数对应的误差率的灵敏度描述为梯度。您可以将梯度想象成下山时的斜坡。陡峭的梯度使模型能够更快地学习，而平缓的梯度则会降低学习速度。

当梯度呈指数增长直至 RNN 变得不稳定时，就会发生梯度爆炸。当梯度变得无限大时，RNN 的行为会不稳定，从而导致性能问题，例如过拟合。过拟合是一种现象，即模型可以使用训练数据进行准确预测，但无法对现实世界数据进行同样准确的预测。

6.2 梯度消失

梯度消失问题是训练中模型的梯度接近于零的情况。梯度消失时，RNN 无法有效地从训练数据中学习，从而导致欠拟合。欠拟合模型在现实应用中表现不佳，因为其权重没有进行适当调整。RNN 在处理长数据序列时存在面临梯度消失和梯度爆炸问题的风险。

6.3 训练速度缓慢

RNN 按顺序处理数据，这使其高效处理大量文本的能力受到限制。例如，RNN 模型可以从几句话中分析买家的情绪。但是，总结一页文章需要耗费大量的计算能力、内存空间和时间。

七、循环神经网络架构有哪些变体？

RNN 架构为机器学习模型获得语言处理能力奠定了基础。目前，已经出现了多种变体，它们共享 RNN 内存保留原则并对其原始功能进行了改进。以下是一些示例。

7.1 双向循环神经网络

双向循环神经网络（BRNN）处理具有向前和向后隐藏节点层的数据序列。向前层的工作原理与 RNN 类似，后者将之前的输入存储在隐藏状态中并使用它来预测后续输出。同时，后向层的工作方向相反，采用当前输入和将来的隐藏状态来更新当前的隐藏状态。将这两个层组合起来使 BRNN 能够通过同时考虑过去和未来的上下文来提高预测的准确性。例如，您可以使用 BRNN 来预测“Apple trees are tall”这句话中的“trees”一词。

7.2 长短期记忆网络

长短期记忆网络（LSTM）是一种 RNN 变体，使模型能够扩展其内存容量，适应更长的时间线需要。RNN 只能记住近期输入。无法使用来自前几个序列的输入来改善其预测。

请考虑以下句子：Tom is a cat。 Tom’s favorite food is fish。使用 RNN 时，模型无法记住“Tom is a cat”。在预测最后一个词时，可能会产生各种各样的食物。LSTM 网络在隐藏层添加了一个名为单元的特殊内存块。每个单元都由输入门、输出门和遗忘门控制，使层能够记住有用的信息。例如，单元会记住 Tom 和 cat 这两个词，从而使模型能够预测 fish 这个词。

7.3 门控循环单元

门控循环单元（GRU）是支持选择性内存保留的 RNN。该模型添加了更新，并遗忘了其隐藏层的门，隐藏层可以在内存中存储或删除信息。

八、转换器如何克服循环神经网络的局限性？

转换器是在编码器-解码器前馈神经网络中使用自注意力机制的深度学习模型。它们可以像 RNN 一样处理顺序数据。

8.1 自注意力

转换器不使用隐藏状态来捕获数据序列的相互依赖性。相反，它们使用自注意力头来并行处理数据序列。这使转换器能够使用比 RNN 更短的时间训练和处理更长的序列。借助自注意力机制，转换器可克服 RNN 面临的内存限制和序列相互依赖性。转换器可以并行处理数据序列，并使用位置编码来记住每个输入与其他输入的关系。

8.2 并行性

转换器通过在训练期间启用并行性来解决 RNN 面临的梯度问题。通过同时处理所有输入序列，转换器不受反向传播限制，因为梯度可以自由流向所有权重。它们还针对并行计算进行了优化，图形处理单元（GPU）为生成式人工智能开发提供了这种优化。并行性使转换器能够通过构建更大的模型来大规模扩展和处理复杂的 NLP 任务。