【王树森】RNN模型与NLP应用(8/9)：Attention（个人向笔记）

news2025/4/4 19:39:01

前言

基于RNN的Seq2Seq模型无法记住长序列
Attentnion机制可以大幅度提升Seq2Seq模型

Seq2Seq Model with Attention

Attention可以让句子在逐步变长的时候不忘记前面的输入信息
Attention还可以告诉Decoder应该关注哪一个状态
优点：Attention可以大幅度提高准确率
缺点：Attention计算量比较大

Simple RNN + Attention

需要计算最后一个输出的状态和前面所有状态的相关性（权重），把这个权重记为 $\alpha_i$ ，所有的权重总和为1
- 计算方法1（原版）：①把 $h_i$ 和 $s_0$ 做concatenation，②然后和一个矩阵 $W$ （需要被训练的参数）相乘后丢到 tanh 激活函数里面使其范围变为 $[- 1, 1]$ ，③然后再和 $v^T$ 做内积得到一个实数。④最后把所有的权重做一个Softmax。
- 计算方法2（更流行，和Transformer一致）：①将 $h_i$ 与 $W_K$ （需要被训练的参数）相乘得到 $k_i$ ，将 $s_0$ 与 $W_Q$ （需要被训练的参数）相乘得到 $q_0$ ，其中 $k_i$ 和 $q_0$ 都是一维的向量。② $k^T_iq_0$ 得到权重 $\tilde{\alpha_i}$ 。③对所有的 $\tilde{\alpha_i}$ 做 Softmax即可得到权重。
我们对所有的 $h_i$ 利用刚刚算出的权重计算加权平均得出一个向量 $c_0$ ，其中一个 $c$ 对应一个 $s$ ，计算出的加权平均向量被称为 Context vector。
对于更新状态来说，之前的Simple RNN是这样的，它不会去看前面的状态，而是只会看最后一个
而有Attention后更新状态还会把之前的信息 $c_0$ 考虑进去，也就是还会把前面的信息考虑进去，这样就把RNN遗忘的问题解决了
而对于后续的状态 $s_i$ 重复前面的步骤即可，注意每次权重 $\alpha_i$ 都需要重新计算后得出 $c_i$
Question: 有多少权重 $\alpha_i$ 被计算了？
- 对于每一个 $c_i$ ，我们都i需要用 $s_i$ 来计算 $m$ 个权重
- 假设 Decoder 有 $t$ 个状态，那么总共就需要计算 $m t$ 次
- 这个时间复杂度是很高的！
权重可视化：在下面的图中，连线表示相关性，连线越粗，相关性越强。而可以看到Area和zone有比较粗的连线，而英语中的Area就对应法语中的zone：权重指导Decoder关注Encoder中正确（如zone会特别关注Area）的状态，从而生成正确的翻译

Summary

之前的Seq2Seq模型：Decoder只会关注最后一个状态，容易导致遗忘
Attention则会关注Encoder的所有状态
Attention还会指导Decoder关注的侧重点
缺点：更高的计算复杂度，之前的模型只需要 $O (m + t)$ 的复杂度，而Attention则需要 $O (m t)$ 的复杂度，其中 $m$ 是源序列的长度， $t$ 是目标序列的长度