李沐-《动手学深度学习》--03-注意力机制

一、注意力机制

1 . 注意力提示

1）框架

在这里插入图片描述

**随意：**跟随自己的想法的，自主的想法，例如query

**不随意：**没有任何偏向的选择，例如 Keys

如何得到 k v q
在这里插入图片描述

2）Nadaraya-Watson核回归

在这里插入图片描述

就是一个softmax，但是不可以学习，输入一个x_pred以后，将离x_pred由近到远的x_train所对应的y_train给定从大到小的权值，然后最后将所有的y_train和自己对应的权重相乘再相加起来得到最后的y_pred

3) 参数化的注意力机制

在这里插入图片描述
参数w可以指控预测函数的平滑程度

4）总结

2 . 注意力分数

1）框架

在这里插入图片描述

**注意力权重:**大于0小于1加起来等于1的权重

**注意力分数：**就是注意力权重没有normalize的情况

2）拓展到高维度

a . Notion

b . Additive Attention（任意长度k，q，v）

在这里插入图片描述

q , k , v都可以任意长度，然后最后都会并起来放到一个单隐藏层

c . Scaled Dot-Product Attention

在这里插入图片描述

当q，k，v的长度都一样的时候，第一个是简单的点积版本，第二个是向量化的版本

3）总结

在这里插入图片描述

4）mask_softmax

mask_softmax作用：将输入的向量或者矩阵，在计算softmax的时候，忽略掉一部分，只对我们想要的一部分做softmax，不想要的部分直接赋值为-1e6 使得做指数运算的时候为0

3 . 使用注意力机制的Seq2Seq

1）框架

在这里插入图片描述

**key-value:**指的是Encoder的每一个词的RNN的输出

**query：**解码器的对上一个词的预测输出，和key-value放入attention里面去找原文附近

2）总结

在这里插入图片描述

4 . 自注意力

1）框架

2）输入到输出的操作

在这里插入图片描述

3）Multi-head Self-attention

一个数据可以是有多个不同的相关性，所以可以设置多个不同的q,将单层的q k v 拆分成多层的q k v

4）Position Encoding

在这里插入图片描述

5 . Transformer

1）架构

在这里插入图片描述

2）Multi-head Self-attention

在这里插入图片描述

多头注意力机制是将

3）掩码的multi-head self-attention

在这里插入图片描述

正常做自注意力的时候，是会看到所有的输入的元素，而进行解码预测的时候只能看到已经预测的，需要对其他的进行遮盖

4）基于位置的前馈网络

实质就是全连接层

pytorch的dense中，高于二维的向量做linear，高于二维的都当作样本维

5）layer - normalization

有b句话，每句话有len个词，每个词由d个特征表示，BN是对所有句子所有词的某一特征做归一化，LN是对某一句话的所有词所有特征单独做归一化

LayerNorm中没有batch的概念，所以不会像BatchNorm那样跟踪统计全局的均值方差，因此train()和eval()对LayerNorm没有影响

layerNorm是将每个样本进行归一化，batchNorm是所有样本的同一个特征进行归一化、
在这里插入图片描述

6）embeddings and softmax & position encoding

encoder ，decoder，pre-softmax 都是共享一个权重矩阵，然后乘d position是将位置信息直接加入到输入里面

7）预测

8）总结

在这里插入图片描述

和RNN的区别： 两个都是会使用序列的信息，不同的是RNN是通过将上一个的输出也加入到当前的输入用作序列信息，而Attention机制是在提取的时候就将序列信息就提取出来了

6 . Bert

NLP 里的迁移学习

在计算机视觉中比较流行，将 ImageNet 或者更大的数据集上预训练好的模型应用到其他任务中，比如小数据的预测、图片分类或者是目标检测

1、使用预训练好的模型（例如 word2vec 或语言模型）来抽取词、句子的特征

2、做迁移学习的时候，一般不更新预训练好的模型

3、在更换任务之后，还是需要构建新的网络来抓取新任务需要的信息

使用预训练好的模型来抽取特征的时候，一般得到的是一些比较底层的特征，很多时候只是当成一个 embedding 层来使用，还是需要设计一个比较复杂的模型
word2vec 忽略了时序信息
语言模型只看一个方向，而且训练的模型不是很大（RNN 处理不了很长的序列，因为它只能看到很短的一部分）

BERT

1、BERT 是芝麻街中一个人物的名字，芝麻街是美国一个针对小朋友启蒙的节目

2、BERT 结合了 ELMo 对上下文进行双向编码以及 GPT 任务无关这两方面的优点，对上下文进行双向编码，并且对于大多数的自然语言处理任务只需要最少的架构改变

通过将整个序列作为输入，ELMo 是为输入序列中的每一个单词分配一个表示的函数（ELMo 将来自预训练的双向长短期记忆网络的所有中间层表示组合为输出表示，ELMo 的表示将作为附加特征添加到下游任务的现有监督模型中）
在加入 ELMo 表示之后，冻结了预训练的双向 LSTM 模型中的所有权重；现有的监督模型是专门为给定的任务定制的（为每一个自然语言处理任务设计一个特定的架构实际上并不是一件容易的事情），利用不同任务的不同最佳模型，添加 ELMo 改进了六种自然语言处理任务的技术水平：情感分析、自然语言推断、语义角色标注、共指消解、命名实体识别和回答
GPT （Generative Pre Training ，生成式预训练）模型为上下文的敏感表示设计了通用的任务无关模型，它在 Transformer 解码器的基础上，预训练了一个用于表示文本序列的语言模型，当将 GPT 应用于下游任务时，语言模型的输出被送到一个附加的线性输出层，以预测任务的标签
与 ELMo 冻结预训练模型的参数不同，GPT 在下游任务的监督学习过程中对预训练 Transformer 解码器中的所有参数进行微调，GPT 在自然语言推断、问答、句子相似性和分类等12项任务上进行了评估，并在对模型架构进行最小更改的情况下改善了其中9项任务的最新水平
ELMo 对上下文进行双向编码，但使用特定于任务的架构；GPT 是任务无关的，但是从左到右编码上下文（由于语言模型的自回归特性，GPT 只能向前看（从左到右））
在下游任务的监督学习过程中，BERT 在两方面与GPT相似：BERT 表示将被输入到一个添加的输出层中，根据任务的性质对模型架构进行最小的更改（例如预测每个词元与预测整个序列）；BERT 对预训练 Transformer 编码器的所有参数进行微调，而额外的输出层将从头开始训练
BERT 进一步改进了 11 种自然语言处理任务的技术水平，这些任务分为以下几个大类：单一文本分类（如情感分析）、文本对分类（如自然语言推断）、问答、文本标记（如命名实体识别）