机器学习周报（8.26-9.1）

news2025/4/6 10:34:29

文章目录

摘要
Abstract
self-attetion
- QKV理解
- 如何让self-attention更有效
- - local attention/truncated attention方法
  - stride attention方法
  - Global Attention方法
  - data driving方法
  - - Clustering
    - sinkhorn sorting network
    - 选取representative keys
    - 减少Keys数量的方法
    - self-attention
    - Synthesizer
- 总结

摘要

本周先是好好理解了一下self-attention的QKV的理解，关于如何让自注意力机制更有效的问题，学习了self-attention的多种变形，包括减少注意力矩阵的计算量、加快注意力机制的运算速度、去掉attention等。

Abstract

This week, I first had a good understanding of the QKV of self-attention, about how to make the self-attention mechanism more effective, and learned a variety of variants of self-attention, including reducing the computation amount of attention matrix, speeding up the computation speed of attention mechanism, removing attention and so on.

self-attetion

QKV理解

以搜索查询商品为例：
query可以理解为输入要查询的商品；
key为商品的标签或者title；
value可理解为商品的评价之类的；

相似度=querykey(矩阵乘法) 根据相似度召回
总分=相似度value 根据总分排序输出

在这里插入图片描述

Q(query)：模型从token中提取出来的对token的理解信息，用于主动与其他token计算相似程度
K(key)：模型从token提取出来的，与其他token的关系信息，被用于与其他token计算相似程度
V(value)：表示当前token的重要程度

self-attention中self的理解
self-attention的self，表示query,key,value都来自自己，每个token都能提取出来自己的query,key,value
计算过程

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}}V)$

使用具体例子看一下计算过程：
在这里插入图片描述

在这里插入图片描述

如何让self-attention更有效

自制力机制里面的具体计算过程，如果对目前大多数方法进行抽象的话，可以将其归纳为两个过程：第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。

第一个过程中，输入一个向量，可通过乘以不同的矩阵得到一个query和一个key的向量序列，长度都和输入序列一样（假设为N）。由query和key 两个序列做点积就可以得到attention matrix，这个运算量是NN级的。这种方式最大的问题就是当序列长度太长的时候，对应的 Attention Matrix 维度太大，会给计算带来麻烦。当N很小的时候，运算量放在整个网络里面可以忽略不计，但当N很大的时候，self-attention就有可能主导整个网络的运算量，这时优化self-attention的计算就可以得到显著的影响，这样我们加快self attention 才会对神经网络有帮助。

在这里插入图片描述

local attention/truncated attention方法

例如只看前后两个位置的时候，那么与其他位置的值就可以直接设置为0，例如图中灰色的位置。但是这个这个明显有问题，我们在做attention的时候只能看到小范围的数值，那这个就跟CNN非常相似了，local attention是可以加快我们的attention的方法，但是不一定能得到很好的结果。

在这里插入图片描述

stride attention方法

上面是看前后一步的位置，这样只能看到局部的信息，而stride attention可以看指定步长的邻居，因此可以考虑范围相对广一些，下图的例子考虑间隔两格的邻居，步长设置为2，根据实际问题需要可以设置不同的步长。

在这里插入图片描述

Global Attention方法

如果需要考虑所有的输入，又不想计算量太大，就可以用到global attention。核心思想是加入一个特殊token到原始的sequence里面，在global attention，每个特殊的token都加入每一个token，收集全局信息。每个特殊的token都被其他所有的token加入，以用来获取全局信息。

在这里插入图片描述

Longformer 就是组合了上面的三种 attention

Big Bird 就是在 Longformer 基础上随机选择 attention 赋值，进一步提高计算效率。

在这里插入图片描述

data driving方法

在一个self-attention里面的矩阵里面，某些位置有很大的值，有些位置又有很小的值，那我们是否可以把很小的值变为0，那我们是否能估计矩阵哪里有大值，哪里有小值吗？这个方法叫做clustering。
在这里插入图片描述

Clustering

我们先把query和key取出来，然后根据query和key的相近程度做clustering。对于相近的数据就放在一起，对于比较远的数据就属于不同的cluster。
下面我们有四个cluster，用不同的颜色来标出。

在这里插入图片描述

对于query和key形成的attention matrix来说，只有当query和key的cluster属于同一个的时候，我们才计算他们的attention weight。对于不属于同一个cluster的两个query和key，就把他们设为0。这种方法可以加速我们的运算，这是一种基于数据来决定的！

在这里插入图片描述

sinkhorn sorting network

上面的方法是通过人为决定attention matrix 里面哪些位置不需要计算。而在sinkhorn sorting network里面，机器自己直接学习另外一个network来决定怎么输出这个矩阵。

在这里插入图片描述

我们把输入的序列，经过一个NN之后产生另外一排向量序列，生成一个N×N的的矩阵。我们要把这个生成的不是二进制的矩阵变成我们的attention matrix。这个过程是不用经过二进制变换的，可以直接输出attention matrix。

我们并不需要一个full attention matrix，因为在一个attention matrix里会有很多冗余的列，很多列都是重复的，因此可以去掉冗余的列，缩小attention matrix，加快attention的速度呢。简化attention matrix的方法：减少计算attention的key的数量。

在这里插入图片描述

选取representative keys

假设有N个key，从中选取K个代表的key。然后与N个query序列相乘得到一个N×K的矩阵，然后从N个value，也选取K个代表value。然后我们把这K个value和attention matrix做weight sum加权和，就得到attention matrix layer的输出。

在这里插入图片描述

为什么选择代表key，而不选择代表query呢？
因为在self-attention里面输入和输出长度一致，如果改变了query的长度那么就改变了输出的长度，如果是输入一个序列输出一个数值的模型就可以选择代表query。

减少Keys数量的方法

用CNN来扫过输入的key序列，得到一个更短的序列，那这个就是代表性的key。
输入的key序列可以看成是一个d×N的矩阵，由线性代数知识可知，将一个k×N的矩阵乘上一个N×K的矩阵，然后就得到了d*K的矩阵。那这个得到的新矩阵就是代表性key序列。

在这里插入图片描述

self-attention

输入的向量I分别通过变换矩阵 $W^q,W^k,W^v$ 得到Q，K，V矩阵

在这里插入图片描述
忽略softmax

下面这两种计算方式中，得到的结果是相同的，但是两者的计算速度相差甚远

第一个计算方法中， $K^T和Q$ 相乘的乘法次数为N×d×N，得到A(attention matrix),通过softmax得到 $A^{'}$ ， $V 与 A^{'}$ 的乘法次数为d×N×N，所以送的计算次数为： $d+d')N^2$
第二个计算方法中，总的计算次数为： $2 d^{'} d N$