点个赞
如果我们熟悉自注意力的话,就会发现Q和K矩阵结合的时候,会有一个长度为句子长度的权重矩阵,假如有句子abc,求abc的注意力权重矩阵的话,那就是一个3*3的矩阵如下矩阵。
我们假设了句子长度为3,那么V矩阵肯定也是宽为3,因为有三个词汇痲,长度为n的矩阵,假设n为5,每一行都是一个词向量。如下图
直接使用矩阵乘法将这两个矩阵相乘即可,得到一个形状一样的矩阵,这就是新的abc词向量。为什么使用矩阵乘法相乘就可以了呢,意义在哪里?
权重和V矩阵(词向量矩阵)的关系
1、只有a的时候,没有词汇对a造成影响,所以其他是负无穷大,类似我们看文章,我们对当前词的判断,来源于当前词的前面的词的影响,不考虑当前词的后面的词。
2.a和b存在的时候,a和b共同组成一个综合的语义,那a对综合语义影响大,还是b对综合语义影响大吗,为什么不叫b的新词向量,叫a和b的综合词向量呢?我认为,b的原语义,受到a语义的影响,那么b原语义就会被减弱,实际上是a和b的共同结果形成的新词向量,如下。
3.a和b,c存在的时候,a和b,c共同组成一个综合的语义,那a对综合语义影响大,还是b对综合语义影响大,还是c对综合语义影响大,如下。
得到下图 3 * 5 矩阵
刚刚刚刚刚刚刚刚刚刚刚刚刚刚刚刚刚刚刚刚刚 好 矩阵乘法满足我们对于词汇权重和V词向量矩阵的算法定义。。。。。。。。。。。。。。。。