Glove-词向量

news2026/2/15 15:19:47

文章目录

共现矩阵
共线概率
共线概率比
词向量训练总结
词向量存在的问题

上一篇文章词的向量化介绍了词的向量化，词向量的训练方式可以基于语言模型、基于窗口的CBOW和SKipGram的这几种方法。今天介绍的Glove也是一种训练词向量的一种方法，他是基于共现概率比的一种训练方式。

共现矩阵

首先共现二字很好理解，就是一起出现的意思。对一句话进行切分，可以分成 $n$ 个词,对于这 $n$ 个词，可以形成一个矩阵，矩阵里面的数字就代表着窗口内共同出现的次数，窗口可以选1，代表着两个词相邻出现的次数。窗口如果选2，就是相邻的3个词可以认为共同出现了。

例如语料：
今天天气不错
今天天气很好
天气很好
天气不错

可以形成以下共线矩阵

在这里插入图片描述

共线概率

词 $j$ 出现在词 $i$ 周围的概率，被称为词 $i$ 和词 $j$ 的共现概率 $P(X_{ij}|X_j)=\frac{X_{ij}}{X_j}$ 计算方式就是两个词共同出现的次数除于词 $j$ 的次数。

共线概率比

共现概率比就是两个共现概率的比值。
在这里插入图片描述
对于固体这个词，和冰出现的概率较大，而和蒸汽出现的概率较小，对于两者的比值就是就是一个较大的数字，而对于气体这个词是和冰的共线概率较小和蒸汽这个词的共线概率更大，他们的共线概率值就是一个较小的一个值。而对于中兴词，如水和流行两个词他们和冰与蒸汽的共线概率较为相近，共线概率比就为1。共线概率比就是能反应这样的意思，构建词向量对他们的共线概率比能接近上述的值。这种训练方式就被成为Glove的词向量训练方式。

问题转化：
给定三个词的词向量，Va, Vb, Vc三者的通过某个函数映射后，其比值应接近ABC的共现概率比
即目标为找到向量使得 f(Va, Vb, Vc) = P(A|B)/P(A|C)，预测数值，属于回归问题, 损失函数使用均方差，f的设计论文中给出的是f(Va, Vb, Vc) = (Va - Vb )·Vc。