Word2Vec浅谈

news2025/7/8 8:28:11

论文地址：Efficient Estimation of Word Representations in Vector Space
个人认为，word2vec主要解决的问题是one-hot中维度过高并且稀疏的问题。word2vec是Google团队在2013年发表的一篇paper，当时一经问世直接将NLP领域带到了一个新的高度，在2018年bert被提出之前，word2vec一直是NLP算法工程师追捧的预训练词向量模型。
Word2Vec是轻量级的神经网络，其模型仅仅包括输入层、隐藏层和输出层，模型框架根据输入输出的不同，主要包括CBOW和Skip-gram模型。CBOW是知道 $w_{t-2}$ , $w_{t-1}$ , $w_{t+1}$ , $w_{t+2}$ ,预测 $w_t$ .而Skip-gram是知道 $w_t$ ，预测 $w_{t-2}$ , $w_{t-1}$ , $w_{t+1}$ , $w_{t+2}$
在这里插入图片描述
首先，输入层是一个one-hot向量，具体细节请看前面的博客。例如 $w_{t-2}=[0,0,1,0,0,0]$ 经过一个矩阵 $\begin{bmatrix} 0&1&1\\ 1&1&0\\ 3&5&6\\ 1&1&0\\ 1&0&1\\ \end{bmatrix}$ 将高维度的one-hot向量映射为低维度的向量 $3,5,6]^T$ ，再经过一个矩阵，把低维向量映射回高维，得到输出层 $\begin{bmatrix} 1&1&1&1&1\\ 3&1&0&1&1\\ 2&5&6&1&1\\ \end{bmatrix}$ 这样可以得到输出为 $30,38,39,14,14]^T$ 这就是根据 $w_{t-2}$ 预测得到 $w_t$ 的结果，将 $w_{t-2}$ 扩展到 $w_{t-1}$ , $w_{t+1}$ , $w_{t+2}$ 就是多几个输入的one-hot向量的问题。同理Skip-gram也是一样。总的来说就是一个从高维映射到低维再映射回去的过程。