CS 224N总结

news2025/4/28 10:22:19

CS 224N网址：Stanford CS 224N | Natural Language Processing with Deep Learning

Lecture1

PPT网址：PowerPoint Presentation (stanford.edu)

这一讲主要讲了NLP研究的对象，我们如何表示单词的含义，以及Word2Vec方法的基本原理。

这里我们简单介绍一些Word2Vec方法的基本原理：人们认为，一个词往往与其上下文词的含义差不多，因此想要这些词的表达向量也差不多，我们定义一个窗口内的词为中心词和上下文词，如下图所示。

在这里插入图片描述

损失函数可写为：

$J(\theta)=-\frac{1}{T} \log L(\theta)=-\frac{1}{T} \sum_{t=1}^T \sum_{\substack{m \leq j \leq m \\ j \neq 0}} \log P\left(w_{t+j} \mid w_t ; \theta\right)$
- loss改写成对数是为了方便计算，这样所有的乘都会变成相加
为什么每个词要使用两个向量？（Lecture2的PPT中有提到，但不太详细）
- 为了方便数学计算
  - softmax: $\mid c)=\frac{\exp \left(u_o^T v_c\right)}{\sum_{w \in V} \exp \left(u_w^T v_c\right)}$
  - 可以注意到，在分母上，有这么一项 $\sum_{w \in V}u_w^Tv_c$ ，如果我们将其对 $v_c$ 求导，结果为 $\sum_{w \in V} u_w$ 。然而，如果我们不使用两组向量，则该项应该写为 $\sum_{w \in V}v_w^Tv_c$ ，这里需要注意的是， $w$ 可能与 $c$ 相同，我们可以写成 $\sum_{w \in V ,w \ne c}v_w^Tv_c + v_c^Tv_c$ ，对 $v_c$ 求导，结果为 $\sum_{w \in V ,w \ne c}v_w + 2v_c$ ，这会导致求导结果不如使用两种向量得到的结果容易理解。
- 最终两个向量会很相似，但是不相同，我们取两个向量的平均来表达最终的word vector
- 具体推导：01 Introduction and Word Vectors - The Sun Also Rises

PPT网址：cs224n-2023-lecture02-wordvecs2.pdf (stanford.edu)

Bag of words 模型：模型不考虑词的顺序，对一个词在不同位置的预测都是一样的

Word2Vec的两种变体：
- Skip-grams：给定中心词来预测上下文单词（我们展示的Word2Vec model就是这种形式）
- Continuous Bag of Words(CBOW)：通过上下文单词来预测中心词

可以用来更新的方法：

可以用来训练的 loss function：

在上面，我们使用的loss function是朴素 softmax

$J(\theta)=-\frac{1}{T} \log L(\theta)=-\frac{1}{T} \sum_{t=1}^T \sum_{\substack{m \leq j \leq m \\ j \neq 0}} \log P\left(w_{t+j} \mid w_t ; \theta\right)$
- $P(w_{t+j} |w_t;\theta) = P(o|c)$ ，这一项的分母计算量很大，因此在标准的word2vec中，我们不采用这种形式，而是利用负采样方法
- 负采样的核心思想：训练二元逻辑回归来区分一个真对（中心词与上下文窗口中的词）和一些噪音对（中心词与一些随机的词）

负采样的 loss function：

最大化 $J_t(\theta)=\log \sigma\left(u_o^T v_c\right)+\sum_{i=1}^k \mathbb{E}_{j \sim P(w)}\left[\log \sigma\left(-u_j^T v_c\right)\right]$
- 我们在第一个对数中使两个词同时出现的概率最大化，在第二个对数中使噪声词的概率最小化
- k代表采样的负样本个数
这可以写成 $J_{\text {neg-sample }}\left(\boldsymbol{u}_o, \boldsymbol{v}_c, U\right)=-\log \sigma\left(\boldsymbol{u}_o^T \boldsymbol{v}_c\right)-\sum_{k \in\{K \text { sampled indices }\}} \log \sigma\left(\boldsymbol{u}_k^T \boldsymbol{v}_c\right)$
- 利用概率分布 $P(w)=U(w)^{3/4} / Z$ 来采样， $U (w)$ 是unigram分布