On the Dimensionality of Word Embedding论文解读

news2025/4/2 14:26:45

基本信息

作者	Zi Yin	doi	10.3115/v1/D14-1162
发表时间	2018	期刊	NIPS
网址	https://arxiv.org/abs/1812.04224

研究背景

1. What’s known 既往研究已证实
词嵌入的一元不变性。
多数的词嵌入算法本质上都是矩阵分解。

2. What’s new 创新点
提出了 Pairwise Inner Product（PIP）损失函数。
提出了一种新的词嵌入不相似度度量——对内积损失。
从理论上证明了 Word2Vec 和 GloVe 对过拟合具有鲁棒性。
通过最小化 PIP 损失函数提出了选择最优维度的理论指导。

3. What’s are the implications 意义
目前的研究中并无词嵌入的损失函数。而且就算此类损失函数存在，我们也不知道有没有有效的方法去计算它。
本文解决了这两方面的问题，并建立起一套基于矩阵微扰理论的维度选择框架。

研究方法

1. PIP损失函数
如何知道一个训练好的词嵌入是否足够好，我们需要定义损失函数。
如何定义词嵌入的损失函数：着重测量词嵌入酉不变性质之间的距离。PIP 损失就是这样的一个损失函数。
在这里插入图片描述
PIP损失测量了向量在E1和E2之间的相对位置位移，从而消除了它们对任何特定坐标系的依赖。PIP损失服从酉不变性。

2. 酉不变（unitary invariant）性质
酉变换不改变向量之间的相对位置。
语义学的基础是分布式假设，而该假设要求一个词的意义只能通过其他词来相对定义。如果我们对词嵌入实施了一个保持向量间相对位置的变换（即酉变换），向量所对应的语义学任务不应有任何改变。

3. 对 PIP 损失函数的矩阵微扰分析
多数的词嵌入算法本质上都是矩阵分解。
我们将词嵌入转化为带噪音的矩阵分解问题。 PIP 损失分解为三项：其中第一项为偏差，第二和第三项均为方差。
在这里插入图片描述
这三项也对应了一个基于信噪比的解释：
● 第一项：当我们选择一个 k 维的词嵌入时，我们丢失了 k+1 维及之后的信号，这导致了模型产生偏差。该项随着 k 的增大而减小。
● 第二项：噪音的存在导致我们对信号矩阵谱的大小产生估计误差。随着 k 的增大，更多的谱信号被引入，导致该项随着 k 的增大而增加。
● 第三项：同样由于噪音的存在，我们对信号矩阵谱的方向产生估计误差。同理于第二项，该项随着 k 增大而增加。
这套理论完整解释了维度对词嵌入的影响：当选取的维度过低时，词嵌入将有较大的偏差，因为模型丢失了较多信号。而维度过高时，词嵌入将有较大的方差，因为模型中夹杂了大量的噪音。
在这里插入图片描述
4. Negative Sampling
常用的词嵌入算法（例如 Word2Vec 和 GloVe）对过拟合具有鲁棒性。【‌鲁棒性（Robustness）是指系统或‌算法在面对不确定性、异常或危险情况下，仍能保持其预期功能或性能的能力】
维度选取过大时，由于过拟合的存在，它们在词义相似性任务上的表现有所下降；但是下降的幅度随维度的增加并不明显。
在这里插入图片描述