基本信息
作者 | Zi Yin | doi | 10.3115/v1/D14-1162 |
---|---|---|---|
发表时间 | 2018 | 期刊 | NIPS |
网址 | https://arxiv.org/abs/1812.04224 |
研究背景
1. What’s known 既往研究已证实
词嵌入的一元不变性。
多数的词嵌入算法本质上都是矩阵分解。
2. What’s new 创新点
提出了 Pairwise Inner Product(PIP)损失函数。
提出了一种新的词嵌入不相似度度量——对内积损失。
从理论上证明了 Word2Vec 和 GloVe 对过拟合具有鲁棒性。
通过最小化 PIP 损失函数提出了选择最优维度的理论指导。
3. What’s are the implications 意义
目前的研究中并无词嵌入的损失函数。而且就算此类损失函数存在,我们也不知道有没有有效的方法去计算它。
本文解决了这两方面的问题,并建立起一套基于矩阵微扰理论的维度选择框架。
研究方法
1. PIP损失函数
如何知道一个训练好的词嵌入是否足够好,我们需要定义损失函数。
如何定义词嵌入的损失函数:着重测量词嵌入酉不变性质之间的距离。PIP 损失就是这样的一个损失函数。
PIP损失测量了向量在E1和E2之间的相对位置位移,从而消除了它们对任何特定坐标系的依赖。PIP损失服从酉不变性。
2. 酉不变(unitary invariant)性质
酉变换不改变向量之间的相对位置。
语义学的基础是分布式假设,而该假设要求一个词的意义只能通过其他词来相对定义。如果我们对词嵌入实施了一个保持向量间相对位置的变换(即酉变换),向量所对应的语义学任务不应有任何改变。
3. 对 PIP 损失函数的矩阵微扰分析
多数的词嵌入算法本质上都是矩阵分解。
我们将词嵌入转化为带噪音的矩阵分解问题。 PIP 损失分解为三项:其中第一项为偏差,第二和第三项均为方差。
这三项也对应了一个基于信噪比的解释:
● 第一项:当我们选择一个 k 维的词嵌入时,我们丢失了 k+1 维及之后的信号,这导致了模型产生偏差。该项随着 k 的增大而减小。
● 第二项:噪音的存在导致我们对信号矩阵谱的大小产生估计误差。随着 k 的增大,更多的谱信号被引入,导致该项随着 k 的增大而增加。
● 第三项:同样由于噪音的存在,我们对信号矩阵谱的方向产生估计误差。同理于第二项,该项随着 k 增大而增加。
这套理论完整解释了维度对词嵌入的影响:当选取的维度过低时,词嵌入将有较大的偏差,因为模型丢失了较多信号。而维度过高时,词嵌入将有较大的方差,因为模型中夹杂了大量的噪音。
4. Negative Sampling
常用的词嵌入算法(例如 Word2Vec 和 GloVe)对过拟合具有鲁棒性。【鲁棒性(Robustness)是指系统或算法在面对不确定性、异常或危险情况下,仍能保持其预期功能或性能的能力】
维度选取过大时,由于过拟合的存在,它们在词义相似性任务上的表现有所下降;但是下降的幅度随维度的增加并不明显。
结果与讨论
- 定义了词嵌入的定义损失函数,建立起一套基于矩阵微扰理论的维度选择框架。
- Word2Vec 和 GloVe 对过拟合具有鲁棒性。
- 参考文章:https://zhuanlan.zhihu.com/p/53958685
个人思考与启发
- 一个词的意义通过其他词来定义,那么两个词的向量的相对位置是不变的。可以简化很多计算复杂度。
- 当解读公式的时候,可以类比一下其他类似的公式,会有不一样的发现。
重要图
文献中重要的图记录下来