一、论文信息
1 标题
Translating Embeddings for Modeling Multi-relational Data
2 作者
Antoine Bordes, Nicolas Usunier, Alberto Garcia-Durán, Jason Weston, Oksana Yakhnenko
3 研究机构
Université de Technologie de Compiègne – CNRS Heudiasyc UMR 7253 Compiègne, France; Google
二、主要内容
这篇论文主要研究了如何将多关系数据中的实体和关系嵌入到低维向量空间中。作者提出了一个名为TransE的方法,该方法通过将关系解释为在实体的低维嵌入上进行的平移来建模关系。TransE的目标是提供一个易于训练、参数数量减少且能够扩展到非常大数据库的规范模型。
三、相关研究
相关研究包括社交网络分析、推荐系统、知识库(如Freebase、Google Knowledge Graph或GeneOntology)中的多关系数据建模。以往的方法多是基于潜在属性的关系学习框架,例如非参数贝叶斯扩展的随机块模型、基于张量分解或集体矩阵分解的模型。这些模型虽然表达能力强,但复杂性高,难以解释,且计算成本高。
四、解决方案
TransE通过一个基于能量的框架来学习嵌入,其中关系被表示为嵌入空间中的平移。如果关系
(
h
,
ℓ
,
t
)
(h, ℓ, t)
(h,ℓ,t)成立,那么尾实体
t
t
t的嵌入应该接近头实体
h
h
h的嵌入加上某个依赖于关系
ℓ
ℓ
ℓ的向量。TransE的参数集较小,因为它只为每个实体和关系学习一个低维向量。
TransE方法的核心在于将实体和关系表示为低维空间中的向量,并通过关系作为实体间向量的平移来学习嵌入。以下是TransE方法训练方式的详细介绍:
算法细节
-
初始化:对于每个实体 e e e和每个关系 ℓ ℓ ℓ,随机初始化一个 k k k维向量,其中 k k k是模型的超参数,代表嵌入的维度。
-
归一化:对每个关系 ℓ ℓ ℓ的向量进行单位化处理,以保证其长度为1。
-
优化循环:在每次迭代中,首先对所有实体的嵌入向量进行归一化处理。然后,从训练集中随机抽取一个小批量样本(minibatch)。
-
样本扰动:对于每个选中的三元组 ( h , ℓ , t ) (h, ℓ, t) (h,ℓ,t),通过替换头实体 h h h或尾实体 t t t(但不是同时替换)来生成一个扰动的三元组 ( h ′ , ℓ , t ′ ) (h',ℓ,t') (h′,ℓ,t′) 。
-
更新嵌入:计算原始三元组和扰动三元组之间的能量损失,并通过梯度下降更新实体和关系的嵌入向量。
能量损失函数的构建与含义
能量损失函数是TransE方法的核心,它基于边缘(margin-based)的排名标准构建。损失函数的形式如下:
L = ∑ ( h , ℓ , t ) ∈ S ∑ ( h ′ , ℓ , t ′ ) ∈ S ′ ( h , ℓ , t ) [ γ + d ( h + ℓ , t ) − d ( h ′ + ℓ , t ′ ) ] + L = \sum_{(h,ℓ,t) \in S} \sum_{(h',ℓ,t') \in S'(h,ℓ,t)} [ \gamma + d(h + ℓ, t) - d(h' + ℓ, t') ]_+ L=∑(h,ℓ,t)∈S∑(h′,ℓ,t′)∈S′(h,ℓ,t)[γ+d(h+ℓ,t)−d(h′+ℓ,t′)]+
其中:
- [ x ] + [x]_+ [x]+表示 x x x的正部分,即 x x x大于0时取 x x x,否则取0。
- γ \gamma γ是一个大于0的边界超参数。
- d d d是不相似度度量,可以是L1或L2范数。
- S S S是训练集中的三元组集合。
- S ′ ( h , ℓ , t ) S'(h,ℓ,t) S′(h,ℓ,t)是由原始三元组生成的所有扰动三元组的集合。
损失函数的目标是最小化训练三元组的能量,同时确保扰动三元组的能量大于训练三元组的能量至少一个边界 γ \gamma γ。这样,模型会倾向于将头实体和尾实体的嵌入向量通过关系向量平移后彼此靠近,而对于不正确的实体关系组合,则会将它们的嵌入向量分隔得更远。
通过这种方式,TransE能够有效地学习到实体和关系的嵌入表示,使得对于任何给定的关系三元组 ( h , ℓ , t ) (h, ℓ, t) (h,ℓ,t),头实体 h h h的嵌入向量加上关系 ℓ ℓ ℓ的向量应该接近尾实体 t t t的嵌入向量。这种简单的假设在实验中显示出了强大的性能,尤其是在大规模知识库的链接预测任务中。
五、实验环节
实验在Wordnet和Freebase数据集上进行,与多种现有方法进行比较。实验结果显示,TransE在链接预测任务上显著优于现有最先进的方法,并且能够在包含1M实体、25k关系和超过17M训练样本的大规模Freebase数据集上成功训练。
六、进一步探索点:
- 分析TransE模型的进一步应用,例如在自然语言处理中的词表示学习。
- 结合知识库和文本数据进行更广泛的应用探索,例如关系抽取。
七、总结
TransE是一种新颖的知识库嵌入方法,它通过将关系视为实体嵌入向量间的平移来建模多关系数据。这种方法在参数数量上更为精简,易于训练,且在大规模数据集上表现出色。尽管TransE在处理某些特定类型的三元关系时可能存在局限性,但其在多关系数据建模领域显示出巨大的潜力,并为未来的研究提供了新的方向。