1 引言
1.1 问题
首先,隐式对应关系的问题。在联合嵌入模型中,知识库和文本数据之间的关系并不是直接给出的,而是需要通过实体在文本中的共现来推断。这意味着模型必须从上下文中学习实体之间的潜在关联,而不是基于显式的标签或指示。这种隐式学习过程可能会导致信息的丢失或误解,尤其是当文本描述不够清晰或实体之间的关系在文本中没有明确表达时。
其次,文本关系的噪音问题。文本数据,尤其是来自互联网的非结构化文本,往往包含大量的噪音和不确定性。文本关系的提取依赖于自然语言理解技术,如命名实体识别(NER)、关系抽取(RE)等,这些技术虽然在进步,但仍然会有错误。实体对可能在没有共享语义关系的情况下出现在同一句子中,这会导致模型接收到错误的信号,影响其学习质量。
再者,知识库与文本关系的不匹配。知识库中的关系通常是经过清理和规范化的,而文本中的关系表达则更为自由和多样。例如,知识库可能使用“工作于”作为关系类型,而在文本中,这种关系可能被描述为“在...工作”,“服务于”,“隶属于”等。这种多样性使得直接将文本关系映射到知识库关系上变得困难,需要模型具备较高的泛化能力。
最后,对齐和信息传播的挑战。为了有效利用文本信息增强知识库的表示,模型需要在没有明确证据的情况下学习知识库和文本关系之间的对齐,这意味着它必须能够识别出不同表述下的相同概念。一旦这种对齐建立,模型还需要通过实体嵌入的方式将信息从文本传播到知识库,以预测那些在知识库中缺失的三元组。这个过程要求模型不仅能够理解单个实体的含义,还能够把握实体间复杂的相互作用。
1.2 结合的信息
利用额外的实体类型信息和句法文本关系在Freebase上进行实验,任务是尾实体预测。
1.3 解决方案
提出了一种不同的方法来结合知识库和文本证据,其中文本关系不是同一图的一部分,而是被视为侧证据。在我们的设置中,事实不一定由(sbj, rel, obj)三元组组成,而是作为一个n元组,其中通过从知识库和对齐的侧资源(如文本)中提取额外信息来形成额外元素。我们通过学习元组中每个元素的潜在表示来对元组为真的概率进行评分,然后学习由多层感知器(MLP)参数化的组合和评分函数。
2
知识库中的事实被编码为一个三元组(es, r, eo),其中es是主体实体,eo是客体实体。从由一组观察到的事实组成的现有知识库开始,我们的目标是在给定一些额外的外部资源的情况下,对未观察到的事实的合理性进行推理。在我们提出的模型中,我们通过考虑附加资源与三元组元素的对齐,将事实的表示扩展为n元组。我们最具表现力的模型将事实编码为X = (es, r, eo, ts, to, to, s),其中ts, to是两个实体类型的关联表示,而to, s是与侧语料库中的一对实体相关的对齐文本证据。实体和实体类型的表示在主题和对象之间共享。
使用预训练的嵌入来初始化模型的实体向量和文本特征嵌入。文本特征嵌入是从基于维基百科训练的可用依赖项的skip-gram模型初始化的(Komninos和Manandhar, 2016)。未包含在预训练模型词汇表中的特征用一个随机向量初始化,该向量来自于一个均值为零且方差与预训练嵌入集相同的正态分布。对于实体向量,我们从Freebase检索实体的英文名称,并通过平均名称中出现的单词的嵌入来构造一个表示。没有name属性的实体是随机初始化的。
2.1 Freebase 实体类型
在Freebase中,每个实体可以被赋予多个类型,这些类型提供了关于实体性质的详细信息。然而,论文中并没有直接使用Freebase提供的类型信息,而是选择通过观察训练集中实体涉及的关系来学习类型表示。以下是具体做法的详细解释:
-
关系编码:在Freebase中,每一条关系都被编码为与主题实体关联的域/类型/属性。这意味着关系不仅仅是简单的二元组,而是包含了关于实体类型和关系属性的更多信息。
-
提取主体位置的类型特征:论文中关注的是当实体处于关系三元组的主体位置时,提取其类型特征。对于每个实体,收集所有它作为主体出现的三元组,并保留其中的域/类型部分作为该实体的类型特征。
-
类型特征的嵌入表示:对于收集到的类型特征,使用嵌入表示来捕捉其内在含义。每个类型的嵌入向量都是在训练过程中学习得到的,反映了该类型在知识图谱中的分布和关系模式。
-
特征聚合:为了得到每个实体最终的类型表示,论文采用了所有观察到的类型特征嵌入的求和操作,随后进行L2归一化。这一过程确保了不同类型特征的重要性在最终表示中得到平衡,同时也保持了向量的单位长度,有利于后续的计算和比较。
-
处理未知类型:对于在训练集中没有作为三元组主体出现的实体,即没有观察到任何类型的实体,论文使用了一个特殊的UNKNOWN符号来表示。这确保了模型能够处理所有实体,即使它们在训练阶段没有类型信息。
-
实体类型表示的应用:最后,为每个实体创建了类型表示,并将其与主体和客体实体的原始表示拼接在一起,形成输入向量,供神经网络使用。这样,类型信息就被整合到了模型的输入中,为预测实体之间的关系提供了额外的上下文线索。
通过上述过程,论文方法不仅利用了Freebase中丰富的类型信息,还通过学习类型表示,增强了模型对实体性质的理解,从而在知识图谱补全任务中取得了更好的性能。
2.2 文本关系
-
侧语料库和最短依赖路径:首先,使用一个“侧语料库”,这是一个辅助的文本数据集,其中包含与知识库中实体相链接的文本信息。通过寻找实体对在文本中的最短依赖路径,可以提取出描述这两个实体之间关系的句子片段。依赖路径指的是语法结构中词语之间的关系链,它可以帮助理解词语在句子中的作用和相互联系。
-
文本关系提及的收集与关联:对于知识库中每一对实体,收集所有描述它们之间关系的文本提及。这些提及是基于上述最短依赖路径得到的。将收集到的提及与实体对在知识库中的关系事实相关联,形成了实体对关系的文本证据。这些提及的集合构成了描述实体对关系的文本证据库。
-
文本表示模型:为了将这些文本提及转化为可被机器学习模型使用的表示,使用了增强版的神经词袋模型(Neural Bag of Words,简称Neural BoW)。在这个模型中,不仅考虑了单词的独立嵌入表示,还引入了依赖特征。依赖特征是一种符号,代表单词在语法结构中的特定角色或功能,如“复合型知识”中的“复合”表示“knowledge”是复合名词的一部分。
-
特征聚合:与实体类型表示的方式相似,单词和依赖特征的嵌入通过简单的求和操作进行聚合,然后应用L2规范化,以保持向量的单位长度。这样做是为了确保不同长度的文本提及可以被公平地比较和处理。此外,如果某实体对在文本中没有提及,则会为这个实体对分配一个特殊的UNKNOWN符号,表示缺少文本证据。
-
模型有效性:尽管所使用的文本表示组件相对简单,但根据Komninos和Manandhar(2016)的研究,类似的模型在处理短文本的情况下已经表现出良好的性能。这意味着,即使不使用复杂的序列模型(如RNN或Transformer),Neural BoW模型也能有效地捕捉短文本中的关键信息,从而为知识库补全任务提供有价值的文本证据。
2.3 使用多层感知机(MLP)估计一个n元组(n-tuple)是否真实的概率
-
低维嵌入:每个元组元素都有自己的低维度嵌入,这些嵌入会被拼接到一起形成输入到MLP的向量。这些嵌入是通过反向传播与MLP一起学习的。
-
概率表达式:公式(1)给出了一个事实为真的概率,其中𝜎是Sigmoid函数,用于将输出转换为[0,1]范围内的值,表示可能性。𝑔(∙)是一个应用于元素级别的非线性函数,通常是指ReLU激活函数。W3,𝑊2,𝑊1分别是网络的权重参数。
-
输入向量:公式(2)定义了输入向量𝑥x的构成,包括主体实体的嵌入𝑣(𝑒_𝑠),关系的嵌入𝑣(𝑟),客体实体的嵌入𝑣(𝑒_𝑜),以及主体和客体实体的附加特征𝑣(𝑡𝑠)和𝑣(𝑡𝑜)。T_s,o是主体和客体实体之间的附加特征。
-
非线性函数的选择:文中提到使用Rectified Linear Units(ReLU)作为非线性函数。ReLU函数在深度学习中常用作激活函数,它的优点在于计算速度快并且避免了梯度消失问题。
损失函数: