Language Models as Knowledge Embeddings：语言模型用作知识嵌入 IJCAI 2022

news2026/2/13 13:37:21

1.相关工作

1）基于结构的知识嵌入

进一步分成基于翻译的模型和基于语义匹配的模型
基于翻译的模型采用基于距离的评分函数，TransE把实体和关系嵌入到一个维度为d的共享向量空间中；TransH,TransR,RotatE.
语义匹配模型采用基于相似性的评分函数，RESCAL,DistMult,CoKE.

2）基于描述的知识嵌入

DKRL [Xie等人，2016]首先引入实体的描述，并通过卷积神经网络对其进行编码。
KEPLER [Wang等人，2019b]使用PLM作为编码器来派生基于描述的嵌入，并以KE和PLM的目标进行训练。
Pretrain-KGE [Zhang et al .， 2020b]提出了一种通用的基于描述的KE框架，该框架使用基于描述的嵌入初始化另一个可学习的KE，并在微调plm后丢弃plm以提高效率。
KGBERT [Yao等人，2019]将h, r, t的描述作为一个输入序列连接到plm，并通过序列嵌入对这三个序列进行评分。
StAR

2.LMKE模型

在本文中，我们提出了一个更好地将语言模型用作知识嵌入的方法LMKE（Language Models as Knowledge Embeddings），同时利用结构信息和文本信息。
在这里插入图片描述

嵌入完，要进行链接预测和三元组分类两个任务。三元组分类基于上面的p(u)可以进行。但链接预测需要预测出不完整实体的缺失实体，需要将候选实体（一般是所有实体）填入不完整三元组，并把相应的三元组打分，再对候选实体按照得分进行排序。但是上面的LMKE模型，这个流程的时间复杂度太高。
所以就有了下面的变体

为了让语言模型高效用于链接预测任务，一个简单的方式是不完整地编码三元组，而仅编码部分三元组。

MEM-KGC模型

MEM-KGC可以看作LMKE的masked变体，将待预测的缺失实体和其文本描述mask，并将相应的向量表示q输入一个线性层来预测缺失实体。
降低了时间复杂度，担忽略了待预测实体的文本信息，降低了文本信息的利用率。
提出了一个对比学习框架来更充分利用文本信息
在框架中，给定的实体-关系对被看作查询q，目标实体（缺失实体）被看作键k，通过匹配q和k进行对比学习。

3.C-LMKE模型（本文提出的模型）

C-LMKE是对比学习框架下的LMKE变体，
在这里插入图片描述
C-LMKE进行批次内的对比匹配，从而避免编码负样本带来的额外开销。
具体来说，对于batch中的第i个三元组，它的给定实体关系对q和目标实体k构成一个正样本，而同batch内其他三元组的目标实体k’与q构成负样本。
C-LMKE在训练和链接预测时的时间复杂度均显著优于现有基于文本的方法。
使用双层MLP(多层感知器)来计算q和k的匹配度，而不是使用对比学习中常用的余弦相似度，因为可能存在多个键匹配q。
如果k1和k2都匹配q，并且我们最大化(q, k1)和(q, k2)之间的相似性，(k1, k2)也会被强制相似，这是不可取的。因此，q与k匹配的概率为: