推荐导读:知识图谱Knowledge Graph Embeddings
- 论文标题:A Survey on Knowledge Graphs:Representation, Acquisition and Applications
- 发表期刊:IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2021
- 本文作者:Shaoxiong Ji, Shirui Pan, Member, IEEE, Erik Cambria, Senior Member, IEEE,Pekka Marttinen, Philip S. Yu, Life Fellow, IEEE
- 论文链接:https://arxiv.53yu.com/pdf/2002.00388.pdf%E2%80%8Barxiv.org
一、知识图谱
1.知识表示学习KRL
KRL在文献中也被称为KGE、多关系学习、统计关系学习。
- 将其划分为以下四个方面:
- 表示空间
表示实体和关系
包括点态空间、流形、复向量空间、高斯分布和离散空间 - 评分函数
衡量事实的合理性
评分指标通常分为基于距离的评分函数和基于相似性匹配的评分函数 - 编码模型(当前研究重点)
对事实的语义交互建立模型
包括线性/双线性模型、因子分解和神经网络 - 辅助信息
外部信息
包含文本、视觉和类型信息
- 表示空间
故开发一个新的KRL模型要回答以下四个问题:
- 选择哪个表示空间
- 如何衡量特定空间中元组的合理性
- 使用哪种编码来建模关系交互
- 是否利用辅助信息
(1)表示空间
表示学习的关键问题是学习实体和关系的低维分布式嵌入。
表示空间在编码实体的语义信息和捕获关系属性方面起着重要作用。
在开发表示学习模型时,应仔细选择和设计适当的表示空间,以匹配编码方法的性质并平衡表现力和计算复杂度。
常用方法:实值点空间(包括向量、矩阵和张量空间)。同时也使用了其他类型的空间,如复向量空间、高斯空间和流形
点空间
点态欧氏空间被广泛应用于表示实体和关系,在向量或矩阵空间中投影关系嵌入,或捕捉关系交互。
Trans类和NTN、HAKE均为基于距离的评价函数
HolE和ANALOGY是基于语义匹配的评价函数
-
TransE(Translating Embedding for Modeling Multi-relational Data):TransE表示d维向量空间中的实体和关系,即h,t,r∈Rd,并使嵌入遵循平移原则h + r ≈t
- 基本思想:使head向量和relation向量的和尽可能靠近tail向量
靠近程度用L1/L2范数来衡量它们的靠近程度- L1范数:假设X是n维的特征X=(x1,x2,……xn),||X||1= Σin|xi|
- L1损失函数:也称为最小绝对值偏差(LAD),绝对值损失函数(LAE)。它是把目标值yi和估计值f(xi)的绝对值的总和最小化
- L2范数:假设X是n维的特征X=(x1,x2,……xn),||X||2= sqrt(Σinxi2)
- L2损失函数:也称为最小平方误差(LSE)。它是把目标值yi和估计值f(xi)的差值的平方和最小化。一般回归问题会使用此损失,因为采用平方形式个别异常离群点对次损失函数影响较大,则L2对于异常样本比L1更为敏感,鲁棒性更差。
- 损失函数使用了负抽样(把head实体或tail实体替换为三元组中的随即实体)的max-margin函数,使用距离来表示得分,使用距离来表示得分,L(y,y’) = max(0, margin - y + y’),其中y是正样本的得分,损失函数也可表示为L(h, r, t) = max(0, dpos - dneg + margin), 其中d = ||(head + relation) - tail||,然后使损失函数最小化。
- 只能处理一对一的关系,不适合一对多/多对一关系。例如,有两个知识(skytree,location,tokyo)和(gundam, location, tokyo)。经过训练,“sky tree”实体向量会非常接近“gundam”实体向量。但实际上它们并没有这么多的相似性。
- 基本思想:使head向量和relation向量的和尽可能靠近tail向量
-
TransH(Knowledge Graph Embedding by Translating on Hyperplanes):TransH的目标是处理一对多/多对一/多对多关系,且不增加模式的复杂性和训练难度。
- 基本思想:把关系解释为超平面上的转换操作。每个关系都有两个向量:超平面的范数向量(Wr)和超平面上的平移向量(dr)
- 基本思想:把关系解释为超平面上的转换操作。每个关系都有两个向量:超平面的范数向量(Wr)和超平面上的平移向量(dr)
-
TransR(Learning Entity and Relation Embeddings for Knowledge Graph Completion):TransR进一步为实体和关系引入了分离空间,以解决实体和关系的单一空间不足的问题。
-
NTN(Reasoning With Neural Tensor Networks for Knowledge Base Completion):NTN通过双向线性张量神经层跨越多个维度对实体进行建模。
-
HolE(Holographic Embeddings):全息嵌入,是使用普通向量空间的语义匹配模型。
-
ANALOGY(Analogical inference for multi-relational embeddings):使用关系投影矩阵的语义匹配模型。它专注于多关系推理,为关系数据的类比结构建模。
复向量空间
嵌入复向量空间可有效模拟不同的关系连接模式,尤其是对称/反对称模式。向量表示为实向量+虚向量
- ComplEx:ComplEx首先引入了复数向量空间,它可以捕获对称和反对称关系。Hermitian点积用于对关系、头和尾的共轭进行组合。
- RotatE:受eiθ=cosθ + i sinθ启发,RotatE提出了一种旋转模型,其中把复杂空间中头部到尾部实体的旋转关系视为t = h◦r,其中 ◦ 表示元素级 Hadmard 积 。旋转Hadmard乘积的引入让RotatE还可捕获反演和合成模式以及对称性和反对称性。
高斯分布
高斯分布即正态分布,高斯嵌入可以表达实体和关系的不确定性,以及多关系语义。
- KG2E:引入高斯分布来处理实体和关系的(不确定)确定性。 作者将实体和关系嵌入到多维高斯分布 H ∼ N(μh,Σh) 和 T ∼ N(μt,Σt) 中。 平均向量 u 表示实体和关系的位置,协方差矩阵 Σ 模拟它们的(不)确定性。 根据平移原理,实体变换 H−T 的概率分布表示为 Pe ∼ N(μh −μt,Σh +Σt)。
- TransG:具有高斯分布的实体,同时它为关系嵌入绘制了混合高斯分布,其中关系 r 的第 m 个分量平移向量表示为ur,m=t - h ~ N(ut - uh, (σh2+σt2)E)
流形和群
通过放宽逐点嵌入,流形空间比逐点欧几里得空间具有优势
(2)评分函数
评分函数用于衡量事实的合理性,在基于能量的学习框架中也称为能量函数。 基于能量的学习旨在学习能量函数Eθ(x)(以x为输入以θ参数化)并确保正样本比负样本具有更高的分数。本文采用评分函数这一术语进行统一。
-
有两种典型类型的评分函数,即基于距离的函数和基于相似性的函数,用于衡量事实的合理性。
-
基于距离的评分函数通过计算实体之间的距离来衡量事实的合理性
-
基于距离的评分函数:一种直观的基于距离的方法是计算实体的关系投影之间的欧几里德距离,即L1范数:
-
更常用的基于平移的评价函数: TransE:假设h+r的附加嵌入应接近t的嵌入,并在L1或L2范数约束下将得分函数定义为
-
TransE变体和扩展
- TransA 使用马氏距离来实现更具适应性的度量学习
- TransF放宽了严格的平移并使用点积为fr(h, t) = (h+r)Tt
-
-
基于语义相似性的评分通过语义匹配来衡量事实的合理性。 它通常采用乘法公式,即hTMr ≈ tT,来变换表示空间中靠近尾部的头部实体。
-
SME建议在语义上匹配(h,r)和(r,t)实体关系对的单独组合。它的评分函数由两种匹配块定义:线性块和双线性块,即
-
DistMult通过将关系矩阵Mr限制为多关系表示学习的对角线,提出了一个简化的双线性公式,定义为
-
TorusE: 具有组表示,同时法也遵循语义匹配原则,评分函数定义为
-
DihEdral具有组表示,同时法也遵循语义匹配原则,通过将2L关系建模为组元素,DihEdral的评分函数定义为组成部分的总和:
-
-
(3)编码模型
- 通过特定模型架构对实体和关系的交互进行编码的模型,包括线性/双线性模型、分解模型和神经网络。
- 线性模型通过将头部实体投影到靠近尾部实体的表示空间中,将关系表述为线性/双线性映射。
- 因式分解旨在将关系数据分解为低秩矩阵以进行表示学习。
- 神经网络通过匹配实体和关系的语义相似性,用非线性神经激活和更复杂的网络结构对关系数据进行编码。
线性/双线性模型
线性/双线性模型通过应用线性运算来编码实体和关系的交互:
多个线性模型的集成可以提高预测性能。
-
线性/双线性编码的规范方法包括 SE 、SME、DistMult、ComplEx 和 ANALOGY 。
-
对于具有 L2 正则化的 TransE ,评分函数可以扩展到仅具有一维向量的线性变换的形式,即
-
为了解决规范Polyadia分解中实体向量的独立嵌入问题,SimplE 引入关系的逆并计算(h, r, t)和(t, r-1, h)的平均规范Polyadia分数 为
-
双线性族中的嵌入模型(例如 RESCAL、DistMult、HolE 和 ComplEx)可以在一定约束下从一种模型转换为另一种模型
因式分解
因式分解方法将 KRL 模型表述为三向张量 X 分解。 张量分解的一般原理可以表示为 Xhrt ≈ hTMrt,其中复合函数遵循语义匹配模式。
-
RESCAL是针对知识图谱张量的每个关系切片上提出的三向秩-r分解算法。对于 m 个关系中的第 k 个关系,X 的第 k 个切片被分解为
-
LFM是一个双线性结构化潜在因子模型,通过分解
来扩展RESCAL,以便有效地处理实体的属性 -
通过引入三路 Tucker 张量分解,TuckER通过输出核心张量以及实体和关系的嵌入向量来学习嵌入。
-
LowFER 提出了一种多模态分解双线性池机制,以更好地融合实体和关系。 它概括了 TuckER 模型,并且通过低秩近似计算效率高。
神经网络
用于编码语义匹配的神经网络在最近的研究中产生了显着的预测性能。
通常把实体或关系或两者都输入深度神经网络并计算语义匹配分数。
代表性的神经模型包括多层感知器(MLP)、神经张量网络(NTN)和神经关联模型(NAM)(具有线性/双线性的编码模块也可以使用神经网络建模,例如SME)
-
MLP 将实体和关系一起编码成全连接层,并使用带有 sigmoid 激活的第二层对三元组进行评分
-
NTN 是MLP和双线性模型的组合,它将实体嵌入作为与关系张量相关的输入,并输出预测分数为
-
NAM将隐藏编码与尾部实体的嵌入相关联,并提出了关系调制神经网络(RMNN)
卷积神经网络CNN
CNN 用于学习深层表达特征
- ConvE在嵌入和多层非线性特征上使用二维卷积,通过把头部实体和关系重塑为二维矩阵来模拟实体和关系之间的交互。ConvE可通过多层非线性特征学习来表达语义信息。
- ConvKB采用CNN对实体和关系的连接进行编码,无需重塑。卷积生成的特征映射集合的连接增加了潜在特征的学习能力。和捕获局部关系的ConvE相比,ConvKB保留了过渡特征并表现更好的实验性能。
- HypER利用超网络H进行一维关系特定卷积核生成,以实现多任务知识共享,同时简化二维ConvE。当以超网络和权重矩阵为张量时,也可解释为张量分解模型
循环神经网络
基于MLP和CNN的模型主要学习三元组表示。相比之下, 循环网络可以捕获知识图中的长期关系依赖关系。在关系路径上提出基于 RNN 的模型,分别在没有和有实体信息的情况下学习向量表示。
- RSN (图5c)设计了一种循环跳跃机制,通过区分关系和实体来增强语义表示学习。 通过随机游走生成实体和关系交替顺序的关系路径 (x1, x2, …, xT),并进一步用于计算循环隐藏状态 ht = tanh (Whht−1 +Wxxt + b )。 跳跃操作按照
进行, 其中 S1 和 S2 是权重矩阵。
Transformers系列网络
基于 Transformer 的模型促进了情境化文本表示学习。
- 为了利用知识图中的上下文信息,CoKE使用Transformer来编码边和路径序列。
- KG-BERT 借用了语言模型预训练的思想,并将来自 Transformer (BERT) 模型的双向编码器表示作为实体和关系的编码器。
图神经网络GNN
引入 GNN 是为了在encoder-decoder框架下学习连接结构。
-
R-GCN 提出了关系特定的变换来建模知识图的有向性质。 其前向传播定义为
-
SACN引入了加权GCN(图5b),它定义了具有相同关系类型的两个相邻节点的强度,利用节点结构、节点属性和关系类型来捕获知识图中的结构信息。称为 Conv-TransE 的解码器模块采用 ConvE 模型作为语义匹配度量并保留翻译属性。 通过将实体和关系嵌入与 C 核的卷积输出对齐为 M(h, r) ∈ RC×d,其评分函数定义为
也有人引入了以多头注意作为编码器的图注意网络,通过输入实体和关系嵌入的串联来捕获多跳邻域特征。 -
CompGCN提出了在中心节点附近的每条边上进行实体-关系合成操作,并推广了以前的基于GCN的模型
(4)辅助信息
多模态嵌入将文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身相结合,以促进更有效的知识表示。
文本描述
知识图谱中的实体把文本描述表示为D=< w1,w2,……wn>,并提供语义信息。KRL和文本描述的难点是在同一空间中嵌入结构化知识和非结构化文本信息。有两种对齐模型,通过引入实体名称和维基百科锚点来对齐实体空间和词空间。
- DKRL 扩展了 TransE ,通过卷积编码器直接从实体描述中学习表示
- SSP通过将三元组和文本描述投影到语义子空间中来捕获它们之间的强相关性。
类型信息
实体用分层的类或类型表示,则用语义类型表示关系
- SSE结合实体的语义类别,把属于同一类别的实体平滑地嵌入到语义空间中
- TKRL提出了用于实体投影矩阵的类型编码器模型,以便捕获类型层次结构
- KREAR将关系类型分为属性和关系,并对实体描述之间的相关性进行建模
视觉信息
视觉信息(例如实体图像)可用于丰富 KRL。
- IKRL 通过图像体现,包含基于跨模态结构和基于图像的表示,将图像编码到实体空间并遵循翻译原则。
- 跨模态表示确保基于结构的表示和基于图像的表示位于相同的表示空间中。KRL 还保留有多种辅助信息,如属性、关系路径、逻辑规则等。
不确定信息
与经典的确定性知识图谱嵌入相反,不确定嵌入模型旨在捕获表示关系事实的可能性的不确定性。
- ProBase 、NELL 和 ConceptNet 等知识图包含不确定信息,并为每个相关事实分配置信度分数。
- Chen提出了一种不确定知识图嵌入模型,以同时保留结构和不确定性信息,其中应用概率软逻辑来推断置信度得分。 概率校准采用后处理过程来调整概率分数,使预测具有概率意义。
2.知识获取和完成
知识获取旨在从非结构化文本和其他结构化或半结构化来源构建知识图谱,完善现有的知识图谱,发现和识别实体和关系。 构建良好的大规模知识图对于许多下游应用程序很有用,并为知识感知模型提供常识推理能力,从而为人工智能铺平道路。
知识获取的主要任务包括关系抽取、KGC以及实体识别、实体对齐等其他面向实体的获取任务。
- 具体的知识获取任务包括:
- 知识图谱补全(KGC):用于扩展现有知识图谱
- 基于嵌入的排序
- 关系路径推理
- 基于规则的推理
- 元关系学习
- 实体识别/获取/发现:用于从文本中发现面向实体的新知识
任务包括实体识别、消歧、实体类型和实体对齐 - 关系提取:用于从文本中发现面向关系的新知识
关系提取模型利用 注意力机制、图卷积网(GCN)、对抗学习、强化学习、深度残差网络和迁移学习
- 知识图谱补全(KGC):用于扩展现有知识图谱
(1)知识图谱补全KGC
由于知识图谱的不完全性,KGC被开发用于向知识图谱添加新的三元组。
KGC主要是完成现有实体之间缺失的链接,或推断给定实体和关系查询的实体。典型的子任务包括链接预测、实体预测和关系预测。KGC的初步研究侧重于学习用于三重预测的低维嵌入,即基于嵌入的方法。但是其很难捕捉到多步骤关系。因此,近期工作转向多步骤关系路径并结合逻辑规则,分别称为关系路径推理和基于规则的推理。
-
基于嵌入的方法
KGC可以使用上述KRL方法(TransE、TransH、TransR、HolE和RGCN)和带有文本信息的联合学习方法如DKRL。以实体预测为例,基于嵌入的排序方法首先根据现有的三元组学习嵌入向量,通过把尾部实体或头部实体替换为每个实体θ∈ε,这些方法计算所有候选实体的得分,并对前k个实体进行排名,但基于嵌入的方法很难捕捉到多步骤关系。- 与在统一嵌入空间中表示输入和候选者不同,ProjE 提出了通过输入三元组已知部分的空间投影进行组合嵌入,即(h,r,?)或(?,r,t),并且候选实体,其候选实体矩阵 Wc ∈ Rs×d,其中 s 是候选实体的数量。 包括神经组合层和输出投影层的嵌入投影函数定义为 h(e, r) = g (Wcσ(e ⊕ r) + bp),其中 e ⊕ r = Dee + Drr + bc 是组合算子输入实体关系对。
- 以前的嵌入方法不区分实体和关系预测,ProjE也不支持关系预测,SENN通过引入具有自适应加权一般损失函数的统一神经共享嵌入来学习不同的潜在特征,从而明确地区分了三个 KGC 子任务。
- ConMask 提出对实体描述进行关系相关的内容屏蔽,以选择给定关系的相关片段,并提出基于 CNN 的目标融合,以完成具有未见实体的知识图谱。 只有当查询关系和实体在文本描述中明确表达时,它才能做出预测。
- 专注于医学领域,REMEDY 提出了一种生成式模型,称为条件关系变分自动编码器,用于从潜在空间发现实体对。
-
关系路径推理
实体和关系的嵌入学习在一些基准测试中获得了显着的性能,但它无法对复杂的关系路径进行建模。 关系路径推理转向利用图结构上的路径信息。- 随机游走推理已被广泛研究; 例如,路径排序算法(PRA)在路径约束组合下选择一条关系路径并进行最大似然分类。 为了改进路径搜索,Gardner 等人通过结合文本内容在随机游走中引入了向量空间相似性启发式,这也缓解了 PRA 中的特征稀疏问题。 还研究了神经多跳关系路径建模。
- RNN 模型,通过递归地应用组合性来组合关系路径的含义(图 6b)
- Chainof-Reasoning 是一种支持多种原因的神经注意机制,代表跨所有关系、实体和文本的逻辑组合。
- DIVA 提出了一个统一的变分推理框架,它将多跳推理作为路径查找(底层路径推理的先验分布)和路径推理(链路分类的可能性)的两个子步骤
-
基于强化学习RL的路径查找
通过将实体对之间的路径查找制定为顺序决策,特别是马尔可夫决策过程 (MDP),引入深度强化学习 (RL,Reinforcement Learning) 进行多跳推理。
基于策略的强化学习智能体通过知识图环境之间的交互来学习找到与扩展推理路径相关的步骤,其中策略梯度用于训练强化学习智能体。- DeepPath 首先将强化学习应用到关系路径学习中,并开发了一种新颖的奖励函数来提高准确性、路径多样性和路径效率。 它通过平移嵌入方法对连续空间中的状态进行编码,并将关系空间作为其动作空间。
- 类似地,MINERVA 通过最大化预期奖励,将通向正确答案实体的路径视为顺序优化问题。 它排除了目标答案实体并提供更强大的推理。
- MultiHop 提出了一种软奖励机制,而不是使用二元奖励函数。 训练过程中还采用了动作 dropout 来掩盖一些传出边缘,以实现更有效的路径探索。
- M-Walk 应用RNN控制器来捕获历史轨迹,并使用蒙特卡洛树搜索(MCTS)来生成有效的路径。
- CPL 提出了用于文本寻路和事实提取的协作策略学习。
-
基于规则的推理
基于规则的推理:为了更好地利用知识的符号性质,KGC的另一个研究方向是逻辑规则学习。 规则由head和body定义,形式为head←body。 头部是一个原子,即具有可变主体和/或客体的事实,而主体可以是一组原子。 例如,给定关系 sonOf、hasChild 和gender,以及实体 X 和 Y,存在逻辑编程逆向形式的规则: (Y, sonOf, X) ← (X, hasChild, Y) ∧ (Y, 性别 ,男)逻辑规则可以通过AMIE等规则挖掘工具提取- RLvLR 提出了一种可扩展的规则挖掘方法,具有高效的规则搜索和修剪,并使用提取的规则进行链接预测。
- 更多的研究注意力集中在将逻辑规则注入嵌入中以改进推理,并应用联合学习或迭代训练来合并一阶逻辑规则。 例如,KALE 提出了一个统一的联合模型,其中为兼容的三元组和逻辑规则嵌入定义了t范数模糊逻辑连接词。 具体来说,定义了逻辑合取、析取和否定的三种组合来组成复杂公式的真值。 图 7a 说明了一个简单的一阶 Horn 子句推理。
- RUGE 提出了一种迭代模型,其中软规则用于未标记三元组的软标签预测和用于嵌入校正的标记三元组。
- IterE 提出了一种迭代训练策略,包含嵌入学习、公理归纳和公理注入三个组成部分。
- 逻辑规则是一种辅助信息; 同时,它可以结合先验知识,实现可解释的多跳推理的能力,并为泛化铺平道路,即使是在少数标记的关系三元组中。 然而,仅靠逻辑规则只能覆盖知识图中有限数量的关系事实,并且搜索空间巨大。 神经计算和符号计算的结合具有互补的优势,可以利用高效的数据驱动学习和可微优化,并利用先验逻辑知识进行精确和可解释的推理。 将基于规则的学习纳入知识表示主要是为表示添加正则化或约束。
- 神经定理证明者(NTP)学习多跳推理的逻辑规则,它利用径向基函数核在向量空间上进行可微计算。
- pLogicNet提出概率逻辑神经网络(图7b),利用一阶逻辑,结合马尔可夫逻辑网络和KRL方法的优点,在处理逻辑规则的不确定性的同时,学习有效的嵌入。
- ExpressGNN 通过调整图网络和嵌入来推广pLogicNet,并实现更高效的逻辑推理。
-
元关系学习
知识图谱的关系中存在长尾现象。 同时,现实世界的知识场景是动态的,通常会获得看不见的三元组。 这种新场景被称为元关系学习或少样本关系学习,需要模型仅用很少的样本来预测新的关系事实。
元关系学习的新兴方向是在低资源环境中对不可见关系的快速适应。- GMatching 开发了一种基于度量的小样本学习方法,具有实体嵌入和局部图结构。 它使用 R-GCN 对一跳邻居进行编码以捕获结构信息,然后采用长短期记忆 (LSTM) 网络引导的结构实体嵌入进行多步匹配来计算相似度得分。
- Meta-KGR 是一种基于优化的元学习方法,采用与模型无关的元学习来快速适应实体搜索和路径推理的强化学习。
- 受基于模型和基于优化的元学习的启发,MetaR将关系特定的元信息从支持集转移到查询集,并通过高阶关系表示的损失梯度实现快速适应。
- 提出了异构图编码器、循环自动编码器和匹配网络的联合模块,以通过少样本参考完成新的关系事实。
- 利用 GAN 在零样本学习设置下为看不见的关系生成合理的嵌入。
- 出了一种转导元学习框架,称为图外推网络(GEN),用于知识图中的少样本图外链接预测。
-
三重分类
三重分类是确定测试数据中的事实是否正确,这通常被视为二元分类问题。 决策规则基于具有特定阈值的评分函数。- 上述嵌入方法可应用于三元分类,包括基于平移距离的方法,如 TransH 和 TransR ,以及基于语义匹配的方法,如 NTN、HolE 和 ANALOGY。 普通的基于向量的嵌入方法无法处理 1 对 n 的关系。
- 将嵌入空间扩展为基于区域的 n 维球,其中尾部区域位于头部区域,使用细粒度类型链(即树结构概念聚类)实现 1 对 n 关系。 这种对 n 球嵌入的放松将三重分类转变为几何包含问题,并提高了具有长类型链的实体的性能。 然而,它依赖于实体的类型链,并且存在可扩展性问题。
(2)实体发现
将基于实体的知识获取分为几个细分任务,即实体识别、实体消歧、实体类型和实体对齐。 我们将它们称为实体发现,因为它们都在不同的设置下探索与实体相关的知识。
实体识别
实体识别或命名实体识别(NER),当它专注于特定命名的实体时,是一项在文本中标记实体的任务。
- 最近的工作应用了序列到序列的神经架构,例如 LSTM-CNN,用于学习字符级和单词级特征并对部分词典匹配进行编码。
- 通过堆叠 LSTM 层和 CRF 层的堆叠神经架构,即 LSTM-CRF(图 8a)和 Stack-LSTM。
- MGNER 提出了一个集成框架,具有各种粒度的实体位置检测和针对嵌套和非重叠命名实体的基于注意力的实体分类。
- 通过多任务训练区分多令牌和单令牌实体。
- 通过参考注释指南构建查询问题,将平面和嵌套的NER制定为统一的机器阅读理解框架。
- ERNIE和 K-BERT等带有知识图谱的预训练语言模型已应用于 NER 并取得了改进的性能。
实体类型
实体类型包括粗粒度和细粒度类型,后者使用树结构类型类别,通常被视为多类和多标签分类。
- 为了减少标签噪声,PLE 专注于正确的类型识别,并提出了一种具有异构图的部分标签嵌入模型,用于表示实体提及、文本特征和实体类型及其关系。
- 为了解决排版和噪音标签日益增长的问题,提出了带有分层信息的原型驱动标签嵌入,用于零样本细粒度命名实体类型。
- 最近的研究利用基于嵌入的方法。 例如,JOIE 学习实例视图图和本体视图图的联合嵌入,并将实体类型制定为 top-k 排名以预测相关概念。
- ConnectE 探索局部类型和全局三元组知识来增强联合嵌入学习。
实体消歧
实体消歧或实体链接是一项统一任务,它将实体提及链接到知识图中的相应实体。 例如,爱因斯坦于1921年获得了诺贝尔物理学奖。提及“Einstein”的实体应该与阿尔伯特·爱因斯坦的实体联系起来。
- 当代的端到端学习方法通过实体的表示学习做出了努力,例如,用于建模实体语义相关性的 DSRM 和用于实体和文本的联合嵌入的 EDKate 。
- 提出了一种基于局部上下文窗口的注意力神经模型,用于实体嵌入学习和可微消息传递,以推断模糊实体。
- 通过将实体之间的关系视为潜在变量,开发了一种具有关系型和提及型标准化的端到端神经架构。
实体对齐
如前所述,任务涉及从文本或单个知识图谱中发现实体,而实体对齐(EA)旨在融合各种知识图谱之间的知识。 给定 E1 和 E2 作为两个不同知识图谱的两个不同实体集,EA 就是找到一个对齐集 A = {(e1, e2) ∈ E1 × E2|e1 ≡ e2},其中实体 e1 和实体 e2 保持等价关系 ≡。
- 基于嵌入的对齐计算一对实体的嵌入之间的相似度。
- MTransE首先研究多语言场景下的实体对齐。 它考虑了基于距离的轴校准、平移向量和线性变换,以进行跨语言实体匹配和三重对齐验证。
- 继基于平移和线性变换模型之后,IPTransE提出了一种迭代对齐模型,通过将实体映射到联合嵌入框架下的统一表示空间(图8b),通过对齐平移为||e1 + r(E1→E2)) − e2 ||,线性变换为 ||M(E1→E2)e1 − e2||,参数共享为 e1 ≡ e2。
- 为解决解决迭代对齐中的错误累积问题,提出了一种增量训练方式的引导方法,以及用于检查新标记对齐的编辑技术。
- 实体的附加信息也被纳入细化,例如,JAPE捕获跨语言属性之间的相关性,KDCoE 通过协同训练嵌入多语言实体描述,MultiKE 学习多语言实体描述 实体名称、关系和属性,以及与字符属性嵌入的对齐
(3)关系抽取
关系抽取是自动构建大规模知识图谱的关键任务,通过从纯文本中提取未知的关系事实并将其添加到知识图谱中。 由于缺乏标记的关系数据,远程监督,也称为弱监督或自监督,通过假设包含相同实体提及的句子可能在监督下表达相同的关系,使用启发式匹配来创建训练数据 关系数据库的。
神经关系提取
当前流行的神经网络广泛应用于NRE。
- 首先探索具有与实体相对距离的位置特征的 CNN 用于关系分类,然后通过具有多个尺寸的卷积滤波器的多窗口 CNN扩展到关系提取。
- 多实例学习以句子包作为输入来预测实体对的关系。
- PCNN 在按实体位置划分的卷积表示片段上应用分段最大池化。 与普通 CNN相比,PCNN 可以更有效地捕获实体对内的结构信息。
- MIMLCNN进一步将其扩展到多标签学习,并通过跨句子最大池进行特征选择。 还利用了诸如类关系和关系路径之类的辅助信息。
- 引入了RNN,例如,SDP-LSTM采用多通道LSTM,同时利用实体对之间的最短依赖路径,基于依赖树堆叠顺序和树结构LSTM。
- BRCNN将用于捕获顺序依赖性的 RNN 与用于使用双通道双向 LSTM 和 CNN 表示局部语义的 CNN 结合起来。
注意力机制
注意力机制的许多变体与 CNN 相结合,包括用于捕获单词语义信息的单词级注意力 和对多个实例的选择性注意力以减轻噪声实例的影响。 还引入了其他辅助信息来丰富语义表示。
- APCNN 引入了 PCNN 和句子级注意力的实体描述
- HATT 提出了层次选择性注意力,通过连接每个层次层的注意力表示来捕获关系层次结构。
- Att-BLSTM 提出使用 BiLSTM 进行词级关注,而不是基于 CNN 的句子编码器。
- 最近也有人利用深度 Transformers 模型中的预训练关系表示。
图卷积网络(GCNs)
GCN 用于编码句子上的依存树或学习 KGE 以利用关系知识进行句子编码。
- C-GCN 是在以路径为中心的修剪之后的句子修剪依存树上的上下文化 GCN 模型。
- AGGCN 也在依赖树上应用了GCN,但是以软加权的方式利用多头注意力来进行边缘选择。
- 与之前两种基于 GCN 的模型不同,Zhang 等人将 GCN 应用于知识图中的关系嵌入,以进行基于句子的关系提取。进一步提出了一种从粗到细的知识感知注意力机制,用于信息实例的选择
对抗训练
对抗训练(AT)用于在 MIML 学习设置下为 CNN 和基于 RNN 的关系提取的词嵌入添加对抗噪声 。
- DSGAN通过学习句子级正类样本的生成器和最小化生成器真阳性概率的判别器来对远程监督关系提取进行去噪。
强化学习
通过使用策略网络训练实例选择器,强化学习已被集成到神经关系提取中。
- 提出训练句子关系分类器的基于策略的强化学习代理,将误报实例重新分配到负样本中,以减轻噪声数据的影响。以 F1 分数作为评估指标,并使用基于 F1 分数的性能变化作为策略网络的奖励。
- 提出了不同的奖励策略。 基于强化学习的 NRE 的优点是关系提取器与模型无关。 因此,它可以轻松适应任何神经架构,以进行有效的关系提取。
- HRL提出了一种高层关系检测和低层实体提取的分层策略学习框架。
其他进展
3.时序知识图谱
目前的知识图谱研究主要集中在静态知识图谱上,其中事实不随时间变化,而对知识图谱的时间动态性的探索较少。 然而,时间信息非常重要,因为结构化知识只在特定时期内有效,而事实的演变遵循时间顺序。
最近的研究开始将时间信息纳入 KRL和KGC,与之前的静态知识图相比,它被称为时间知识图谱。
已经做出了同时学习时间嵌入和关系嵌入的研究工作。 动态网络嵌入的相关模型也启发了时间知识图嵌入。 例如,捕获时间拓扑结构并同时学习时间特征交互的时间图注意(TGAT)网络可能有助于保留知识图的时间感知关系。
- 可分为四个研究领域:
- 时间嵌入
- 动态实体
- 时间关系依赖
- 时间逻辑推理
4.知识感知应用
丰富的结构化知识对于人工智能应用很有用。 然而,如何将这些符号知识集成到现实世界应用的计算框架中仍然是一个挑战。 知识图谱的应用包括两方面:
1)知识图谱内应用,如链接预测、命名实体识别等;
2)KG外应用,包括关系提取和更多下游知识感知应用,例如问答和推荐系统。
- 知识感知应用包含
- 自然语言理解NLU
- 问答
- 推荐系统
- 各种现实世界任务
它们注入知识以改进表示学习。当前,知识感知模型的研究主要得益于异构信息、丰富的知识表示本体和知识表示语义,以及多语言知识的集成。
二、未来方向
为了解决知识表示及其相关应用的挑战,人们做出了许多努力。 然而,仍然存在一些艰巨的未解决问题和有希望的未来方向。
-
复杂推理
用于知识表示和推理的数值计算需要连续的向量空间来捕获实体和关系的语义。- 虽然基于嵌入的方法在复杂逻辑推理方面存在局限性,但关系路径和符号逻辑两个方向值得进一步探索。 一些有前途的方法,例如循环关系路径编码、基于 GNN 的知识图谱消息传递以及基于强化学习的寻路和推理,在处理复杂推理方面是很有前景的。
- 对于逻辑规则和嵌入的结合,最近的工作将马尔可夫逻辑网络与KGE结合起来,旨在利用逻辑规则并处理其不确定性。 通过有效嵌入来实现概率推理以捕获不确定性和领域知识将是一个值得注意的研究方向。
-
统一框架
知识图谱上的几种表示学习模型已被验证为等效的。- 证明了 HolE 和 ComplEx 对于具有特定约束的链接预测在数学上是等效的。
- ANALOGY 提供了几种代表性模型的统一视图,包括 DistMult、ComplEx 和HolE
- 探索了几种双线性模型之间的联系:探索了加法和乘法 KRL 模型的几何理解。 大多数作品用不同的模型分别制定了知识获取KGC和关系提取。
- 将它们放在同一框架下,提出了知识图谱和文本之间信息共享的相互关注的联合学习框架。 对知识表示和推理的统一理解的探索较少。 然而,以类似于图网络统一框架的方式对统一进行研究将值得弥合研究差距。
-
可解释性
知识表示和注入的可解释性是知识获取和实际应用的一个重要问题。
可解释性可以说服人们相信预测。 因此,进一步的工作应该进入可解释性并提高预测知识的可靠性。- ITransF 使用稀疏向量进行知识转移并通过注意力可视化进行解释。
- CrossE通过使用基于嵌入的路径搜索来生成链接预测的解释来探索知识图的解释方案。
- 然而,最近的神经模型尽管取得了令人印象深刻的性能,但在透明度和可解释性方面存在局限性。 一些方法通过结合逻辑规则将黑盒神经模型和符号推理结合起来以提高互操作性。
-
可扩展性
可扩展性在大规模知识图谱中至关重要。 计算效率和模型表达能力之间存在权衡,有限数量的作品应用于超过 100 万个实体。- 几种嵌入方法使用简化来降低计算成本,例如使用循环相关运算来简化张量积。
- 然而,这些方法仍然难以扩展到数百万个实体和关系。 使用马尔可夫逻辑网络的概率逻辑推理是计算密集型的,因此很难扩展到大规模知识图谱。
- 最近的神经逻辑模型、中的规则是通过简单的蛮力搜索生成的,这使得它在大规模知识图谱上不够用。
- ExpressGNN 尝试使用 NeuralLP 进行有效的规则归纳。 尽管如此,处理繁琐的深层架构和日益增长的知识图谱仍有很长的路要走。
-
知识聚合
全局知识的聚合是知识感知应用的核心。- 推荐系统使用知识图来联合建模用户-项目交互和文本分类,以将文本和知识图编码到语义空间中。
- 当前大多数知识聚合方法都设计神经架构,例如注意力机制和 GNN。
- 通过 Transformer 和 BERT 模型等变体进行的大规模预训练,推动了自然语言处理社区的发展。
- 非结构化文本上的预训练语言模型可以获得一定的事实知识。 大规模预训练可以是注入知识的直接方式。 然而,重新思考以高效且可解释的方式聚合知识的方式也具有重要意义。
-
自动构造和动态构造
当前的知识图谱高度依赖手动构建,这是劳动密集型且昂贵的。 知识图谱在不同认知智能领域的广泛应用需要从大规模非结构化内容中自动构建知识图谱。- 最近的研究主要集中在现有知识图监督下的半自动构建。 面对多模态、异构性、大规模应用,自动化构建仍面临巨大挑战。
- 主流研究集中在静态知识图谱,有一些关于预测时间范围有效性和学习时间信息和实体动态的工作。 许多事实只在特定时期内成立。 动态知识图与捕捉动态的学习算法一起,可以通过考虑时间性质来解决传统知识表示和推理的局限性。