知识图谱(5)知识表示

news2025/7/6 12:00:31

基于Node2Vec补全KG

知识图谱属于异质图，图谱包含三个元素：实体（图中的节点），类型（节点的标识），关系（边的标识）。KG就是把所有不同种类的信息连接在一起而得到的一个关系网络。

KG的schame表示图谱的元信息，即有哪些类型的实体，实体之间的关系，例如下面为关于论文的知识图谱schame：
fig1

假设现在有一个规模较大的知识图谱，难免缺少一些关系和实体，比如给定头节点和关系，如何预测缺少的尾节点（知识表示是为了根据已知KG，利用已知的实体集合和关系集合，补全KG）：
fig2
一种办法是采用Node2Vec，将每个节点转换为embedding，然后通过GNN做节点分类。

在KG中，采用三元组表示知识：(h,r,t)即头实体，关系，尾实体。首先，把头实体和关系转为embedding，目标是希望embedding(h,r)接近embedding(t)。因此有两个问题：

如何设计embedding；
如何让两者接近；

在图谱中，关系通常有不同的模式，比如：

对称关系：同学，同事（互为同学，互为同事）
逆向关系：昆凌是周杰伦的老婆，周杰伦是昆凌的老公

TransE从关系模式出发，本质目的是补全三元组，即补全知识图谱。首先，进行node2vec操作，将节点转为embedding（具体如何转embedding可选），如果t和(h,r)可以组成三元组，则h+r的embedding等于t的embedding。TransE主要是重新训练类似Word2Vec的embedding，使其有利于通过对隐空间向量分类补全三元组。

TransE的算法如下，输入训练集 $S=\left\{(h,l,t)\right\}$ ， $l\in L$ 为关系， $h,t\in E$ 为实体，margin值 $\gamma$ ，embedding维度为 $k$ ，首先初始化：

对于每个 $l\in L$ ，首先进行采样 $l\sim uniform(-\frac{6}{\sqrt{k}},\frac{6}{\sqrt{k}})$ ，并归一化 $l = l /∣∣ l ∣∣$
对于每个实体 $e\in E$ ，采样 $e\sim uniform(-\frac{6}{\sqrt{k}},\frac{6}{\sqrt{k}})$

然后进行循环：

$e = e /∣∣ e ∣∣$ ，从 $S$ 中采样batch size为 $b$ 的子集 $S_{batch}$ ， $T_{batch}$ 为空集；
对于子集中的每个样本 $(h,l,t)\in S_{batch}$ ，从另一个子集采样一个样本 $(h',l,t')\in S'_{batch}$ ，将样本加入 $T_{batch}=T_{batch}\cup\left\{((h,l,t),(h',l,t'))\right\}$
更新embedding使得： $min\sum[\gamma+d(h+l,t)-d(h'+l,t')]$