文章目录
- 一、面向冶金设备运维履历的知识图谱构建与语义相似性度量研究
- 二、KG中的实体相似度计算研究
- 研究假设
- 研究方法
- 第一步:特征生成
- 第二步:模型选择
- 三、基于司法案例知识图谱的类案推荐
- 个人解惑
一、面向冶金设备运维履历的知识图谱构建与语义相似性度量研究
研究目标:在设备维修时,快速检索得到与设备调查单相似的运维履历文档。
现在研究不足:传统的基于字符距离或者词向量的方式,没有考虑到运维文本语句结构及深层语义问题。
针对不足,提出的使用基于深度学习的图谱向量方法度量不同运维履历文档的相似性,计算过程中因TransE只能编码单个三元组,全局表示能力较弱,文中使用的是图神经网络,将其转换为向量形式。
1.构建设备树。预先定位故障调查单的故障设备主体类或实例集合,之后在以此为基准进行文档的语义相似性度量。
其实,构建了一个知识图谱,如果构建KG的话,三元组是不可缺少的,计算图谱的相似度,是通过图神经网络??
二、KG中的实体相似度计算研究
现研究不足:
研究目标:废除了实体数据和训练数据,实体数据中给出了实体的所有属性,训练数据给出的部分实体对之间的相似度得分。
实体的属性按照格式分为了3种:数值型、列表型、文本型。
- 数值型就是数值作为实体的属性。
- 列表型是属性是多个元素构成的,比如一部电影的演员列表
- 文本型属性是一段文字信息。
整个研究过程是值得学习的
研究假设
在计算相似度之前,先定了假设条件:
1、不同类别的实体对相似度是0
2、实体与自身的相似度值是:4
3、两个实体的相似度满足对称性。
在数据预处理阶段,作者发现有些数据是不满足之前定义的假设条件的,将这些不满足的数据归类为噪声数据。
比如:
研究方法
第一步:特征生成
数值型属性数据:
列表型数据:Jaccard
文本型数据:cosine sim
在文档层面使用了LDA模型得到了文档的主题,在计算主题相似度上,一种是使用余弦度,一种使用Hellinger距离(用来度量两个概率分布之间的相似度)计算相似度。
第二步:模型选择
在第一步中是选择了相似度测评指标和指标之间的相似度计算方法,第二步中是确定每个指标之间的集成方法,也称为模型选择。
三、基于司法案例知识图谱的类案推荐
原文链接:https://jns.nju.edu.cn/article/2021/0469-5097/0469-5097-2021-57-6-1053.shtml
第一步是使用的Bi-LSTM -CRF 模型进行关系抽取得到了三元组,然后表示成图谱形式。
第二步:实现基于图谱的相似类案推荐。
(1)首先对传统的TransH算法进行改进,提出基于图聚类向量优化的案件知识图谱表征学习方法(FU⁃TransH),旨在提高实体向量化的准确性;(2)在构建的司法案例知识图谱基础上,利用改进的向量表征方法(FU⁃TransH)对司法案件知识图谱中所有的实体和关系进行向量化表征(Embedding)学习;(3)在FU⁃TransH方法构建的知识图谱向量表征基础上,给出基于欧式距离的相似案件计算方法;(4)在上述相似案件计算的基础上,给出相似案件的推荐过程.
具体的,在使用知识图谱做案例推荐的时候,具体过程如下:
(1)对当事人陈述的供词进行文本处理;(2)将分词后的当事人陈述组成三元组;(3)抽取法律裁判文书中的关键信息;(4)根据抽取的关键信息建立知识图谱;(5)将基于陈词供述生成的三元组和基于裁判文书生成的知识图谱进行实体对齐,此处采用余弦相似度度量方法并结合人工干预的方法实现实体对齐;(6)利用改进的TransH算法将案件向量化;(7)根据欧式距离求解Top⁃m个与当事人相似的案例并推荐出来.
个人解惑
知识图谱中的transH算法和图神经网络有什么关联?
TransH算法是知识图谱表示学习中的一种算法,它是Trans系列算法之一。TransH算法的主要思想是将关系向量投影到一个超平面上,从而将实体和关系映射到不同的空间中。这种方法可以有效地解决一对多和多对一的关系问题。图神经网络是一种用于处理图结构数据的深度学习模型,它可以对每个节点的领域信息进行聚合,从而更新当前节点的表示。在知识图谱中,图神经网络可以用于实体分类、关系预测等任务。因此,TransH算法和图神经网络可以结合使用来进行知识图谱表示学习¹⁴⁵。
Source: Conversation with Bing, 5/25/2023(1) 网络表示学习和知识图谱表示学习有什么联系? -
知乎. https://www.zhihu.com/question/269781335 Accessed 5/25/2023. (2)
“知识图谱+”系列:知识图谱+图神经网络 - 知乎. https://zhuanlan.zhihu.com/p/358119044
Accessed 5/25/2023. (3) 知识表示学习Trans系列梳理(论文+代码) - 知乎 - 知乎专栏.
https://zhuanlan.zhihu.com/p/144412694 Accessed 5/25/2023. (4)
基于知识图谱的表示学习——Trans系列算法介绍(一)_transr算法_angel_峰起云涌的博客-CSDN博客.
https://blog.csdn.net/sinat_28978363/article/details/88633698 Accessed
5/25/2023. (5) 知识图谱——TransE模型原理_隔壁的NLP小哥的博客-CSDN博客.
https://blog.csdn.net/hei653779919/article/details/104278583 Accessed
5/25/2023. (6) 知识图谱向量化表示-trans 系列算法 - 知乎 - 知乎专栏.
https://zhuanlan.zhihu.com/p/371527445 Accessed 5/25/2023.
KG和图神经网络之间的关系?
kg中应用广泛的表示学习更偏向关系建模,网络表示更加侧重度量图结构信息。两种方法的模型可以在相关任务通用,但算法性能差别较大。
图神经网络:个人认为,图神经网络最直观的理解就是对于一个图结构的输入数据,由于每个节点和其邻域中的节点都具有紧密的关联,因此用图神经网络可以将每个节点的领域信息聚合起来更新当前节点的表示。但是知识图谱和传统的图网络结构最大的不同在于,知识图谱是一个多关系图数据结构,每对节点之间连接的边的类型可能是不一样的,因此,针对知识图谱需要设计更特殊的图神经网络来建模知识图谱。(个人总结:图神经网络更关注于图的结构)
知识图谱嵌入:知识图谱嵌入是将知识图谱中的实体和关系转换为数值化的表示,可以看成一个基础任务,学习出的嵌入表示可以用于各种和知识图谱相关的任务。(个人总结:KG中更加关注关系建模信息)
https://zhuanlan.zhihu.com/p/358119044
KG的表示学习方法:
1 知识图谱表示学习
Modeling Relational Data with Graph Convolutional Networks. ESWC 2018.
Michael Schlichtkrull, Thomas N. Kipf(GCN的作者), Peter Bloem, Rianne van den Berg, Ivan Titov, Max Welling.
核心贡献:这篇论文是图卷积神经网络(GCN)的发明者参与的一项研究,最大的贡献在于开创性地将GCN用于建模知识图谱这类多关系图网络,而以前的所有图神经网络的模型都只能建模只具有单一关系的图网络。
为了对多关系图网络进行建模,论文提出了多关系GCN,在学习每个实体的表示时,针对当前实体关联的每个关系分别用GCN执行聚合操作,具体过程如下图所示:
Trans系列得到知识表示:知识表示学习Trans系列梳理(论文+代码)
https://zhuanlan.zhihu.com/p/144412694
标准相似度计算的话,如果想到用到关系抽取的结果,一个是把三元组连起来,放在知识图谱中,通过文本分词处理,定位到KG中的子图,在计算KG相似度测评得到文本的相似度。