基于关系抽取的相似度计算

news2024/11/20 7:06:23

文章目录

  • 一、面向冶金设备运维履历的知识图谱构建与语义相似性度量研究
  • 二、KG中的实体相似度计算研究
      • 研究假设
      • 研究方法
        • 第一步:特征生成
        • 第二步:模型选择
  • 三、基于司法案例知识图谱的类案推荐
  • 个人解惑

一、面向冶金设备运维履历的知识图谱构建与语义相似性度量研究

研究目标:在设备维修时,快速检索得到与设备调查单相似的运维履历文档。

现在研究不足:传统的基于字符距离或者词向量的方式,没有考虑到运维文本语句结构及深层语义问题。

针对不足,提出的使用基于深度学习的图谱向量方法度量不同运维履历文档的相似性,计算过程中因TransE只能编码单个三元组,全局表示能力较弱,文中使用的是图神经网络,将其转换为向量形式。

1.构建设备树。预先定位故障调查单的故障设备主体类或实例集合,之后在以此为基准进行文档的语义相似性度量。

其实,构建了一个知识图谱,如果构建KG的话,三元组是不可缺少的,计算图谱的相似度,是通过图神经网络??

在这里插入图片描述

二、KG中的实体相似度计算研究

现研究不足:
在这里插入图片描述在这里插入图片描述
研究目标:废除了实体数据和训练数据,实体数据中给出了实体的所有属性,训练数据给出的部分实体对之间的相似度得分。

实体的属性按照格式分为了3种:数值型、列表型、文本型。

  1. 数值型就是数值作为实体的属性。
  2. 列表型是属性是多个元素构成的,比如一部电影的演员列表
  3. 文本型属性是一段文字信息。

整个研究过程是值得学习的

研究假设

在计算相似度之前,先定了假设条件:
1、不同类别的实体对相似度是0
2、实体与自身的相似度值是:4
3、两个实体的相似度满足对称性。
在数据预处理阶段,作者发现有些数据是不满足之前定义的假设条件的,将这些不满足的数据归类为噪声数据。
比如:在这里插入图片描述

研究方法

第一步:特征生成

数值型属性数据:在这里插入图片描述
列表型数据:Jaccard
文本型数据:cosine sim

在文档层面使用了LDA模型得到了文档的主题,在计算主题相似度上,一种是使用余弦度,一种使用Hellinger距离(用来度量两个概率分布之间的相似度)计算相似度。

第二步:模型选择

在第一步中是选择了相似度测评指标和指标之间的相似度计算方法,第二步中是确定每个指标之间的集成方法,也称为模型选择。
在这里插入图片描述

三、基于司法案例知识图谱的类案推荐

原文链接:https://jns.nju.edu.cn/article/2021/0469-5097/0469-5097-2021-57-6-1053.shtml
第一步是使用的Bi-LSTM -CRF 模型进行关系抽取得到了三元组,然后表示成图谱形式。
第二步:实现基于图谱的相似类案推荐。
(1)首先对传统的TransH算法进行改进,提出基于图聚类向量优化的案件知识图谱表征学习方法(FU⁃TransH),旨在提高实体向量化的准确性;(2)在构建的司法案例知识图谱基础上,利用改进的向量表征方法(FU⁃TransH)对司法案件知识图谱中所有的实体和关系进行向量化表征(Embedding)学习;(3)在FU⁃TransH方法构建的知识图谱向量表征基础上,给出基于欧式距离的相似案件计算方法;(4)在上述相似案件计算的基础上,给出相似案件的推荐过程.

在这里插入图片描述
具体的,在使用知识图谱做案例推荐的时候,具体过程如下:
(1)对当事人陈述的供词进行文本处理;(2)将分词后的当事人陈述组成三元组;(3)抽取法律裁判文书中的关键信息;(4)根据抽取的关键信息建立知识图谱;(5)将基于陈词供述生成的三元组和基于裁判文书生成的知识图谱进行实体对齐,此处采用余弦相似度度量方法并结合人工干预的方法实现实体对齐;(6)利用改进的TransH算法将案件向量化;(7)根据欧式距离求解Top⁃m个与当事人相似的案例并推荐出来.

在这里插入图片描述

个人解惑

知识图谱中的transH算法和图神经网络有什么关联?

TransH算法是知识图谱表示学习中的一种算法,它是Trans系列算法之一。TransH算法的主要思想是将关系向量投影到一个超平面上,从而将实体和关系映射到不同的空间中。这种方法可以有效地解决一对多和多对一的关系问题。图神经网络是一种用于处理图结构数据的深度学习模型,它可以对每个节点的领域信息进行聚合,从而更新当前节点的表示。在知识图谱中,图神经网络可以用于实体分类、关系预测等任务。因此,TransH算法和图神经网络可以结合使用来进行知识图谱表示学习¹⁴⁵。

Source: Conversation with Bing, 5/25/2023(1) 网络表示学习和知识图谱表示学习有什么联系? -
知乎. https://www.zhihu.com/question/269781335 Accessed 5/25/2023. (2)
“知识图谱+”系列:知识图谱+图神经网络 - 知乎. https://zhuanlan.zhihu.com/p/358119044
Accessed 5/25/2023. (3) 知识表示学习Trans系列梳理(论文+代码) - 知乎 - 知乎专栏.
https://zhuanlan.zhihu.com/p/144412694 Accessed 5/25/2023. (4)
基于知识图谱的表示学习——Trans系列算法介绍(一)_transr算法_angel_峰起云涌的博客-CSDN博客.
https://blog.csdn.net/sinat_28978363/article/details/88633698 Accessed
5/25/2023. (5) 知识图谱——TransE模型原理_隔壁的NLP小哥的博客-CSDN博客.
https://blog.csdn.net/hei653779919/article/details/104278583 Accessed
5/25/2023. (6) 知识图谱向量化表示-trans 系列算法 - 知乎 - 知乎专栏.
https://zhuanlan.zhihu.com/p/371527445 Accessed 5/25/2023.

KG和图神经网络之间的关系?

kg中应用广泛的表示学习更偏向关系建模,网络表示更加侧重度量图结构信息。两种方法的模型可以在相关任务通用,但算法性能差别较大。

图神经网络:个人认为,图神经网络最直观的理解就是对于一个图结构的输入数据,由于每个节点和其邻域中的节点都具有紧密的关联,因此用图神经网络可以将每个节点的领域信息聚合起来更新当前节点的表示。但是知识图谱和传统的图网络结构最大的不同在于,知识图谱是一个多关系图数据结构,每对节点之间连接的边的类型可能是不一样的,因此,针对知识图谱需要设计更特殊的图神经网络来建模知识图谱。(个人总结:图神经网络更关注于图的结构

知识图谱嵌入:知识图谱嵌入是将知识图谱中的实体和关系转换为数值化的表示,可以看成一个基础任务,学习出的嵌入表示可以用于各种和知识图谱相关的任务。(个人总结:KG中更加关注关系建模信息
https://zhuanlan.zhihu.com/p/358119044

KG的表示学习方法:

1 知识图谱表示学习
Modeling Relational Data with Graph Convolutional Networks. ESWC 2018.

Michael Schlichtkrull, Thomas N. Kipf(GCN的作者), Peter Bloem, Rianne van den Berg, Ivan Titov, Max Welling.

核心贡献:这篇论文是图卷积神经网络(GCN)的发明者参与的一项研究,最大的贡献在于开创性地将GCN用于建模知识图谱这类多关系图网络,而以前的所有图神经网络的模型都只能建模只具有单一关系的图网络。

为了对多关系图网络进行建模,论文提出了多关系GCN,在学习每个实体的表示时,针对当前实体关联的每个关系分别用GCN执行聚合操作,具体过程如下图所示:
在这里插入图片描述

Trans系列得到知识表示:知识表示学习Trans系列梳理(论文+代码)
https://zhuanlan.zhihu.com/p/144412694

标准相似度计算的话,如果想到用到关系抽取的结果,一个是把三元组连起来,放在知识图谱中,通过文本分词处理,定位到KG中的子图,在计算KG相似度测评得到文本的相似度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/568804.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

叮咚买菜业绩大幅低于预期,2023年前景堪忧

来源l:猛兽财经 作者:猛兽财经 叮咚买菜2023年第一季度业绩低于预期 叮咚买菜(DDL)于5月12日公布了2023年第一季度财报。 财报显示,叮咚买菜的收入同比下降了-8%,从2022年第一季度的54.44亿元人民币下滑…

搭建Stm32遇到的问题汇总

问题一:右侧watch窗口无法显示数据动态变化 现象:在main循环中加入累加的数值都不变化 现象2:单步执行卡在如下函数 原因:一般是因为没有用微库进入半主机模式 解决措施: 措施一:打开勾选下面的。 措施二…

【HTTP】

目录 🎨1. HTTP 请求 🏰1.1 首行 👑1.2 URL 🚩1.3 Content-Type 和 Content-Length 🍊1.4 User-Agent 🌽1.5 Referer ⚽1.6 Cookie 🍩2. HTTP 响应 🌞2.1 HTTP 响应 首行…

软件工程学习1:软件项目项目管理

假设你被指派作为一个软件公司的项目负责人,任务是开发一个管理系统,人员规模大约为8人,人员角色应如何确定?应如何进行项目管理?(从软件项目管理估算、软件规模、工作量估算、进度计划安排、软件过程模型等…

入行4年,跳槽2次,我好像摸透了软件测试这一行!

很多测试人在行业中摸爬滚打了很多年,时不时给身边新入职的伙伴们一些好的建议,对一部分刚入职起步的测试小白来说,这些建议都是让你少走弯路的捷径,废话不多说,让我们来了解一下,一位入行4年跳槽2次的老测…

JSONException: illegal identifier : \pos 1 异常报错问题

JSONException: illegal identifier : \pos 1 异常报错问题 1.常见情况:1.1 JSON 字符串格式不正确1.2 JSON 字符串中包含了非法字符1.3 解析 JSON 字符串的方式不正确 2.解决办法:2.1 工具类2.2 StringEscapeUtils.unescapeJava3. JSONObject.parseObje…

黑客入门教程从零基础入门到精通,看完这一篇就够了

学前感言: 1.这是一条坚持的道路,三分钟的热情可以放弃往下看了. 2.多练多想,不要离开了教程什么都不会了.最好看完教程自己独立完成技术方面的开发. 3.有时多google,baidu,我们往往都遇不到好心的大神,谁会无聊天天给你做解答. 4.遇到实在搞不懂的,可以先放放,以后再来解决…

Revit建模|怎么创建轴网标高?

大家好,这里是建模助手,今天给大家讲一讲怎么创建轴网标高。 标高用来定义楼层层高以及生成平面视图,轴网用于为构件定位,在Revit中轴网确定了一个不可见的工作平面,轴网编号以及标高符号样式均可定制修改。目前&…

每日练题---C语言

目录 前言: 一.求最小公倍数 1.1公式法 1.2遍历法 1.3乘除法 二.倒置字符串 前言: 今日份题目有:求两个整数的最小公倍数,求倒置字符串,。 一.求最小公倍数 牛客网链接:OJ链接 百度词条:…

Python自动化测试框架怎么搭建?完整框架源码给到你

目录 前言 搭建过程: 一阶段, 二阶段, 三阶段, 四阶段 下面具体的说一下搭建过程 一阶段: 二阶段: 三阶段: 四阶段 前言 背景:公司需要每一个项目组都搭建自己的一套自动…

Vue企业级项目开发思路,附带源码

项目的技术栈展示 以及项目的核心重点部分 项目搭建使用element实现首页布局 顶部导航菜单及与左侧导航联动的面包屑实现 封装一个ECharts组件 封装一个Form表单组件和Table表格组件 企业开发之权限管理思路讲解 项目搭建使用element实现首页布局 顶部导航菜单及与左侧导…

技术分享 | OB 慢查询排查思路

本文汇总了项目实践中前辈的经验和笔者的理解,旨在帮助初学 OceanBase(以下简称 OB)的工程师,快速解决 SQL 执行缓慢等性能问题。当遇到性能问题时,很多工程师可能会感到无从下手,本文将根据关键日志提供多…

14_Uboot图形化配置

目录 U-Boot图形化配置体验 make menuconfig过程分析 Kconfig语法简介 Mainmenu menu/endmenu条目 config条目 depends on和select choice/endchoice Menuconfig Comment Source 添加自定义菜单 U-Boot图形化配置体验 uboot或Linux内核可以通过输入"make menu…

计算机组成原理-存储系统-外部存储虚拟存储器

目录 一、外部存储 1.1磁盘组成 1.2性能指标 1.3磁盘地址 1.4硬盘的工作原理 1.5磁盘阵列 二、 固态硬盘SSD 三、虚拟存储器(存储系统详细知识点) 3.1 页式存储器 逻辑地址-》主存(物理)地址 加入块表(TLB)的转换过程 3.2 段式存储器 3.3 段页式存储器 一、外部存储 又称…

一个非系统工程师所关心的——Android开机流程

一、Loader层 1. Boot ROM: 上电后,BootRom会被激活,引导芯片代码开始从预定义的地方(固化在ROM)开始执行,然后加载引导程序到RAM。 2. Boot Loader引导程序 Android是基于Linux系统的,它没有BIO…

路由器端口映射-原理+图解

文章目录 1. 前言2. 内部服务器3. 内网IP3.1 含义3.2 查询内网IP方法3.3 直观法判断内网IP 4. 内部端口5. 外部端口6. 远程桌面连接7. 端口映射原理图8. 欢迎纠正~ 1. 前言 端口映射就是可将N台主机的内网IP地址映射成一个公网IP地址,从而让外网可以访问到局域网内…

Linux 学习笔记(九):基于 TSS 的进程切换

一、TSS 基本概念 1、什么是 TSS ? TSS(Task State Segment)即任务状态段。具体的说,在设计 “Intel 架构”(即 x86 系统结构)时,每个任务(进程or线程)都对应有一个独立…

Java经典笔试题—day13

Java经典笔试题—day13 🔎选择题🔎编程题🍭参数解析🍭跳石板 🔎结尾 🔎选择题 (1)一个关系数据库文件中的各条记录 () A. 前后顺序不能任意颠倒,一定要按照输入的顺序排…

测试4-数据库设计

测试4-数据库设计 目录 测试4-数据库设计选择题简答题1. 画E-R图并将其转换为适当的关系模型题目E-R图关系模型 2. 画E-R图并将其转换为关系模型题目E-R图关系模型 选择题 下列关于数据库运行和维护的叙述中,正确的是D。 A .只要数据库正式投入运行&…

网狐大联盟服务端源码分析之服务核心-ServiceCore-Base64编解码实现

工程属性分析: 1.工程属性->动态链接库 2.dll类型->MFC共享DLL 3.字符集->Unicode 4.库导出类型->使用模块定义文件def 5.生成的导出模块函数与对应的地址定义lib文件 源码分析: 头文件分析: 头文件与对应含义表示如下: