知识图谱(3)关系抽取

news2024/11/16 22:38:22

信息抽取旨在从大规模非结构化或半结构化的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务,主要目的是从文本中识别实体并抽取实体之间的语义关系

比如有下面的文本:
International Business Machines Corporation (IBM or the company) was incorporated in the State of New York on June 16, 1911.

我们希望获得如下三元组,即关系:

  • Founding-year (IBM,1911)
  • Founding-location (IBM, New York)

可以想象,关系抽取在构建知识图谱方面发挥了重要作用:比如在已有的知识库上,继续挖掘文本获取新的知识,增强知识库;又比如通过挖掘垂直领域的文本,构建垂直领域的知识库(医学,化学等领域)。

基于KG,我们可以展开上层应用,比如问答,推理。对于下面的问句:

The granddaughter of which actor starred in the movie "E.T."?

可以被转换为下面的逻辑表达:

(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)
其中,?x和?y都表示未知的实体,acted-in这类表示关系,&&为三元组的逻辑连接

最终答案会从KG中,结合上面的逻辑表达计算得到。

关系抽取方法可以分为:基于模式,全监督,远程监督,无监督。默认的关系抽取是已经从文本中识别出实体,然后基于实体和文本进一步发现关系。而对于目前的深度学习方法,一些方法是直接从文本中获得实体和关系。

目录

  • 基于模式
  • 全监督学习
  • 远程监督

基于模式

基于模式的抽取:通过定义关系在文本中表达的字符,语法或者语义模式,将模式与文本的匹配作为主要手段,来实现关系实例的获取。

基于字符模式的抽取:

关系:作品-作者
模板:{$1}是现代文学家{$2}的散文集
应用:朝花夕拾是现代文学家鲁迅的散文集

关系:作品-原名
模板:{$1}原名{$2}
应用:朝花夕拾原名旧事重提

可以看出,基于模式的方法是很不鲁棒的,这种方法只能用于有固定描述模式的内容,比如商品信息中的infobox。

基于语法模式的抽取:通过引入文本所包含的语法信息来描述抽取模式,可以增强模式的表达能力。

总之,基于模式的方法在小规模数据上容易实现,但是召回率很低,难以维护,移植性差。

全监督学习

前提是:需要带有关系标签的大量实体对,然后应用深度学习方法或者经典机器学习方法进行建模,用于表征关系与实体对的关联。

对于一个文本:American Airlines, a unit of AMR, immediately matched the move, spokesman Tim Wagner said.
已知两个实体(mention):M1-American Airlines和M2-Tim Wagner

两个实体M1和M2和两者之间有如下特征:

  • 实体类型,比如M1-ORG,M2-PERSON
  • 句法特征:实体对之间的依存关系,比如实体之间的树结构(基于依存句法分析)

在依存句法分析中,认为句子中,一个词总是修饰另一个词,称修饰词为从属词,被修饰词称为支配词,两者之间的语法关系为依存关系。在依存句法分析中,总有个标记root,root对应不修饰任何词的词。

深度学习方法可以分为两类:

  • 实体识别和关系分类作为两个独立过程,关系的识别依赖于实体识别的效果,比如:CR-CNN,Att-BLSTM
  • 实体识别和关系分类共同优化,比如LSTM-RNNs

在LSTM-RNNs中,使用Bi-LSTM做NER,使用Bi-TreeLSTM结合NER识别关系:
fig1

远程监督

远程监督于2009年提出,核心假设为:如果某两个实体存在确定的某一关系,那么所有包含这两者的句子都表达了这一关系。很容易发现,经过远程监督得到的数据很容易包含噪声。因此后来得到改进:

  • 如果知识库中存在某个实体对的某种关系,那么至少有一个提到此对实体的数据表达该关系。

在这个假设下,为了区分关系和噪声,出现了多实例学习:一个实体对的关系是已知的,存在这些实体对的句子样本集合为 bag,这些句子中至少有一个句子表达了已知的关系。于是,在监督学习的场景下,从多个句子中只挑出最靠谱的一个句子,作为这个实体对的样本加入到训练中,训练关系抽取模型。


半监督和无监督的效果其实不好,其核心是依据语义相似性来分类关系,一般还是使用全监督方法或者远程监督方法。


基于pyltp(https://github.com/HIT-SCIR/pyltp)的关系抽取举例,pyltp 是 语言技术平台Language Technology Platform即LTP的 Python 封装:

原句 贝拉克·侯赛因·奥巴马的身世复杂,1961年8月4日出生在美国夏威夷州檀香山市,父亲是来自肯尼亚的留学生,母亲是堪萨斯州白人。

主语谓语宾语关系	(父亲, 是, 来自肯尼亚留学生)

定语后置动宾关系	(留学生, 来自, 肯尼亚)

主语谓语宾语关系	(母亲, 是, 堪萨斯州白人)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1018847.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2019-2021年上市公司润灵ESG评分评级数据

2019-2021年上市公司润灵ESG评分评级数据 1、时间:2019-2021年 2、指标:股票代码、股票简称、评级年份、所属指数名称、GICS行业一级分类、GICS行业一级分类代码、GICS行业二级分类、GICS行业二级分类代码、GICS行业三级分类、GICS行业三级分类代码、E…

【Qt 图形视图框架】QGraphics分析及使用

组成 Qt 图形视图框架分为三部分:场景、视图、图元。 场景对于程序来说,场景是不可见的,是一个抽象的管理图形项的容器。 可以向场景中添加图形项,比如:圆形、矩形、三角形等等 此外,还可以获取场景中的某…

games101 作业2

题目 光栅化一个三角形 1. 创建三角形的 2 维 bounding box。 2. 遍历此 bounding box 内的所有像素(使用其整数索引)。然后,使用像素中心的屏幕空间坐标来检查中心点是否在三角形内。 3. 如果在内部,则将其位置处的插值深度值 (…

GICv3学习

GICv3学习 参考文档: 《corelink_gic600_generic_interrupt_controller_technical_reference_manual_100336_0106_00_en》 《IHI0069H_gic_architecture_specification》 《ECM0495013B_GIC_Stream_Protocol》 一、GICv3寄存器接口 接口如下图所示&#xff1a…

手搭手入门Mybatis-Plus配置多数据源

https://baomidou.com/ Mybatis-Plus介绍 为简化开发而生 MyBatis-Plus(opens new window)(简称 MP)是一个 MyBatis (opens new window) 的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。 特性 无…

Python 多线程概述

视频版教程 Python3零基础7天入门实战视频教程 几乎所有的操作系统都支持同时运行多个任务,一个任务通常就是一个程序,每一个运行中的程序就是一个进程。当一个程序运行时,内部可能包含多个顺序执行流,每一个顺序执行流就是一个线…

指针笔试题

目录 指针笔试题 NO1. NO2. NO3. NO4. NO5.✔ NO6. NO7. NO8.✔ 今天接着继续指针练习。🙂🙂🙂 指针笔试题 NO1. //指针的类型 //转化后的类型 //解引用访问根据指针类型访问几个字节 //整型在内存中的存储------小端存储 //*解引…

项目上线部署--》服务器部署流程(二)安装Nginx、Node.js、MySQL

阅读本篇文章前请先阅读项目上线部署--》服务器部署流程(一) 目录 🌟安装Nginx 先登录远程服务器,安装依赖包 下载并解压包 🌟安装Node.js 安装nodejs进程管理工具 🌟安装MySQL 🌟写在最…

透过《眼睛的故事》:需求为何成为纪录片的“价值锚点”?

我们正处在一个内容过载、追求流量的时代。 对于观众来说,这是幸运的,也是不幸的。一方面,相比以前能接受到的内容指数级增长,自己的视野无限扩大,但另一方面,“流量思维”下粗制滥制的内容不在少数&#…

一百七十八、ClickHouse——海豚调度执行ClickHouse的.sql文件

一、目的 由于数仓的ADS层是在ClickHouse中,即把Hive中DWS层的结果数据同步到ClickHouse中,因此需要在ClickHouse中建表,于是需要海豚调度执行ClickHouse的.sql文件 二、实施步骤 (一)第一步,海豚建立Cl…

JavaWeb的基本概念

一、Web基本概念 Web的基本结构: 1.客户端的概述 1.1. 客户端的作用 与用户进行交互,用于接收用户的输入(操作)、展示服务器端的数据以及向服务器传递数据 1.2. 常见的客户端 PC端网页: 移动端: Iot设备: 2…

基于LUT查找表方法的图像gamma校正算法FPGA实现,包括tb测试文件和MATLAB辅助验证

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 将gamma2.2和gamma1/2.2的数据分别导入到matlab进行对比: 2.算法运行软件版本 matlab2022a 3.部分核心程序 timescale 1ns / 1ps //…

MyBatisPlus中使用Mybatis方式操作数据库。

说明 MyBatisPlus中,可以使用 Mybatis 方式操作数据库。在 Mapper.xml 中,编写 SQL 来实现比较复杂的操作。 一般比较复杂的逻辑,需要多表联合查询,比较适合直接写SQL。 MybatisPlus比较适合单表操作。 PS:本示例只…

使用stelnet进行安全的远程管理

1. telnet有哪些不足? 2.ssh如何保证数据传输安全? 需求:远程telnet管理设备 用户定义需要在AAA模式下: 开启远程登录的服务:定义vty接口 然后从R2登录:是可以登录的 同理R3登录: 在R1也可以查…

10.前端打包与nginx部署

文章目录 打包部署nginx替换html 打包 首先,确保你的项目是可以运行的,以若依为例,运行npm run dev 是可以正常运行起来前端的。然后前端的打包命令是 # 构建测试环境 npm run build:stage # 构建生产环境 npm run build:prod打包好之后&am…

华为云香港S3云服务器性能测评_99元一年租用价格

华为云香港S3云服务器1核2G1M带宽99元一年性能测评,配置为S3云服务器1核2G1M带宽,S系列热卖机型,适用于个人建站、普通web应用等负载较低场景,系统盘为高IO40G系统盘,华为云百科分享华为云香港云服务器配置费用&#x…

HUAWEI华为MateBookD15笔记本2019款i5独显非触屏(BoB-WAH9P)原装出厂Win10系统2004

原厂系统自带显卡、网卡、声卡、指纹等所有驱动、出厂主题壁纸、系统属性专属LOGO标志、Office办公软件、华为电脑管家等预装程序 链接:https://pan.baidu.com/s/1sB7dCXlvw9deSiVeY8BvDg?pwd49a6 提取码:49a6

笔记01:第一行Python

NameError 名字不含特殊符号(只能是英文、数字、下划线、中文等)名字区分大小写名字先定义后使用 SyntaxError 不符合Python语法书写规范除了语法成分中的保留拼写错误输出中文符号if、for、def等语句末尾忘记冒号 IdentationError 缩进错误&#x…

算法刷题 week4

目录 1.斐波那契数列题目题解(递推 滚动变量) O(n) 剑指offer 10 - II 青蛙跳台阶问题题目题解 10.旋转数组的最小数字题目题解(二分) O(n) 1.斐波那契数列 题目 题解 (递推 滚动变量) O(n) 这题的数据范围很小,我们直接模拟即可。 当数据范围很大时&#xff0…

【学习笔记】Java 一对一培训(2.1)Java基础语法

【学习笔记】Java 一对一培训(2.1)Java基础语法 关键词:Java、Spring Boot、Idea、数据库、一对一、培训、教学本文主要内容含Java简介、Java基础语法、Java对象和类、Java基本数据类型、Java变量类型、Java修饰符计划2小时完成,…