关系抽取概念及相关论文解读

news2024/11/28 23:55:43

1.信息抽取概述

        信息抽取是构建知识图谱的必要条件。知识图谱中以(subject,relation,object)三元组的形式表示数据。信息抽取分为两大部分,一部分是命名实体识别,识别出文本中的实体,另外就是关系抽取,对识别出来的实体构建对应的关系,两者便是构建三元组的基本组成。

2.关系抽取概述

        实体关系抽取(关系抽取)是构建知识图谱非常重要的一环,旨在识别实体之间的语义关系。关系抽取就是从非结构化文本(纯文本)中抽取实体关系三元组(SRO)。这里S代表头实体,R代表关系,O代表尾实体。如下图所示:第一句文本中,“刘翔”和“上海”两个实体之间的语义关系是“出生地”。 第二句文本中,“张艺谋”与“菊豆”两个实体之间的语义关系是“导演”

3.关系抽取方法

        当前关系抽取主要分为两大类,分别是传统的限定域关系抽取(传统关系抽取)和开放领域关系抽取。

3-1 开放域关系抽取(open domain)

        不再局限于一小部分提前已知的关系,关系类型不需要提前固定,而是去抽取文本当中各种各样的关系。 

3-2  限定域关系抽取(fixed domain)

        从非结构化文本中识别出一对实体概念和联系,这对实体以及关系构成的相关三元组。其schema确定后关系类型是固定的,有的关系不在提前定义好的schema中时,将无法抽取,不能抽取出新的关系。 限定域关系抽取方法分为两种,分别是:流水线学习方法(pipeline) 和联合学习方法

3-2-1 流水线学习方法(pipeline)

        通常先抽取句子中的实体,然后在对实体对进行关系分类,从而找出SRO三元组。

3-2-2 联合学习方法(joint)

        联合学习方法(joint)      联合学习方法同时进行实体识别和实体对的关系分类两个任务。联合学习方法由于考虑了两个子任务之间的信息交互,大大提升了实体关系抽取的效果,所以目前针对实体关系抽取任务的研究大多采用联合学习方法。

 

        参数共享模型: 1.主体、客体和关系抽取不是同步的。 2.整个过程可以得到三个Loss值。整个模型的Loss是各个过程的Loss值和 。

        联合解码模型: 1.主体、客体和关系抽取同步进行,通过一个模型直接得出SRO三元组。

 4.关系抽取难点

 4-1  语言表述难点

       由于自然语言表达的多样性、灵活性,不同词汇可表达同一关系。 在文本中找不到明确的关系表示。同一词汇会有不同的关系。

 4-2 关系三元组重叠

 1.Normal

        没有重叠的部分

2.EPO(EntityPairOverlap)

        关系两端的实体都是一致的 。(《少林足球》,导演,周星驰) (《少林足球》,编剧,周星驰)

3.SEO(SingleEntityOverlap)

        关系两端有单个实体共享。 (刘翔,出生地,上海) (刘翔,出生时间,1983年7月13日) (阿尔弗雷德.阿德勒,出生地,奥地利) (阿尔弗雷德.阿德勒,出生地,维也纳)

5. 相关论文介绍

5-1 基于流水线模式关系抽取

        流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取 。

5-1-1 《A frustratingly easy approach for entity and relation extraction》

  论文来源:  普林斯顿 NAACL 2021

  论文引用 :Zhong Z, Chen D. A frustratingly easy approach for entity and relation extraction[J]. arXiv preprint arXiv:2010.12812, 2020.                                                                

模型结构图

     

方法解读 

两个编码器

        1.实体模型:  Span-level NER,提取所有可能的片段排列,通过SoftMax对每一个Span进行实体类型判断。 

        2.关系模型: 对所有的实体pair进行关系分类。将实体边界和类型作为标识符(typed marker)加入到实体Span前后,然后作为关系模型的input。对每个sub和obj的组合进行分类,预测各实体之间的关系。

巧妙改进:学习实体对之间的依赖关系

        S:Md和/S:Md:代表实体类型为Method的Subject,S是实体span的第一个token,/S是最后一个token; O:Md和/O:Md:代表实体类型为Method的Object,O是实体span的第一个token,/O是最后一个token;

5-2-2 《Packed Levitated Marker for Entity and Relation Extraction》

论文来源: 清华大学&微信团队ACL 2022

论文引用 :Ye D, Lin Y, Li P, et al. Packed Levitated Marker for Entity and Relation Extraction[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022: 4904-4917.                                                              

额外知识:Span表征方式

                                                                1.Solid Marker(固定标记)                            显式的在句子中的span前后插入两个marker。如果是关系抽取,就在subject span和object span前后分别插入。                                  2.Levitated Marker(悬浮标记)                          悬浮标记全部置于句子外面。有利于嵌套实体表示;同时有利于计算加速。                                         3.Packed Levitated Marker               subject和object分别存在于句子内部和句子外部。subject存在于句子内部,object全部统一存放在句子外部。有利于凸显object的span之间的内在联系。

模型架构图 

Step1: Entity 

 方法解读:

        通过枚举,列出所有的span 。1.设置span的最大长度 ; 2.设置pack的最大长度。将相邻的span的悬浮标记拼接在同一个样本里面

优点:

         1.面向邻居span的打包策略,以更好地建模实体边界信息,借用span之间的关系

Step2:Relation 

方法解读:

         对于一个句子,以及其中的subject span和它对应的object spans,构成一条训练样本,其中subject span采用固定标记,也就是在句子中span单词的前后直接插入[S]和[/S]两个标记,然后将它对应的候选Object span用悬浮标记的方式拼接在文本后面。 

优点:

        1.建模具有相同subject的跨度对之间的相互关系

5-2  联合解码模式关系抽取

5-2-1 《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》

论文来源: 中国科学研究院 ACL 2021

论文引用 :Zheng S, Wang F, Bao H, et al. Joint extraction of entities and relations based on a novel tagging scheme[J]. arXiv preprint arXiv:1706.05075, 2017.

模型架构图 

        CF 表示关系类型Company-Founder “1”和“2”分别表示被标注的单词属于当前关系类型的头实体和尾实体。   

方法解读 

创新点:采用新的标注方案

          1.首次采用序列标注的方法实现联合抽取,将联合提取任务转化为标记问题 。

         2. 在原有BIES(begin、inside、end、single)标注方案上进行了扩展,新的标注中融入了关系类型和实体在关系中的角色信息。 

5-3 基于联合模式关系抽取       

        本质上本质上是多任务学习,实体识别和关系抽取共享encoder,使用不同的decoder, 并构建联合loss训练优化。

5-3-1 《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》

论文来源: ACL 2016

论文引用 :Miwa M ,  Bansal M . End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures:, 10.18653/v1/P16-1105[P]. 2016.

模型架构图

方法解读 

属于联合关系抽取的开山之作,一共分为三个部分。

1.Embedding layer (word embeddings layer) ;

2.Sequence layer (word sequence based LSTM-RNN layer):用于实体检测;

3.Dependency layer (dependency subtreebased LSTM-RNN layer ):用于关系抽取。

        两个双向LSTM-RNN结构分别用于检测实体分类关系,它们是单独训练的,但是loss是加在一起同时进行反向传播和更新。 

5-3-2 《Span-based joint entity and relation extraction with transformer pre-training》

论文来源: ECAI 2020

论文引用 :Eberts M, Ulges A. Span-based joint entity and relation extraction with transformer pre-training[J]. arXiv preprint arXiv:1909.07755, 2019.

模型架构图

 方法解读

        模型共分为三个部分 1.span classification 2.Span Filtering 3.relation classification,共享Encoder span classification 和 Span Filtering层对实体进行筛选和识别,relation classification 进行关系抽取。

(1)实体分类,这里对实体进行分类,是一个softmax,但是考虑了实体的头尾,实体分类模型得到的是实体的类别和实体span,也就是文本中的那些字段是实体,模型的输入文本tokenizer, 实体span,实体mask,实体size 。

(2)对实体进行过滤span filter,对实体模型的结果进行过滤,保留有实体,根据保留的实体构建关系负样本。

(3)关系分类,输入是实体,实体间连续文本特征max-pooling,实体宽度矩阵,经过一个线性层,得到关系分类的结果。

5-3-3 《A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》

论文来源: 吉林大学 ACL 2020

论文引用 : Wei Z ,  Su J ,  Wang Y , et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020.

模型架构图

 

方法解读 

Casrel共分为两个步骤:

        1.识别出句子中的subject

        2.根据subject识别出所有可能的relation和object

模型分为三个部分:

        1.BERT-based encoder module

        这部分的就是对句子编码,获取每个词的隐层表示,可以采用 BERT 的任意一层。另外这部分是可以替换的,例如用 LSTM 替换 BERT。

        2.subject tagging module

        目的是识别出句子中的 subject。这部分的主要作用是对 BERT Encoder 获取到的词的隐层表示解码。构建两个二分类分类器预测 subject 的 start 和 end 索引位置,对每一个词计算其作为 start 和 end 的一个概率,并根据某个阈值,大于则标记为1,否则标记为0

        (1)利用一个线性层➕一个sigmoid激活函数判断每个token是不是头实体的开始token或结束token;

        (2)利用最近匹配原则将识别到的start和end配对获得候选头实体集合。

        3.relation-specific object tagging module

        根据 subject,寻找可能的 relation 和 object。这部分会同时识别出 subject 的 relation 和相关的 object。 解码的时候比 Subject Tagger 不仅仅考虑了 BERT 编码的隐层向量, 还考虑了识别出来的 subject 特征。vsub 代表 subject 特征向量,若存在多个词,将其取向量平均,hn 代表 BERT 编码向量。 对于识别出来的每一个 subject, 对应的每一种关系会解码出其 object 的 start 和 end 索引位置,与 Subject Tagger 类似。

         对于第一个subject ,Jackie R. Brown,在关系 Birth_place 中识别出了两个 object,即 Washington 和 United States Of America,而在其他的关系中未曾识别出相应的 object。 对第二个subject, Washington 这个 subject 解码时,仅仅在 Capital_of 的关系中识别出 对应的 object: United States Of America。

公式解读

 

 

 6 总结

基本方法

先抽取实体、再抽取关系

联合抽取

优点

1.两个模型,灵活度高

2.实体模型和关系模型可以使用独立的数据集

1.统一使用给一个模型编码

2.两个任务的表征有交互

缺点

1.误差积累:实体抽取的错误会影响下一步关系抽取性能

2.交互缺失:忽略两个任务之间的联系和依赖关系

2.同一个模型需要更为复杂的结构或者是标注语料

2.统一编码器提取特征可能会使得模型学习混乱

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/152921.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【dp】排列问题——零钱兑换和组合总和IV

文章目录零钱兑换组合总和IV零钱兑换 很明显,本题使用完全背包算法,求解的是组合数,直接使用完全背包算法即可,为什么是组合数呢? 如果题目说 amount5,coins[1,2,5] 有9种方法,那就是排列数&am…

探秘SSD磨损均衡和闪存管理

一块2TB的SSD要进行3000PE耐久度测试,需要在顺序写入方式下(写入放大比接近1)写入2TB x 30006000TB的数据,这需要相当长的时间才能完成。有朋友可能会问:在SSD里划分一个1GB容量的小分区,往里面覆盖写入300…

2022年总结:责任驱动开源

文章目录概览阅读2022阅读清单2023 阅读目标文章2022文章列表2023 目标社区WeDataSpherecube-studio (aiops平台)社区展望小结概览 2022年一年过去,在此总结过往,展望未来,每年都写总结,我希望继往开来&am…

STC单片机基于Keil平台在线调试仿真

STC单片机基于Keil平台在线调试仿真⚡目前STC32G12K128型号的单片机仅支持需要通过SWD接口(STC-USB LINK 1D)进行调试,STC8H系列可以通过HID接口或者串口进行调试,其他不带HID功能型号的只能通过串口进行调试。 ✨初次调试&#x…

RHCE——编写playbook ansible

1.按照要求定义以下变量。(可以在多个位置下定义实现相应操作即可) | 变量名 | 值 | | --------- | ------- | | file_name | newfile | | user_name | devops | | pk_name | httpd | 2.编写任务模块在node1和node2主机中根据以上变量值创建对应文本文件…

IPC进程间通信-管道

🧸🧸🧸各位大佬大家好,我是猪皮兄弟🧸🧸🧸 文章目录一、了解进行间通信①进程间通信的必要性②进程间通信的技术背景二、管道①管道原理管道原理,三步走管道pipe②匿名管道进程间通…

CANoe-System And Communication Setup介绍

如同经典通信模式中,在Simulation Setup界面创建网络、添加节点、导入dbc数据库一样,新型通信模式使用System And Communication Setup完成这些配置 System And Communication Setup是通信配置的中心起点,在这里你可以配置: 应用层(application models)通信层(communic…

【自学Python】Python bytes类型

Python bytes类型 Python bytes类型教程 Python3 新增了 bytes 类型,用于代表字节序列。 字符串(string) 是一串字符组成的序列,字符串处理的基本单位是字符,bytes 类型是一串字节组成的序列,bytes 类型处理的基本单位是字节。…

三维重建基础: 坐标系 (更新中)

文章目录概述计算机视觉:投影矩阵M: 世界坐标系 -> 像平面坐标系相机坐标系 -> 像平面坐标系:世界坐标系 -> 相机坐标系计算机图形:MVP变换view/camera 变换常见坐标系定义colmap中的坐标系线性代数相关基础待办附录概述…

微信小程序安装 Vant 组件库与API Promise组件库

在项目内右键空白处选择在外部终端打开2、在终端窗口输入 npm init -y,创建package-lock.jsonnpm init -y3、在终端输入npm i vant/weapp1.3.3 -S --production,创建node_modules文件夹npm i vant/weapp1.3.3 -S --production4、详情-本地设置&#xff0…

安信证券资管清算重要业务在原生分布式数据库的创新实践

作者:安信证券信息技术委员会运维部系统平台室 刘盛彩、肖昭、张杰 来源:《金融电子化》 近日,《国务院关于数字经济发展情况的报告》(以下简称报告)提请十三届全国人大常委会第三十七次会议审议, 报告提出&#xff1a…

【Vue + Koa 前后端分离项目实战8】使用开源框架==>快速搭建后台管理系统 -- part8 【权限控制联调】

不要为了不值得的事和人感伤悲秋 本章主要关联章节:【Vue Koa 前后端分离项目实战3】使用开源框架>快速搭建后台管理系统 -- part3 权限控制行为日志_小白Rachel的博客-CSDN博客_koa权限管理 本章主要实现综合的系统权限管理 目录 一、权限控制说明 二…

【Linux】Linux常用指令(28个,以及热键,关机重启)

文章目录1、ls 指令2、pwd 命令3、cd 指令4、touch 指令5、mkdir 指令6、rmdir和rm 指令7、man 指令8、cp 指令9、mv 指令10、cat11、echo(输出,输入,追加重定向)12、wc13、more14、less15、head16、tail(以及管道 | )17、date18、cal19、find(which、wh…

KubeSphere使用外部ES进行日志收集(多行日志)

环境kubesphere : v3.3.1Docker:20.10.8Fluent-Bit:2.0.6-2.0.8ESKibana:7.9.3Docker日志示例{"log":"2023-01-10 11:32:50.021 - INFO --- [scheduling-1] traceId: p6spy : 1|conn-0|statement|SELECT fd_id A…

Java 泛型的介绍和使用

什么是泛型? 1.数据类型变得广泛,或者是数据类型变量化,这就是泛型.(广泛的类型). 2.有一个变量是用来存放一个数据类型,这就叫做泛型. 比如泛型T存放的是一个int 就表示为:Tint 当然T也可以是其他的数据类型,就取决我们给它数据类型. 3.泛型允许程序员在强类型程序设计语…

kafka zookeeper单机版安装部署全教程 含安装包

kafka zookeeper安装部署全教程 含安装包 大家好,我是酷酷的韩~ 一.基础软件安装 1.JDK安装部署 linux安装jdk1.8全教程(包含安装包) 二.安装包准备 1.kafka (kafka_2.12-2.8.0.tgz) https://kafka.apache.org/downloads 2.zookeeper (apache-zookeeper-3.7.…

最近爆火的电子血氧仪的基本原理

继口罩、抗原、药品之后,最近电子血氧仪的价格也开始水涨船高。从一个多月前的100多元,暴涨到了300多元。 那么,这类家用的电子血氧仪是如何工作的呢?测量数据到底准不准?今天就带大家来分析一下。 一、血氧仪工作原理 血氧仪是一种监测脉搏、血氧饱和度等指标的医疗器械…

人工智能-EM算法

目录1、EM算法2、EM算法介绍3、EM算法实例1、EM算法 EM算法:期望最大化算法。解决数据缺失情况下的参数估计问题 它是一个基础算法,是HMM等的基础 期望步:E步,最大步M步 步骤: 1,根据已经给出的观测数据,估计出模型参…

世界上第一款启用 QMK/VIA 的薄型无线机械键盘 Keychron K3 Pro 我刚刚入手

文章目录1. Keychron K3 Pro 是什么2. 键盘参数3. 打字音效测试4. 超薄5. 支持热插拔6. 薄型 Gateron 开关7. 薄型双射 PBT 键帽8. 多功能键9. 键盘部件可自定制10. 电池11. QMK 和 VIA 定制12. 产品清单13. 与 keychron k3 对比14. 与 keychron 其他系列对比14.1 为什么没有选…

Swin Transformer阅读笔记

Swin Transformer 使用了移动窗口的层级式的Vit(Hierarchical Vision Transformer using Shifted Windows) 总体来说:Swin Transformer想让Transformer像卷积神经网络一样,可以分为多个block,可以做层级式特征提取&a…