《DocRED: A Large-Scale Document-Level Relation Extraction Dataset》阅读笔记

news2024/11/25 2:39:45

引言

近期关注篇章级关系抽取,两个原因,一是之前做大规模知识抽取,遗留的一块内容就是篇章级关系抽取和事件抽取;另一个是大模型目前在抽取任务,特别是复杂抽取任务上表现不如其他NLP任务,这也引起我的研究兴趣。作为积累,首先阅读刘知远老师实验室发布的DoCRED作为积累的第一步。

数据采集

人工标注数据采集

人工标注数据是通过四个阶段收集的:
(1)为维基百科相关文档生成远程监督标注。 首先用spacy工具对wiki的文章进行NER, 然后将识别的实体链接wiki的item,并将相同KB ID的实体进行合并。最后,通过查询wiki,对合并后的实体间的关系进行标注。在wiki文章的选择上,少于128词以及少于4个实体的文章会被丢弃。最后从10750篇文章中随机选择5053篇,并选择最频繁使用的96种关系进行标注。

(2)在文档中标注所有命名实体提及(Named Entity Mention)和指代(coreference)信息。为了提供高质量的命名实体提及和指代信息,要求人工标注者首先对第一阶段生成的命名实体提及进行审核、修正和补充,然后合并那些指向相同实体的不同提及,从而提供额外的指代信息。

(3)将命名实体提及与维基数据条目进行链接。 在这个阶段,将每个命名实体提及与多个维基数据项(Wikidata item)进行关联,为下一个阶段提供来自远程监督的关系建议。具体而言,每个命名实体提及与一个候选的维基数据项集合关联,该集合包含所有在文字上与之完全匹配的维基数据项的名称或别名。此外,还使用由文档作者超链接到命名实体提及的维基数据项,以及实体链接工具TagMe来进一步扩展候选集

(4)标记关系及其相应的支持证据。关系和支持证据的标注基于第2阶段的命名实体提及和指代信息。数据集中包含了大量细粒度的关系类型。因此,让标注者从零开始标注关系是不可行的。通过为人工标注者提供来自关系抽取模型的建议以及基于实体链接的远程监督(第3阶段)来解决这个问题。平均而言,从实体链接中为每个文档推荐19.9个关系实例,从RE模型中为每个文档推荐7.8个关系实例进行补充。要求标注者审核这些建议,删除错误的关系实例并补充漏掉的实例。还要求标注者进一步选择所有支持保留的关系实例的句子作为支持证据。保留的关系必须在文档中得到体现,而不依赖外部世界知识。

远程监督数据采集

除了人工注释的数据外,DocRED还收集了大规模的远程监督数据,补充弱监督的关系抽取场景。从总的收集的文档中,删除了5,053份人工标注的,将剩下的101,873份文档作为远程监督数据的语料库。为了确保远程监督数据和人工标注数据具有相同的实体分布,使用了在人工标注数据上微调的BER进行了命名实体识别。DocRED基于启发式方法的方式将每个命名实体mention链接到一个相关的Wikidata item,实体链接的过程同时考虑了该item的频率和其与当前文章的相关性。之后,将具有相同知识库ID的命名实体 mention进行合并。最后,通过远程监督的方式标记每个合并实体对之间的关系。

数据分析

DocRED 从数据统计上看,在文章数、句子数、单词数、实体数量,特别是关系类型数量上,相比于句子级别的关系抽取数据集,如SemEval-2010 Task 8, ACE 2003-2004, TACRED, FewRel等都有了显著提升。值得一提的是,DocRED选取了wiki上的96种关系,包含了科学、艺术、个人生活等方面,不限于某一个特定的领域。此外,关系类型被组织成明确定义的层次结构和分类体系,可以为文档级关系抽取系统提供丰富的信息。

DocRED数据集另一个特点是61.1%的句子需要综合多个句子的信息进行推理。文章列举了推理类型的分布逻辑推理(26.6%)、共指推理(17.6%)和常识推理(16.6%)。46。4%的关系需有多个证据句支撑,其中40.7%的关系事实必须要综合多个句子才来得出。

综上,DoCRED是一个比较能展示篇章级关系抽取能力的基准数据集,也具备一定的难度。

基准设置

DocRED数据集设置了两个基准:人工标注的监督数据集和远程标注的数据集。数据集的收集和基本情况,前面已经介绍,这里不再赘述。
这里重点提一下,作者认为该数据集的两个核心挑战:

  1. 多句和基于推理的关系抽取。区别于基于句子的关系抽取数据集,关系模式的发现可以起到很大的作用,作者认为DocRED中61.1%的关系抽取依赖于复杂推理
  2. 计算代价。DocRED作为篇章级关系抽取,平均每篇文章中包含19.5个实体,待预测关系种类为96种。这就使得一些适配于句子级别抽取的算法迁移到篇章级别面临计算代价过大的问题。

此外,尽管数据集给了一个比较庞大的远程标注数据集,但是在DoCRED中,远程标注抽取的关系错误率也大幅度上升。

基准实验

基准实验室迁移了句子级别关系抽取的四个模型,包括CNN,LSTM,双向LSTM的三个模型(仅特征抽取层不同),以及一个上下文感知的模型。

实验的本身其实意义不是特别大,只是一些先驱尝试,这里直接贴几个论文的结论。
四个模型的基本实验结果

基本实验结果

与人工标注的对比

与人工对比

支持的证据句子,随机(认为所有出现头尾实体的句子均是支持证据)和模型预测

与随机对比

最后作者认为针对DocRED的算法研究后续可以研究的几个点:
(1) 探索明确考虑推理的模型;
(2) 设计更具表现力的模型架构,用于收集和综合句间信息;
(3) 利用远程监督数据来提高文档级关系抽取的性能。

总结

DocRED 这个数据集是清华大学NLP实验室,为了将关系抽取系统从句子级别推进到文档级开源的一个有影响力的数据集。 该数据集具有数据规模大、需要在多个句子上进行阅读和推理的特点,并提供了远程监督数据来促进弱监督文档级关系抽取的开发。实验表明,人类表现明显优于关系抽取基准模型,这表明该领域还有充足的改进空间

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/783905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

5.2.6.字符设备驱动工作原理1

什么是模块?什么是驱动? 模块 驱动的雏形, 你要能操控硬件才叫驱动 在空的模块的基础上,安装驱动 5.2.6.1、系统整体工作原理 (1)应用层->API->设备驱动->硬件 (2)API:open、read、write、close等 (3)驱动…

20230720今天youtube上的中文字幕自动翻译成为英文的功能失效!

20230720今天youtube上的中文字幕自动翻译成为英文的功能失效! 2023/7/20 12:42 ?做YouTube挣钱吗? 115网盘 满了。最新 张家界 旅游的视频 放到 youtube就是 60岁/老了的时候的回忆! 放到 大陆不保险! 如需使用自动翻…

智能合约安全审计

智能合约安全审计的意义 智能合约审计用于整个 DeFi 生态系统,通过对协议代码的深入审查,可以帮助解决识别错误、低效代码以及这些问题。智能合约具有不可篡改的特点,这使得审计成为任何区块链项目安全流程的关键部分。 代码审计对任何应用…

Spring(二):更简单的存储与读取 Bean

通过上一章的Spring,我们基本实现了Spring 的读取与存储,但是在操作过程中,读取与存储并没有那么得“简单” 一套流程还是很复杂,所以,本章来介绍更加简单得读取与存储。 在 Spring 中想要更简单的存储和读取对象的核…

【C++】继承基础知识及简单应用,使用reportSingleClassLayout(在Visual Studio开发人员命令提示窗口)查看派生类详细信息

author:&Carlton tag:C topic:【C】继承基础知识及简单应用,使用reportSingleClassLayout(在Visual Studio开发人员命令提示窗口)查看派生类详细信息 website:黑马程序员C date&#xf…

MySQL 读写分离

目录 一、什么是读写分离? 二、为什么要读写分离呢? 三、什么时候要读写分离? 四、主从复制与读写分离 五、MySQL 读写分离原理 六、企业 使用MySQL 读写分离场景 1)基于程序代码内部实现 2)基于中间代理层实现…

比selenium体验更好的ui自动化测试工具: cypress介绍

话说 Cypress is a next generation front end testing tool built for the modern web. And Cypress can test anything that runs in a browser.Cypress consists of a free, open source, locally installed Test Runner and a Dashboard Service for recording your tests.…

【yolov7】训练自己的数据集-实践笔记

【yolov7】训练自己的数据集-实践笔记 使用yolov7训练自己的数据集,以RSOD数据集为例,图像数量976,一共四类。 yolov7源码:https://github.com/WongKinYiu/yolov7 同时在该网址下载好预训练文件,直接放到yolov7-main…

【每日随笔】马太效应 ② ( 马太效应因果分析 | 规模效应 | 齿轮效应 | 资源优势 | 抗风险能力 | 领先效应 )

文章目录 一、规模效应二、齿轮效应三、资源优势四、抗风险能力五、领先效应 在本文中 , 分析马太效应产生的原因 ; 一、规模效应 自然界中的规模效应 : 体型庞大的动物 , 如 大象 , 犀牛 , 雄狮 , 河马 , 很少被弱小的动物击败 , 都是自然死亡 , 老死 , 病死 , 同类厮杀 ; 经济…

多源BFS-- 矩阵距离

关于多源BFS,基本上就是单源BFS的简单升级了一下,比如在queue中队头开始时只有一个,我们通过这一个队头去推导其他的东西。而多源最短路就是队头一开始有1-n个可能的数,一个一个去BFS。 题目思路: 这个题就直接把所有的…

苹果开发“Apple GPT”AI科技迎来新格局

根据彭博社的马克・古尔曼(Mark Gurman)报道,苹果内部正在开发“Apple GPT”人工智能项目,足以媲美 OpenAI 的 ChatGPT ,预计明年推出。就在彭博社消息发出之后,苹果股价上涨了2.3%,市值顶峰时增…

深入解析 Kubernetes 架构:掌握主节点、工作节点和容器运行时

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

【Linux后端服务器开发】协议定制(序列化与反序列化)

目录 一、应用层协议概述 二、序列化与反序列化 Protocal.h头文件 Server.h头文件 Client.h头文件 server.cpp源文件 client.cpp源文件 一、应用层协议概述 什么是应用层?我们通过编写程序解决一个个实际问题、满足我们日常需求的网络程序,都是应…

CMU15-445 2022 Fall 通关记录 —— Project 3:Query Execution(上篇)

前言 我在初次实现的时候并没有做 三个“选做”的排行榜任务,所以这只是上篇内容,等完成 Pro4 后再完成下篇。 Project 3: Query Execution Project #3 - Query Execution | CMU 15-445/645 :: Intro to Database Systems (Fall 2022) — 项目 #3 - 查…

R语言机器学习之影像组学分析的原理详解

概要 影像组学从常规医学图像中高通量提取大量的放射学定量数据,并以非侵入性方式探索它们与临床结果的相关性,在医学研究中得到广泛的应用。 01 影像组学(Radiomics)的概念: 影像组学(Radiomics&#xff…

JVM堆内存介绍

一:JVM中内存 JVM中内存通常划分为两个部分,分别为堆内存与栈内存,栈内存主要用运行线程方法 存放本地暂时变量与线程中方法运行时候须要的引用对象地址。 JVM全部的对象信息都 存放在堆内存中。相比栈内存,堆内存能够所大的多&am…

图为科技应邀出席第38届中国计算机应用大会

第38届中国计算机应用大会(CCF NCCA 2023)暨2023年人工智能应用学术会议于7月16日-19日在苏州召开。 本次会议由中国计算机学会(CCF)主办,CCF计算机应用专业委员会承办,苏州大学、苏州科技大学、南京理工大学等单位协办&#xff0…

数字孪生搭高台,温控节能唱新戏

“孪生”的基本思想最早起源于1969年的阿波罗计划,通过留在地球上的航天器对发射到太空的航天器进行工作状态的仿真模拟,进而辅助航天员完成决策,减少各种操作结果的未知性。 从2002年开始,数字孪生的概念和定义在不同领域逐渐被提…

三种数据库架构模式

数据架构设计模式 数据架构主要有三种模式: Shared Everything、Shared Disk、Shared Nothing。 Shared Disk 各处理单元使用本地的私有CPU和Memory,共享磁盘系统,分布式数据库。 典型的代表是Oracle RAC、DB2 PureScale。 例如&#xf…

Navicat远程连接服务器失败 2002 - Can‘t connect to server on ...(10060)

报错如下: 2002 - Can’t connect to server on ‘192.168.33.59’(10060) 解决方案: 下面列举可能出现的几种情况: 1.防火墙原因,需要关闭防火墙 systemctl stop firewalld systemctl disable firewalld2.数据库未开启&#x…