论文浅尝 | 句法丰富的判别训练:一种有效的开放信息抽取方法

news2024/11/17 13:46:40

5d550b5e3510249f96c1868db2489f75.png

笔记整理:杜苗增,东南大学硕士,研究方向为多模态信息抽取

链接:https://aclanthology.org/2022.emnlp-main.401.pdf

动机

开放信息提取(OIE)是信息提取(IE)的一个分支,专注于从非结构化自然语言文本中提取结构化信息。几种OIE方法将OIE作为序列标记或序列生成问题。对于OIE的任务,使用词性和依赖标记作为合并语法信息的方式是一种常见的做法。在使用这些标记的工作中,标记的嵌入只连接到相应文本标记的嵌入,这种表述没有充分利用语法信息。序列生成方法容易生成经常表达冗余信息的事实,也容易在事实中生成重复的文本。

本文使用序列生成方法从自然语言文本中逐字生成事实。在依赖树结构的指导下计算输入文本标记的语法丰富的向量表示。根据其依赖树的结构构造其标记的可见性矩阵。还介绍了一种训练神经OIE模型的新方法,添加了一个额外的模块(discriminator)将生成的元组作为输入,将其令牌分类为“真”或“假”。使用覆盖向量来监视输入文本中的单词所接收到的覆盖程度。让当前的注意力机制的决策了解了之前的决策,并更容易避免重复关注输入文本中的相同单词,从而避免在事实中产生重复的文本。此外, 使用模型的上下文向量显式地计算从词汇表或输入文本中选择单词的概率。

贡献

本文的主要贡献有:

(1)一种利用依赖树和图注意力网络结构计算语法丰富的文本嵌入新方法。

(2)一种新的OIE判别训练方法,在生成事实的模型之上提出了一个鉴别器,生成的事实中的令牌被分类为“真实”或“伪造”。

(3)提出了CaRB、OIE201和LSOIE数据集的转述版本。

方法

总体框架如图1所示,主要由生成器模块(generator)和判别器模块(discriminator)组成。generator使用指针-生成网络来从文本中生成事实元组,discriminator使用二分类器来对生成的元组中的词进行真假判断。generator包括嵌入模块、编码模块和解码模块。Embedding使用预训练的语言模型或其他神经网络来将词序列映射为词嵌入向量,并结合词性和依存关系标签。Encoding使用图注意力网络或Transformer编码器来计算输入序列的向量表示,考虑到依存树的结构。Decoding使用BiLSTM网络、Transformer或反馈Transformer来逐词生成元组,并使用生成概率和覆盖机制来控制生成或复制词的概率,以及避免重复词的出现。

c5a6f49430eff9f1f1839062778d22aa.png

图1 总体框架图

为了计算整个词汇表  的分布,计算encoder上下文向量  和解码器上下文向量  的加权平均值,然后将得到的向量输入一个线性层:

2044c1d242f47036a14e9ad6fcc6e89d.png

其中  和  是可学习参数,  是词汇表中所有单词的概率分布。  给出了从词汇表中预测下一个单词w的最终概率:  。

模型loss为generator loss和discriminator loss之和。使用生成下一个单词  的概率和覆盖机制来计算生成器的损失:

57dc0793c123a58f6bc54ee28613b02d.png

其中  为覆盖向量,  为注意力得分,  是生成元组中第i个令牌的向量表示,  是输入上下文向量。

实验

实验部分使用了三个基准数据集(OIE2016,CaRB和LSOIE)来训练和评估的模型,并使用了CaRB评估框架来计算F1值和AUC-PR值。

共设计了15种不同的神经网络模块组合,并在6种不同的实验设置下进行了对比实验,分别是:

(a)默认设置,只有嵌入模块和解码模块;

(b)+判别器设置,给默认设置添加了一个判别器模块;

(c)+Transformer编码器设置,给默认设置添加了Transformer编码器模块;

(d)+GNN编码器设置,给默认设置添加了一个基于图注意力网络的编码器模块;

(e)+Transformer编码器+判别器设置,给默认设置添加了一个Transformer编码器模块和一个判别器模块;

(f)+GNN编码器+判别器设置,给默认设置添加了一个基于图注意力网络的编码器模块和一个判别器模块。

表1显示在实验设置下评估CaRB上的模型。在所有的实验设置下,使用预训练的ELECTRA模型作为嵌入模块和反馈Transformer作为解码模块的组合都取得了最好的性能。在CaRB数据集上,这种组合在+GNN编码器+判别器设置下达到了0。747的F1值和0。740的AUC-PR值,超过了之前的最佳结果。表2给出当在混合数据集上训练时的结果。

67176c5ab6aae1ac852f8c7a412d4b17.png

表1: CaRB数据集上不同模块组合结果,粗体结果表示每种设置下的最佳性能

fe565f685e160129b3e6d368b5fcf900.png

表2:最佳模型(ELECTRA + GNN编码器+鉴别器)在转述、原始和混合版本CaRB上训练时的性能

进行分析和消融实验发现使用依存树结构来计算输入序列的向量表示和使用判别式训练方法都能显著提高模型的性能,此外还发现使用生成概率和覆盖机制能有效地减少生成元组中的重复词,并提高生成隐含事实的能力。

d3fbf1525f29b6812998d2d79b5c6a9e.png

表3: 在CaRB的所有实验中,不同模块在不同区块的平均性能。(i)嵌入器(ii)解码器

从实验结果来看,作者的方法在各项指标上都优于现有的神经网络OIE模型,与传统的序列标注或序列生成方法相比,充分利用了依存树的语法和语义信息,有效地区分了生成事实中的真或假词,减少了重复词的生成,并提高了生成隐含事实的能力。同时,作者还展示了使用改写数据集进行数据增强可以显著提升模型的性能,尤其是在最新的CaRB数据集上达到了最先进的水平。

总结

本文研究了神经网络开放信息抽取问题,提出了一种新的训练方法,结合依存树结构计算语法丰富的文本嵌入,设计了一个判别器对生成事实中的词进行真或假的分类,并使用覆盖机制和生成概率控制重复词的生成和隐含事实的生成。实验结果表明,本文提出的方法在各项指标上都优于现有的神经网络OIE模型,能够生成更准确和更完整的事实,尤其是在最新的CaRB数据集上达到了最先进的水平。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

120a907c9748a42a37ebedb17afe7179.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/509363.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

论文笔记_2017_RS_迈向高清 3D 城市测绘:基于道路特征的移动测绘系统和航空影像配准

基本情况 出处:Javanmardi M, Javanmardi E, Gu Y, et al. Towards high-definition 3D urban mapping: Road feature-based registration of mobile mapping systems and aerial imagery[J]. Remote Sensing, 2017, 9(10): 975.原文地址:Remote Sensin…

Postman生成代码的小技巧

描述 你还在使用postman吗?你还是一条条复制参数吗?你还是手动录入数据吗?对于一些不经常使用postman的人来说,这个小技巧可以帮助你导入请求,以及转换成开发语言。 教程 1 抓包接口 以CSDN热榜为例,直…

数据可视化二、综合项目

零、文章目录 数据可视化二、综合项目 1、项目概述 (1)项目展示 (2)项目目的 市场需求:应对现在数据可视化的趋势,越来越多企业需要在很多场景(营销数据,生产数据,用户数据)下使…

Fiddler 微信小程序抓图教程(傻瓜式|汉化版|狗看了都直呼内行)

前言 本篇文章主要给大家详细讲解如何用Fiddler爬取微信小程序的图片,内容图文并茂,流程非常简单,我们开始吧。 目录 获取软件并打开点击工具设置相关代理如何抓图答疑总结 一、获取软件并打开 1、通过百度网盘下载获取安装包(链接是永久的…

二十三种设计模式第六篇--建造者模式(也叫生成器)

建造者模式(Builder Pattern)是使用多个简单的对象一步一步(顺序构建)构建成一个复杂的对象, 这种类型的设计模式属于创建型模式,他提供了一种创建对象的最佳方式。 一个Builder类会一步一步构建成为最终的…

Windows10 WIFI蓝牙图标消失,网卡驱动出现感叹号等无法上网的情况解决方案

Windows10出现WIFI蓝牙图标消失,网卡驱动出现感叹号等无法上网的情况解决方案_飞机跑不快的博客-CSDN博客 问题描述 我的电脑是戴尔游匣G15 5511,由于静电保护的原因,不得不拆开电脑后盖拔掉电池,释放静电,释放完成后…

OpenPCDet系列 | 6.PointPillars模型分类、回归、角度损失的构建

文章目录 模型损失计算1. 分类损失构建1.1 分类损失函数:SigmoidFocalClassificationLoss2. 回归损失构建2.1 回归损失函数:WeightedSmoothL1Loss3. 角度损失构建3.1 角度损失函数:WeightedCrossEntropyLoss4. 总结模型损失计算 在进行anchor的正负样本分配后,具体来说就是…

【运动规划算法项目实战】专栏介绍

文章目录 前言1. 路径规划中常用的插值方法2. 路径规划中常用的抽稀3. 如何加载csv文件的路径信息4. 如何在栅格地图中实现A*算法5. 如何在栅格地图中实现Dijkstra算法6. 如何实现简单的状态机7. 如何实现机器人多目标点导航8. Voronoi图]9. 八叉树地图10. 如何实现三次样条插值…

网安笔记05 SHA

SHA Hash函数 定义 任意长度的数据M变换为定长码h h H A S H ( M ) h H ( M ) h HASH(M)\quad h H(M) hHASH(M)hH(M) 实用性: 给定M,计算h时高效的 安全性: 单向性 给出h,反向计算原文x时不可行的,否则截取…

vcomp140.dll怎么安装?提示vcomp140.dll丢失怎样修复?

在用电脑玩游戏或者打开软件工作的时候,电脑提示vcomp140.dll丢失无法执行此代码,是什么回事呢?需要怎么修复呢?不用紧张,小编今天就把vcomp140.dll文件修复方法分享给大家。我总结了几个修复经验; vcomp14…

IO-概述

概述 ​ IO是Input(输入)和Output(输出)的首字母缩写。 ​ I(输入Input):指向Java程序中输入数据,即Java程序从外部获取数据。 ​ O(输出Output)&#xff1a…

c盘游戏怎么转移到d盘?无需重新安装

概述:游戏占用的容量一般很大,如果都存在C盘中,可能会导致C盘空间不足,这时候我们可以考虑迁移游戏到其他盘。c盘游戏怎么转移到d盘?本指南详细讲解。 一、为什么需要将游戏移动到其他盘 现在很多游戏玩家&#xff0c…

基于结构化跨模态表示一致性的临床辅助结直肠息肉识别

文章目录 Toward Clinically Assisted Colorectal Polyp Recognition via Structured Cross-Modal Representation Consistency摘要本文方法Shared Transformer BlockCross-Modal Global AlignmentSpatial Attention Module 实验结果 Toward Clinically Assisted Colorectal Po…

Liunx下pip3换源(最详细)

在使用python时我们经常会安装各种包,我们一般安装的方式都是pip3 install xx模块,但是pip3默认源https://pypi.org/安装的过程非常慢,可能都是几k几k的,有时安装这安装着,直接error了,还有一种情况是直接飘…

BSR:Block compressed Sparse Row matrix format

BSR块压缩存储是CSR行压缩存储的升级变形;可以降低图数据存储空间。 有以下图的矩阵表示: 一、CSR表示 rowIndex [0 4 8 10 12 16 20] columns [0 1 2 3 | 0 1 2 3 | 2 3 | 2 3 | 2 3 4 5 | 2 3 4 5] values …

倒计时 1 天:Tapdata LDP V3 发布会预告,看实时数据集成平台如何赋能企业 AI 落地

更多 LDPAI 场景细节,敬请期待 5 月 10 日(今天)的 Tapdata 发布会。 最近几个月,AI 领域可谓经历了近十年以来最为魔幻且不可思议的时刻。 自 ChatGPT 发布以来,无论是底层大模型、训练框架、应用框架还是 GPT 插件等…

如何将m4v转换成mp4格式?这些方法极速无损

如何将m4v转换成mp4格式?众所周知,M4V文件格式是一个由苹果公司开发的视频文件格式,它通常用于iTunes Store中售卖和租赁的电影、电视节目等内容。但是,在某些情况下,我们可能无法在其他设备或软件上播放M4V文件&#…

2023年杭州助理工程师职称申报要求和申报材料是什么呢?

一、杭州助理工程师职称申报条件要求: 1、中专学历毕业后,任技术员满四年或未认定技术员参加工作满六年,必须参加考核,考试合格才能成为助理级职称资格 2、大专学历毕业后,三年工作经验,考核合格&#xf…

【AWS入门】利用CloudWatch监控EC2的CPU负载情况

创建一个 EC2 实例 User data 配置如下 #!/bin/bash sudo -i amazon-linux-extras install epel -y yum install stress -y导航到 Cloudwatch->Metrics->All metrics-EC2->Per-Instance Metrics,选中创建的 EC2的 CPU 利用率,点击铃铛标识创建 alarm 设…

以实战学习pandas使用方式:统计考生成绩统计及分布

以实战学习pandas使用方式:统计考生成绩统计及分布 引子需求逐步实现使用 pandas 读 excel初始化一些数据获取 excel 列名获取总表的统计数据分班级数据各科目比率统计统计名次分布 写入文件小结 引子 老顾日常工作,是用不到 python 的,所以…