[论文精读|博士论文]面向文本数据的关系抽取关键技术研究

news2025/1/19 17:06:03

电子科技大学 2022.3.15博士论文

  1. 实体关系的方向性语义缺失,使得关系的判别缺乏对文本蕴含语义特征的利用

提出——基于句法关系的方向敏感型句子级关系抽取算法

  • 利用依存句法树结构信息
  • 构建双向依存路径结构(新的文本策略解决过度剪裁)
  • 额外构建了平行的注意力机制
  1. 文档级实体关系证据隐含,支持实体关系的语义难以被感知

提出——基于文本片段间语篇关系的文档级关系抽取方法

  • 利用文本片段之间蕴含的语篇关系构建文档图
  • 利用文档图构建里实体对间的语义关联
  • 利用语篇关系选择合适的、隐含的证据
  • 利用实体感知注意力机制,推理实体对间的关系
  1. 实体关系的关键性语义难以被挖掘,需要长距离的实体间构建有效的语义依赖关系

提出——基于句法与语篇关系融合的文档级关系抽取方法

  • 利用语篇关系与句法关系构造字符级的文档图,使用斯坦纳树算法抽取最小生成树形成关键字符路径,获得与实体对嘴相关的语义依赖
  • 在文字和图形两个层面构建了双层注意力权重值来增强关键字符的语义特征表达
  • 训练过程中后置部署提高模型性能

基础介绍

监督关系抽取

基于特征向量

  • 词汇特征:文本中词汇或词的属性,如全拼与缩写的关系
  • 句法特征:最常见的是词性特征:实词、虚词、量词等
  • 语义特征:指单一字符或多字符进行语义分类的结果,如牛顿发现了万有引力,判断是否是发现的关系,可以解决数据稀疏问题,缓解语义多样性带来的语义混淆问题
  • 语篇特征:句子与句子之间的关系或片段之间的关系

基于核函数

不需要手工构造特征向量空间,核函数包括树、图、序列等

基于深度学习

  • CNN: 并行效能较好,能在关系抽取中高效地抽取到多个局部的语言结构特性

  • RNN:它能够综合考虑数据的前后关联关系,因此对于长文本、时序类信息具有较好的处理能力

  • GNN: 括通过依存句法树、共指关系图等方式来实现抽取

  • LSTM\GRU等

弱监督关系抽取

半监督学习(主动学习)

远程监督学习(主流)

  • 假设一:“如果两个已经存在既定关系的实体对出现在某些句子中,那么所有句子描述的就都是这个关系”

改进假设一的方法:

  • 假设二:“如果两个已经存在既定关系的实体对出现在某些句子集合中,那么至少有一个句子描述的是这个关系”
  • 假设三:“如果两个已经存在既定关系的实体对出现在某些句子集合中,那么这些句子总是能够隐形或显性地表达这个关系”
  • 依托深度学习的方法:
    • 改进编码器的方法:从特征抽取器出发
    • 句子级降噪:从数据集角度降低负样本对模型的影响
      • 增强特征表达:通过注意力机制提升
      • 引入外部知识:使用外部的库
      • 即插即用方法:1.强化学习框架,删掉错误标记的句子 2.对抗学习框架,使用GAN提前对正负样本进行分类

总之,弱监督学习能够在语料成本高的问题发挥作用

无监督关系抽取

可以脱离标记数据

  • 基于分布假设理论,使用聚类的方法,用频率最高的词作为关系名称
  • 通过限定性聚类使用同类型预料、通过统计过滤掉多重关系实体对

缺乏明确的语义信息难以归一化

开放域关系抽取

更关注跨领域的应用

首先,通过启发式规则构造数据集,训练一个贝叶斯分类器

其次,利用单向抽取器产生的所有实体对与关系组合成三元组,选择高置信度元组

最后,为每个三元组分配一个概率,以高频词作为最终结果


词嵌入:是将文字转化为低维稠密向量,以避免数据稀疏、无意义、高纬度等问题。常用的方法有Word2vec等。
位置嵌入:为关系抽取模型提供了一种统一的感知字符位置的方法。

句子级关系抽取

是实体关系抽取的最小粒度

  • 序列方法:将文本直接按照序列方式进行处理,从早期的用单一网络到后期使用多重网络进行复合使用
  • 依存句法树法: Syntacitc Dependency tree,SDT。能够有效获取文本中字符间句法依赖信息,其由依存句法树结构构成,有利于文本降噪,字符间依存关系提高实体关系判别的准确率

文档级关系抽取

文档级关系抽取过程需要更多考虑因素
1.解决实体间相互指代的问题 2.解决长距离语义依赖 3.增强提及的语义表达问题

  • 序列方法:直接迁移句子的序列方法效果较差
  • 文档图法:具有更大的灵活性,早期的文档图是由一段文本中的字符节点以及句内依存边、句间邻接边、依
    存语篇边、实体共指边构成的图形简化的两个句子间文档图结构

研究内容

论文主要研究内容、研究问题及其对应章节

利用文本自身知识增强实体关系的语义表达

设计了一种基于依存句法数结构的方向性敏感型关系抽取模型,该模型构建了具有方向差异性的双向依存路径结构,利用LSTM提取其中的高阶信息,并利用注意力机制捕获差异特点

  1. 模型将句子转换为最短依存路径结构,并设计基于实体和依存树树根的三点裁剪方法保留文本中重要信息
  2. 模型利用基于双向依存路径的多尺度卷积网络构建双向依存路径中的信息特征路径中的信息特征
  3. 模型利用LSTM的实体表征信息与卷积网络的双向依存路径信息的差异性,通过注意力机制标注实体间语义的方向性字符特征,增强实体方向性语义表示。

如何标识文档中支持实体语义关系的隐含证据

从文档中蕴含的语篇关系入手,将其作为外部知识引入到模型中,利用这类知识建模文档中各片段的支撑关系,并通过这种关系标记隐含的数据并推理实体间关系

  1. 模型通过语篇解析器将文档划分成文本片段,并通过外部知识标记片段间的语篇逻辑关系形成异构的语篇文档图
  2. 模型使用GNN在语篇文档图中提取实体结点文本片段结点的特征信息
  3. 模型使用实体对间路径上的文本片段集合作为证据集合,并利用基于实体的感知注意力机制在证据集合中去标记重要文本片段,形成推理过程并汇聚成为高阶证据特征

如何寻找文档中实体间关键的语义依赖路径

通过引入句法关系语篇关系构建了字符层面的文档图,并将句子层面的降噪模式引入到文档图。

  1. 模型将文档依次按照句子粒度整体粒度分开解析为依存句法树集合单个依存语篇树
  2. 将依存句法树集合按照依存语篇树规则连接成依存句法树森林,形成字符级层面的文档图
  3. 利用斯坦纳树算法以文档中的实体为终端结点构造最小生成树,实现了文档图层面的文本降噪,构建了多个实体共指间的最短语义依赖
  4. 利用GNN抽取降噪后的文档图中实体特征,并结合双层注意力机制反向部署方法改进模型性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/44226.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

构建直接序列扩频系统模型(Matlab代码实现)

🍒🍒🍒欢迎关注🌈🌈🌈 📝个人主页:我爱Matlab 👍点赞➕评论➕收藏 养成习惯(一键三连)🌻🌻🌻 🍌希…

【分析笔记】全志 i2c-sunxi.c 控制器驱动分析

分析平台:全志 A64 内核版本:Linux 4.9 数据手册:Allwinner_A64_User_Manual_V1.1.pdf (whycan.com) 驱动框架 I2C 设备驱动 作为方案应用来说,我们是最经常要动的地方,这一层主要与具体的芯片功能强关联&#xff0c…

RK3588平台开发系列讲解(USB篇)内核 USB 配置

平台内核版本安卓版本RK3588Linux 5.10Android 12文章目录 一、USB PHY CONFIG二、USB Host CONFIG三、USB OTG CONFIG四、USB Gadget CONFIG沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇将介绍USB的相关配置。 USB 模块的配置及保存和其它内核模块的配置方法一…

英语考试的作文模板

考试需要,但是老是忘记,所以发出来备忘~~~~~ 这里写目录标题1 高频考点:正面话题 (能力/事情/习惯/行为/品质/意识/习惯)1.1 题干关键词与结构1.2 开头段1.3 主体段2 一起写范文【正面话题】主体段:重要性怎么做重要性…

【AI学习笔记】jupyter notebook 默认路径修改(超简介,超详细)

文章目录修改前:修改notebook默认路径:1. 找到 Anaconda 的安装目录2. 修改 notebook 安装位置3. 删除"%USERPROFILE%/"内容修改后:【声明:由于我的电脑有 Anaconda3的root环境 和 名为TensorFlow 的 Anaconda虚拟环境&…

操作系统学习笔记(Ⅱ):进程

目录 1 进程 1.1 定义、组成、组织方式与特征 1.定义 2.组成 ​3.组织方式 4.进程的特征 1.2 进程的状态与转换 1.状态 2.进程状态的转换 1.3 进程控制 1.基本概念 2.进程控制相关的原语 1.4 进程通信 1.共享存储 2.消息传递 3.管道通信 1.5 线程概念和多线…

Python数据分析实战-实现模型K折交叉验证(附源码和实现效果)

前面我介绍了可视化的一些方法以及机器学习在预测方面的应用,分为分类问题(预测值是离散型)和回归问题(预测值是连续型)(具体见之前的文章)。 从本期开始,我将做一个数据分析类实战…

mybatisplus savebatch 多数据源时候,sqlSessionFactory 不正确踩坑记录。

记录一下 mybatis-plus sharding-JDBC 的时候,因为配置多数据源和多个SqlSessionFactory导致 mybatisPlus 执行 saveBatch 异常的问题。 具体异常就是 saveBatch 执行的数据源,与期望的不一致。其实是因为 SqlSessionFactory 错误导致的。 项目中有2个…

程序员第一次接私活?记住这三点让你事半功倍

不少程序员都有接私活的想法,但恰恰就如开发者之间的论调一样,接私活其实是有一定难度的,想找到合适的单子,顺利地做完并拿到薪水,需要注意的事儿很多,接下来和大家分享一下,程序员第一次接私活…

改进的多目标差分进化算法在电力系统环境经济调度中的应用(Python代码实现)【电气期刊论文复现】

🎉🎉🎉🎉欢迎您的到来😊😊😊 🥬博客主页:博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 📝床头铭:将来的我一定会感谢…

[附源码]计算机毕业设计springbootSwitch交流平台

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Android 插件化

demo 如果要加载插件模块编译的apk插件包中的Activity类,需要执行如下流程: 1)加载类对象:使用DexClassLoader加载Activity对应的Class字节码类对象; 2)管理生命周期:处理加载进来的Activity…

【算法自由之路】前缀树 桶排序之计数排序和基数排序

【算法自由之路】前缀树 & 桶排序之计数排序和基数排序 前缀树(字典树) 首先是前缀树,前缀树是由字符构成的树结构,它记录有多少前缀字符通过,以及有多少个同样的字符串,其找这类信息的时间复杂度是极…

minigui编译移植

minigui编译移植 一:文件系统依赖支持二:交叉编译libminigui-1.6.10三:交叉编译mg-samples-1.6.10四:资源minigui-res-1.6.10四:开发板拷贝资源五:/etc/MiniGUI.cfg配置文件修改六:系统环境变量设置一:文件系统依赖支持 zlib libpng libjpeg 二:交叉编译libminigui-1.6.10 conf…

第五届安洵杯网络挑战赛WP

Crypto Cry1 crypto签到题,就是先对SHA256的哈希值进行爆破,然后猜数字 用hashcat一条命令秒穿 hashcat --custom-charset1 ?d?l?u -a 3 -m 1400 3075696ea46516c3a0a43930fab5a0f1c68ea4b315dd87a9cd123dac7f20f3a6 ?1?1?1?1GJWVMYlh5ApWLbF…

MySQL源码分析之SQL函数执行

1.MySQL中执行一条SQL的总体流程 一条包含函数的SQL语句,在MySQL中会经过: 客户端发送,服务器连接,语法解析,语句执行的过程。 调试源码,分析函数的具体执行过程,在客户端,执行select to_char…

【数据结构与算法】初识时间空间复杂度

文章目录1.数据结构与算法概念2.时间复杂度3.大O计数法表示时间复杂度4.线性结构与非线性结构1.数据结构与算法概念 (1)什么是数据结构 数据结构指的是相互之间有一种或者多种特定的关系数据元素集合。数据结构可以分成逻辑结构和物理结构。逻辑结构&a…

全网首发克莱斯勒东南大捷龙jeep道奇DIY数码碟盒增加USB和蓝牙播放音乐功能使用原车接口无损改装

文章目录前言碟盒功能1、设计指标3、外观设计4、PCB设计5、程序设计6、调试7、大捷龙车机尾插接口定义公头东南大捷龙车机白色插头模块与白色插头连接方法8、安装方法9、 使用方法9.1 CD车机按钮功能定义11、 联系我前言 ​ 之前写过四篇关于车机增加音频输入的方法。 1、07宝…

[数据结构] 并查集

并查集相关概念并查集的模拟实现1)实现基本框架2)实现基础操作findRoot查找元素属于哪个集合Union合并两个集合IsOneSet判断两个元素是否属于同一集合SetSize集合个数相关概念 初始时,每个数据的下标都为-1,表示10棵树&#xff1…

【EDA365电子论坛】RISC-V 能否超越 x86、Arm,成为新一代计算机系统架构?

前言 指令集架构(Instruction Set Architecture,缩写为ISA),是一组指令的集合,指令是指处理器进行操作的最小单元(譬如加减乘除操作或者读/写存储器数据)。指令集架构,有时简称为“架…