自然语言处理 第十章 信息抽取 复习

news2024/9/24 11:32:11

信息抽取

  • 信息抽取复习重点:
  • 信息抽取概述
    • 从任务内容分为:
    • 从处理文档类型分为:
    • 从发展时间和处理文档分为:
  • 实体识别与抽取
    • 限定域命名实体识别
      • 基于规则或字典的方法 :规则模版(字典)+匹配
      • 统计学习方法 :特征工程+算法(PRanking / margin/ SVM/LR……)
      • 神经网络的方法:
  • 开放域命名实体识别
    • 开放式命名实体抽取方法(实例扩展方法):
      • 开放式命名实体抽取过程:
      • 开放域实体抽取存在的问题:
  • 实体消歧
    • 实体消歧任务:
    • 实体消歧的难点
    • 实体消歧方法
      • 基于聚类的实体消歧
      • 基于实体链接的实体消歧
  • 关系抽取(重点)
    • 限定域关系抽取
      • 规则方法:
      • 基于统计的抽取方法
      • 基于神经网络的抽取方法
    • 非限定域关系抽取(重点)
      • 利用知识库(远程监督的方法)
        • 远程监督的优势与问题
      • 非限定域关系抽取(生成式抽取)
      • 无监督开放式中文实体关系抽取
  • 事件抽取
    • 事件抽取相关概念:
    • 传统事件抽取

信息抽取复习重点:

实体关系抽取,和事件抽取

掌握实体关系抽取的基本过程

限定域的抽取方法

非限定域的抽取过程:
【弱监督的抽取过程,无监督的抽取过程,感知监督的抽取过程,远程监督的方法(优势,局限) 基本技术思路,改进后可以解决哪些问题?】

事件抽取: 基本的元概念,基本的过程就可以了。过程包含哪些要素

信息抽取概述

信息抽取:从自然语言文本中抽取指定类型的实体、 关系、 事件等事实信息,并形成结构化数据输出的文本处理技术

从任务内容分为:

  1. 实体识别和抽取(Named Entity Recognition,NER)
  2. 实体消歧(entity resolution)
  3. 关系抽取(Relation Extraction,RE)
  4. 事件抽取(Event Extraction,EE)

从处理文档类型分为:

  1. 结构化数据(Structured Data):一般指带有严格格式信息的数据,如:数据库中的表格,以及XML数据等等。
  2. 半结构化数据(Semi.-structured Data):指带有一定格式信息,但又不
    很明确的数据,如网页、论文、邮件等
  3. 无结构数据(Un-structured Data): 主要指完全没有结构信息的自由文本
    (Free Text)

从发展时间和处理文档分为:

  1. 限定域信息抽取:处理的文档给定(无结构信息的自由文本),抽取
    的实体,实体关系,事件类型给定。
  2. 开放域信息抽取: 针对互联网范围,实体,关系和事件的类型不确定

实体识别与抽取

限定域命名实体识别任务

  • 限定实体类别:限定识别七类命名实体
    (人名、 机构名、 地名、 时间、日期、 货币和百分比)
  • 限定目标文本:封闭文本语料(有标注)

开放域实体抽取任务

  • 不限定实体类别:可以是任何类型的实体。如 维基百科条目等
  • 不限定目标文本:大规模开放语料。如 Web页面,真实世界信息(无标注)

限定域命名实体识别

  • 限定实体类别:限定识别七类命名实体
    (人名、 机构名、 地名、 时间、日期、 货币和百分比)
  • 限定目标文本:封闭文本语料(有标注)

NER可以分成两个子任务:

  • (1)发现命名实体(实体边界识别)
  • (2)分类命名实体(确定实体类别 )

基于规则或字典的方法 :规则模版(字典)+匹配

选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法

  • 如: Email的表现形式通常为 xxxx@xxx.com
  • 如: 日期的表现形式通常为xxxx年-xx月- xx日
    主要问题:
    -(1)规则依赖于具体语言、领域和文本风格,难以涵盖所有的语言现象,泛化性性弱
    -(2)规则构造成本高,构建周期长,迁移性差

统计学习方法 :特征工程+算法(PRanking / margin/ SVM/LR……)

转成序列标注问题
NER可以分成两个子任务:
(1)发现命名实体(实体边界识别)
(2)分类命名实体(确定实体类别 )
利用命名实体的内部构成和外部语言环境具有的一些特征采用不同的识别模型
主要问题:特征工程

如:
1、实体边界识别:{B(Begin,实体的起始词)、I(Inside,实体的内部词)、O(非实体)}
2、确定实体类别:{PER(人名实体)、LOC(地点实体)、 ORG(组织实体))}

神经网络的方法:

用序列标注方法解决。
优势 : 神经网络可自动提取特征
模型:CNN+RNN,RNN+CRF ,BERT 等
利用BERT,实验中命名实体识别可达到 96%以上的准确

开放域命名实体识别

特点:

  • 不限定实体类别:可以是任何类型的实体。如 维基百科条目等
  • 不限定目标文本:大规模开放语料。如 Web页面,真实世界信息(无标注)

任务
给定某一类别的实体实例, 从大规模开放语料中抽取同一类别其他实体实例
抽取思想
种子与目标词有相同类型,所以种子词与目标词在网页中具有相同或者类似的上下文或网页结构

开放式命名实体抽取方法(实例扩展方法):

从种子词出发, 通过分析种子实体在语料中的上下文特征得到模板,根据模板得到更多的候选实体,选置信度高的实体作新种子进行迭代,返回置信度高的候选实体做结果输出。
在这里插入图片描述
关键:
• 如何选高质量种子
• 如何计算置信度

针对不同数据源的特点设计方法, 其针对性、 灵活性很强

开放式命名实体抽取过程:

  1. 种子处理
    负责选取和处理高质量的种子(如,选“上海”为种子)
  2. 生成模板
    根据种子词从日志等语料中归纳出其语境模板
  3. 实体抽取
    按照模板从大规模语料中扩展抽取同语境实体(如,根据上述种子,从新的语料中抽出“长沙”、“青岛”、“南宁”等)
  4. 计算抽取实体的置信度并按置信度排序
  5. 结果过滤
    过滤掉置信度低的实体
    在这里插入图片描述

开放域实体抽取存在的问题:

  1. 初始信息少,语义类别难以确定。在没有给定语义类别标签情况下,种子实体可能会同时属于多个语义类,使得目标语义类别的确定非常困难
  2. 目前模板主要包括自定义的语义模板及简单统计得到的上下文模板。这类模板与特定的数据格式和上下文密切相关对语义类别的描述能力有限
  3. 目前实体抽取数据源有普通网页、查询日志、维基百科等,这些数据源的质量层次不齐,严重影响了实体抽取的性能;对文档的预处理效果也会影响抽取性能,如,分词问题:未知实体往往在分词过程中被分开等。
  4. 缺乏公认的评测,造成不同方法之间横向可比性差。

实体消歧

歧义: 一个实体指称项可对应到多个真实世界实体(或实体概念)
同指( coreference) :表示两个或两个以上的词或短语指向相同对象

实体消歧任务:

确定一个实体指称项所指向的真实世界实体(或实体概念)包含实体消歧(Disambiguation)和共指消解(Co-reference Resolution)

实体消歧的难点

  1. 实体消歧目标不明确
  2. 指称项的歧义性
  3. 指称项的多样性

实体消歧方法

对于单语言实体消歧,目前主要有:

  • 实体聚类消歧法
  • 实体链接消歧法

基于聚类的实体消歧

基本思想:同一指称项具有近似的上下文利用聚类算法进行消歧

把所有实体指称项按其指向的目标实体进行聚类,使每一个实体指称项对应到一个单独的类别

基于实体链接的实体消歧

实体链指的目标是将文本中的指称项正确链接到知识库中正确的目标实体(一个实体名通常会指代知识库中的多个实体。)

实体链接消歧法主要步骤

  1. 候选实体的发现:给定实体指称项,链接系统根据知识、规则等信息找到实体指称项的所有候选实体
  2. 候选实体的链接:系统根据指称项和候选实体之间的相似度等特征,选择相似度㘁大的候选实体

关系抽取(重点)

限定域关系抽取

规则方法:

人工编制各种识别关系的规则,利用规则来识别。成本高,覆盖面底。
基本思想:首先构建规则,通常信息为:词汇、句法、语义等分析时,用模式匹配文本片段

优缺点
优点:准确度比较高(一旦匹配,基本正确);
缺点: 召回率与准确率呈跷跷板,准确率高时,覆盖性难以保证规则的构建需要“专家级”人参与,且工作量巨大

基于统计的抽取方法

基本思想:将关系实例转换成高维空间中的特征向量或直接用离散结构来表示,在标注语料库上训练生成分类模型, 然后再识别实体间关系

  • 基于特征向量方法:
    将各种有效的词法、 句法、 语义等特征集成起来产生描述实体语义关系的各种局部特征和简单的全局特征
    关键问题:特征选取,即从自由文本及其句法结构中抽取出各种特征。主要有最大熵模型支持向量机等模型

  • 基于核函数方法:
    挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度
    卷积树核方法: 用两个句法树之间的公共子树的数目来衡量它们之间相似度

基于神经网络的抽取方法

设计合理的网络结构, 从而捕捉更多的特征信息, 进而准确的进行关系分类

  • 单一关系抽取(流水线):给出实体,抽取出两个实体的关系.
  • 联合抽取:同时进行实体识别和关系的抽取

单一关系抽取指先对自然语言文本进行进行实体标记给出实体,然后根据标记好实体的句子进行关系的分类

联合关系抽取指同时进行实体识别和关系的抽取

非限定域关系抽取(重点)

限定域的实体关系抽取任务需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的。非限定域实体关系抽取技术不先定义关系类别,关系类别自动获取

特点:

  • 文本:有噪音、有冗余的海量网络数据(Web Page、Wikipedia、Query Log )
  • 不限定关系类别

非限定域关系抽取任务分为 :

  1. 利用知识库:利用已有知识库中现有实体关系作为辅助信息来进行实体关系抽取
    • 特点:实体之间关系不限定,但实体间关系明确,主要根据知识库中的关系定义
    • 实现方法: Bootstrapping 和 Distant Supervision(远程监督)
  2. 开放域抽取
    • 特点:实体间关系不明确,根据任务需关系类别自动获取

利用知识库(远程监督的方法)

现有的有监督的关系数据库太小
解决方法利用知识库中现有实体关系作为辅助信息来进行实体关系抽取

远程监督的优势与问题

  • 远程监督的提出使得快速、大规模构建关系抽取数据集变为了可能。
  • 远程监督最大的问题在于样本噪声
    • 远程监督强假设引入了许多假正例噪声。(本身不包含关系但被标注了)
    • 由于知识库的不完备,造成了很多假负例噪声。(本身包含关系但知识库中没有)

处理噪声的几种思路:

  • 隐式处理噪声:在训练过程中,通过对bag中的样本进行软加权等方式来降低标签噪声样本的影响,这类方法一般需要特殊设计的模型,但效果普遍较好

  • 显式处理噪声:在进行模型训练前,先通过一定的方式来检测噪声样本并进行处理,得到一个处理后的数据集,并用这个数据集训练一个关系抽取模型。这类方法一般比较难,普遍采用强化学习等方式进行。但这类方法的优点在于应用性比较强,可以将处理好的数据集应用于任何一个模型中,从而提升模型的关系抽取效果。

  • 外部信息辅助:可以认为远程监督的标签是一种比较弱的监督信息,在此基础上可以加入一些外部的辅助信息,如将图谱补全任务加入进行联合学习;或者加入一些无监督、弱监督的信息等,来辅助进行关系抽取,消除噪声的影响。

非限定域关系抽取(生成式抽取)

利用bart和t5

无监督开放式中文实体关系抽取

UnCORE的核心思想是从大规模网络文本中获取候选三元组集合,然后对候选集进行挖掘处理,从中提取正确的关系三元组。

  • 输入:大规模网页
  • 输出:是从网页文本中抽取的关系三元组

基本思想
将采集的大规模网页文本语料进行预处理(预处理模块);通过分析语料特点制定候选三元组的抽取规则并从语料中抽取候选三元组集合(生成候选三元组模块);由于抽取的候选集包括大量的噪音条目,所以要对候选集做进一步处理以得到正确的三元组。去噪方法主要通过用采集到的关系指示词作为去噪条件;具体方法:①确定关系指示词的去噪条件(生成关系指示词词表模块)② 用该条件去噪并对一些不全的三元组做补全等后处理(后处理模块),最后得到正确的三元组。

事件抽取

事件的定义:事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变
事件基本元素:时间,地点,人物,原因,结果

主要研究如何从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来(从无结构化数据中抽取结构化事件信息

事件抽取相关概念:

  • 事件描述(Event Mention):是指对一个客观发生的具体事件进行的自然语言形式的描述,通常是一个句子或者句群
  • 事件触发词(Event Trigger):是指一个事件描述中㘁能代表事件发生的词,是决定事件类别的重要特征,往往是动词或者名词
  • 事件元素/论元角色(Event Argument):是指事件中的参与者,是组成事件的核心部分,它与事件触发词构成了事件的整个框架
  • 元素角色(Argument Role):是指事件元素与事件之间的语义关系, 也就是事件元素在相应的事件中扮演什么角色
  • 事件类别(Event Type):事件元素和触发词决定了事件的类别

传统事件抽取

给定事件类型, 给定语料, 抽取指定的事件
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/137525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

23.1、Java中的类加载器反射模块化

1.类加载器 1.1类加载 类加载的描述 当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过类的加载,类的连接,类的初始化这三个步骤来对类进行初始化。如果不出现意外情况,JVM将会连续完成这三个步骤&#…

spring boot 七:SpringBoot自定义配置Jackson的ObjectMapper

spring boot 七:SpringBoot2.5.4自定义配置Jackson的ObjectMapper 1 前言 SpringBoot底层默认使用的自动依赖注入,即spring-boot-autoconfigure包的META-INF下,存在spring.factories文件,里面有自动注入的jackson自动配置类。在…

[数据结构基础]栈和队列的结构及接口函数

一. 栈 1.1 栈的概念及结构 栈是一种特殊的线性表,其只允许在固定的一段进行插入和删除元素的操作。进行数据插入和删除的一端成为栈顶,另一端称为栈底。栈结构中的数据遵循先进后出原则(LIFO:Last in First Out)&am…

03 Hive概述

Hive概述1、什么是Hive2、Hive优缺点3、Hive架构原理4、Hive 和 数据库比较5、Hive计算引擎1、什么是Hive 由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 类SQ…

如何在外籍人员子女学校和同事有效工作

香港 (Xinwengao.com) — PD Academia 的 Henry Wong 在新加坡出生长大,在美国接受高等教育,现在在美国半退休。他在中国生活了16年。他与许多西方人和中国人一起工作。他始终将自己视为东方与西方的交汇点,是学术界与行政部门之间的桥梁。他…

刷油漆【中等】

在一个8 \times 8 的网格中,一些水平的行被涂成红色,一些垂直的列被涂成蓝色,条纹是按顺序画的,一个接着一个。绘制条纹时它会重新绘制它所经过的所有单元格。(原理跟刷油漆一样)现在你需要确定最后一个上色的是什么颜色红色条纹是…

静态路由配置

获取未知网段的路由信息: 静态路由:由网络管理员手工配置的路由条目 动态路由:所有路由器上开启同一种路由协议,之后,通过路由器之间沟通,协商,最终计算生成路由条目。 静态路由的优点&#xf…

MySQL2-初识MySQL

目录 1.数据库 1.1.什么是数据库? 1.2.为什么要用数据库? 1.2.1.数据存储的发展史 1.2.2.文件存储的缺点 1.3.数据库分类 1.3.1.关系型数据库(RDBMS) 1.3.2.非关系型数据库(了解) 1.3.3.关系型数据库和非关系…

STM32——TIM简介与TIM中断

文章目录一、TIM简介二、定时器类型基本定时器通用定时器高级定时器三、定时中断基本结构四、时序图预分频器时序计数器时序计数器无预装时序计数器有预装时序RCC时钟树五、定时器定时中断六、定时器外部时钟七、定时器库函数(tim.h)一、TIM简介 TIM&am…

【设计模式篇】设计模式3类23种

创建型模式 创建型模式提供了创建对象的机制, 能够提升已有代码的灵活性和可复用性。 这里面比较重要和经常用到时单例模式、工厂模式和原型模式。 单例模式 单例模式是一种创建型设计模式, 让你能够保证一个类只有一个实例, 并提供一个访问…

antd 动态增减表单项的使用

需求 首先这是基于antd的Form组件&#xff0c;需求1&#xff1a; 单选按钮组 选择设置时间 展示时间选择器需求2&#xff1a; 动态添加时间选择器(最多添加10个、时间为空校验、时间段重叠校验)需求3&#xff1a; 开关需求4&#xff1a;编辑时赋值 1. 单选钮组 <Radio.Gro…

4.6.1、路由选择协议概述

1、静态/动态路由 2、主要特点 因特网所采用的路由选择协议的主要特点 例如&#xff1a;一个较大的因特网提供商就可划分为一个自治系统 在自治系统内部和外部采用不同类别的路由选择协议&#xff0c;分别进行路由选择 3、分层次的路由选择协议 如下所示&#xff0c;将网络…

ArcGIS基础实验操作100例--实验44融合细碎多边形

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台&#xff1a;ArcGIS 10.6 实验数据&#xff1a;请访问实验1&#xff08;传送门&#xff09; 高级编辑篇--实验44 融合细碎多边形 目录 一、实验背景 二、实验数据 三、实验步骤 &#xff08;1&am…

k8s基础

一、基本介绍 Kubernetes&#xff0c;简称K8s&#xff0c;是用8代替8个字符“ubernete”而成的缩写。是一个开源的&#xff0c;用于管理云平台中多个主机上的容器化的应用&#xff0c;Kubernetes的目标是让部署容器化的应用简单并且高效(powerful) , Kubernetes提供了应用部署…

Linux 下 python3.9.8的安装

1. 准备安装环境 yum install gcc zlib* openssl* -y 2. linux 下 python 安装包的获取 官网下载地址: https://www.python.org/downloads/ 找到 自己想要的版本。 方式一&#xff1a;直接点击该链接下载&#xff0c;然后将安装包通过xftp 传送到远程服务器 的 /opt 路…

k8s之搭建单机集群

写在前面 本文一起看下如何在单机环境下搭建k8s集群。 基础环境准备参考这篇文章 。 1&#xff1a;k8s的前世今生 现在当我们提到容器技术时&#xff0c;首先想到的肯定是docker&#xff0c;但其实在docker之前&#xff0c;谷歌公司就已经有了类似的技术&#xff0c;我们知道…

借助免费AI艺术平台生成头像

随着 AI 的兴起&#xff0c;看到越来越多的实例通过 OpenAI 的举措变得轻松&#xff0c;使得 AI 艺术在今天早已不是什么新鲜事物&#xff0c;而且在游戏领域也开始有所应用。人工智能&#xff08;AI&#xff0c;artificial intelligence&#xff09;艺术&#xff0c;更准确地说…

数据挖掘与机器学习作业_09 贝叶斯

贝叶斯 贝叶斯公式 后验概率 先验概率 * 似然估计 from sklearn.model_selection import GridSearchCV from sklearn.naive_bayes import BernoulliNB from sklearn.naive_bayes import GaussianNB from sklearn.naive_bayes import MultinomialNB from sklearn.naive_bayes…

关于进程间的通信方式的总结

一、背景 在人类思想史上,马克思第一次对人的本质作出科学界定:人的本质是一切社会关系的总和。时间万物都存在或多或少的关系。那么人除了天生父子这样的家族关系&#xff0c;还有后天 通过 语言 &#xff0c;这样区别于其他动物的方式来进行和其他人的交流产生关系。 在计算…

PTL仓库提货解决方案

电子标签拣货系统是采用先进电子技术和通信技术开发而成的物流辅助作业系统&#xff0c;通常使用在仓储或现代化物流中心分拣环节&#xff0c;具有拣货速度快、效率高、差错率低、无纸化、标准化的作业特点&#xff0c;电子标签辅助拣货系统作为一种先进的作业手段&#xff0c;…