实体识别方法

news2024/10/6 14:36:13

文章目录

    • 实体识别方法
    • 求观测序列的概率

实体识别方法

从文本中识别实体边界及其类型

图片名称

    实体识别的常用方法:基于模板和规则。将文本与规则进行匹配来识别出命名实体“说”、“老师”;“大学”、“医院”。优点:准确,有些实体识别只能依靠规则抽取。缺点:需要大量的语言学知识;需要谨慎处理规则之间的冲突问题;构建规则的过程费时费力、可移植性不好。

图片名称

    实体识别的常用方法:基于序列标注的方法。词本身的特征,边界特征:边界词概率;词性;依存关系。前后缀特征,姓氏:李XX、王X;地名:XX省、XX市。字本身的特征,是否是数字;是否是字符。

确定实体识别的序列标签体系:

图片名称

    常见序列标注模型:HMM (隐马尔可夫模型)。有向图模型,基于马尔可夫性,假设特征之间是独立的。

图片名称

    HMM的要素定义:隐藏状态集合Q,对应所有可能的标签集合,大小为N;观测状态集合V,对应所有可能的词的集合,大小为M。对于一个长度为T的序列,I对应状态序列(即标签序列),O对应观测序列(即词组成的句子)。状态转移概率矩阵A=[aij]N*N:转移概率是指某一个隐藏状态(如标签“B-Per”)转移到下一个隐藏状态(如标签“I-Per” )的概率。例如,B-ORG标签的下一个标签大概率是I-ORG,但一定不可能是I-Per。发射概率矩阵B=[bj(k)]N*M:指在某个隐藏状态(如标签“B-Per”)下,生成某个观测状态(如词“陈”)的概率。隐藏状态的初始分布Π = [π(i)]N,这里指的是标签的先验概率分布。

    HMM的计算问题:评估观察序列概率:给定模型λ=(A,B,Π) 和观测序列O(如一句话“浙江大学位于杭州”),计算在模型λ下观测序列O出现的概率P(O|λ),这需要用到前向后向算法。模型参数学习问题:即给定观测序列O,估计模型λ的参数,使该模型下观测序列的条件概率P(O|λ)最大。这个问题的求解需要用到基于EM算法的鲍姆-韦尔奇算法。预测问题:也称为解码问题,即给定模型λ和观测序列O,求最可能出现的对应的隐藏状态序列(标签序列),这个问题的求解需要用到基于动态规划的维特比算法。

求观测序列的概率

    求观测序列的概率—前向后向算法。问题:假设模型参数全知,要求推断某个句子出现的概率;前向概率(局部状态):定义时刻t时隐藏状态为qi, 观测状态的序列为o1,o2,…ot的概率为前向概率。记为:αt(i)=P(o1,o2,…,ot,it=qi|λ)。递推关系式:从t时刻递推t+1时刻αt+1(i)=[∑j=1~N αt(j)aji]bi(ot+1),利用递推关系式,从t=1时刻递推算出t=T时刻,并计算最终结果: P(“浙江大学位于杭州”|λ)=∑i=1~N αT(i),前向后向算法比起穷举搜索的指数级复杂度,其复杂度与序列长度是线性关系。

    模型参数的估计与学习,标签转移概率矩阵A=[aij]N*N,词的生成概率矩阵B=[bj(k)]N*M,标签的初始分布Π = [π(i)]N。假如我们已知D个长度为T的句子和对应的实体识别标签,即{(O1,I1),(O2,I2),…(OD,ID)}是已知的,此时我们可以很容易的用最大似然来求解模型参数。

假设样本从标签qi转移到标签qj的频率计数是Aij,那么隐藏状态转移矩阵求得

图片名称

假设样本标签为qj且对应词为vk的频率计数是Bjk,那么观测状态概率矩阵为

图片名称

假设所有样本中初始标签为qi的频率计数为C(i),那么初始概率分布为:

图片名称

    模型参数的估计与学习—鲍姆韦尔奇算法-EM算法。问题:利用训练语料估计模型参数:标签转移概率矩阵A=[aij]N*N;词的生成概率矩阵B=[bj(k)]N*M;标签的初始分布Π = [π(i)]N。很多时候我们无法得到句子对应的实体标签序列,因为这需要大量的人工数据标注工作。如果只有D个长度为T的句子,即{(O1),(O2),…(OD)}是已知的,此时可以用EM算法迭代来求解。

图片名称

    解码隐藏状态序列—维特比算法,问题:给定训练好的模型,给定一句话,预测每个词对应的实体标签,输入:模型λ=(A,B,Π),观测序列O=(浙,江,大,学,位,于,杭,州);输出:最有可能的隐藏状态序列I={i1,i2,…iT},即实体标签序列;这里的优化目标是使P(I|O)最大化。

图片名称

    解码隐藏状态序列——维特比算法。问题:给定训练好的模型,给定一句话,预测每个词对应的实体标签。输入:模型λ=(A,B,Π),观测序列O=(浙,江,大,学,位,于,杭,州);输出:最有可能的隐藏状态序列I={i1,i2,…iT},即实体标签序列,优化目标:使P(I|O)最大化。 1. 初始化局部状态:时刻1,输出为o1时,各个隐藏状态的可能性。

图片名称
2.进行动态规划递推时刻t=2,3,…T时刻的局部状态。在t时刻,所有从t-1时刻的状态j中,取最大概率。从t-1时刻的状态中,选择使t时刻概率最大的那个隐藏状态的编号
图片名称
3. 如此递推,可计算最后时刻T最大的δT(i),即为最可能隐藏状态序列出现的概率
图片名称
4. 计算时刻T最大的Ψt(i),即为时刻T最可能的隐藏状态。
图片名称
5. 利用局部状态Ψ(i)开始回溯,最终得到解码的序列,如:“ …B-ORG, I-ORG,I-ORG,I-ORG ,O,O,B-LOC ,B-LOC…”。

    常见序列预测模型:CRF条件随机场。随机场包含多个位置,每个位置按某种分布随机赋予一个值,其全体就叫做随机场。马尔科夫随机场假设随机场中某个位置的赋值仅与和它相邻位置的赋值有关,和不相邻位置的赋值无关。条件随机场进一步假设马尔科夫随机场中只有X和Y两种变量,X一般是给定的,而Y一般是在给定X的条件下的输出。例如:实体识别任务要求对一句话中的十个词做实体类型标记,这十个词可以从可能实体类型标签中选择,这就形成了一个随机场。如果假设某个词的标签只与其相邻的词的标签有关,则形成马科夫随机场,同时由于这个随机场只有两种变量,令X为词,Y为实体类型标签,则形成一个条件随机场,即,我们的目标时求解P(Y|X)。

    CRF的机器学习模型:通过定义特征函数和权重系数转化为一个机器学习问题。训练—Training:给定训练数据集X和Y,学习CRF的模型参数wk (θ )和条件概率分布Pw(y|x),采用最大化对数似然函数和SGD即可:O(θ)=∑t=1~N logPθ(yt|xt);解码—Decoding:给定CRF条件概率分布P(y|x)和输入序列x, 计算使条件概率最大的输出序列y,可用维特比算法很方便解决这一问题。

图片名称

基于深度学习的实体识别方法:

图片名称

常见实现方法:BiLSTM+CRF:

图片名称

    BiLSTM+CRF: CRF层。 CRF层的参数是一个 (k+2)×(k+2)的矩阵 A;Aij表示的是从第 i个标签(如B-LOC)到第 j个标签(如B-Org)的转移得分;加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。

BiLSTM+CRF: 模型训练:

图片名称

基于预训练语言模型的实体识别:

图片名称

实体识别解码策略:

图片名称

    实体识别仍面临着标签分布不平衡,实体嵌套等问题,制约了现实应用;中文的实体识别面临一些特有的问题,例如:中文没有自然分词、用字变化多、简化表达现象严重等等;实体识别是语义理解和构建知识图谱的重要一环,也是进一步抽取三元组和关系分类的前提基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1601424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

APEX开发过程中需要注意的小细节5.5

oracle保留小数点后两位的函数 在日常开发中经常用到百分比做数据对比,但是有可能得到的数据是一个多位小数,结果如下所示: 如果想截取部分小数如保留小数点后两位可以怎么做呢? 在Oracle中,可以使用ROUND函数来四舍…

Nature Climate Change | CO2施肥效应导致1981-2020年的全球陆地植被光合作用增加

在全球范围内,光合作用是大气和生物圈之间最大的单一CO2通量。因此,光合作用的长期变化,例如对大气CO2上升的响应,可能为气候变化提供重要的反馈。理论预测,CO2的增加增加了全球光合作用,这一过程被称为CO2…

根据 Figma 设计稿自动生成 Python GUI | 开源日报 No.221

ParthJadhav/Tkinter-Designer Stars: 8.0k License: BSD-3-Clause Tkinter-Designer 是一个用于快速创建 Python GUI 的工具,通过使用 Figma 设计软件,可以轻松地生成美观的 Tkinter GUI。 主要功能和优势包括: 拖放界面设计比手写代码更快…

SCI一区 | Matlab实现POA-TCN-BiGRU-Attention鹈鹕算法优化时间卷积双向门控循环单元注意力机制多变量时间序列预测

SCI一区 | Matlab实现POA-TCN-BiGRU-Attention鹈鹕算法优化时间卷积双向门控循环单元注意力机制多变量时间序列预测 目录 SCI一区 | Matlab实现POA-TCN-BiGRU-Attention鹈鹕算法优化时间卷积双向门控循环单元注意力机制多变量时间序列预测预测效果基本介绍模型描述程序设计参考…

Spring Boot 处理过滤器(filter )中抛出的异常

前言: 在改造老项目登录功能的时候,使用了过滤器对 token 进行有效性验证,验证通过继续进行业务请求,验证不通过则抛出校验异常。 过程: 技术方案拟定后,就着手开始改造,一切都很顺畅&#x…

OpenStack云平台实战

1、环境准备 主机CPU数量内存硬盘IPV4发行版controller48GB100GBens33: 192.168.110.27/24 esn34: 192.168.237.131/24CentOS 7.9compute48GB200GB、100GBens33: 192.168.110.26/24 esn34: 192.168.237.132/24CentOS 7.9 1.1 虚拟机安装部署 1.1.1 创建虚拟机 这里16或者17都…

机器学习——模型评价

概述 在机器学习中,模型评价是评估和比较不同模型性能的关键步骤之一。它是通过对模型的预测结果与真实标签进行比较,从而量化模型的预测能力、泛化能力和稳定性。模型评价旨在选择最佳的模型,理解模型的行为,并为模型的改进提供…

c++11 标准模板(STL)本地化库 - 平面类别 - 在字符编码间转换,包括 UTF-8、UTF-16、UTF-32 (七)

本地化库 本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析,以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C 标准库的其他组件的行为。 平面类别 在字符编码间转换,包括 UTF-8、UTF-16、UTF-32 std::…

03.卸载MySQL

卸载MySQL 1.Windows卸载MySQL8 停止服务 用命令停止或者在服务中停止都可以 net stop mysql(服务名字可以去服务里面看一下)控制面板卸载MySQL 卸载MySQL8.0的程序可以和其他桌面应用程序一样直接在控制面板选择卸载程序,并在程序列表中…

nacos配置mysql(windows)

nacos默认是使用的内置数据库derby ,可通过配置修改成mysql,修改成mysql之后,之前配置在derby的数据会丢失 本文使用mysql版本为8.0.22 nacos版本为2.3.1 在mysql里面先创建一个数据库test(名称自定义,和后面配置文件里面的一样就好了) 在上面创建的数据…

【学习笔记】Python大数据处理与分析——pandas数据分析

一、pandas中的对象 1、Series对象 由两个相互关联的数组(values, index)组成,前者(又称主数组)存储数据,后者存储values内每个元素对应关联的标签。 import numpy as np import pandas as pds1 pd.Series([1, 3, 5, 7])print(…

数据结构排序算法

排序也称排序算法(SortAlgorithm),排序是将一组数据,依指定的顺序进行排列的过程。 分类 内部排序【使用内存】 指将需要处理的所有数据都加载到内部存储器中进行排序插入排序 直接插入排序希尔排序 选择排序 简单选择排序堆排序 交换排序 冒泡排序快速…

【随笔】Git 高级篇 -- 远程仓库提交本地记录 git push(三十)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…

大学生前端学习第一天:了解前端

引言: 哈喽,各位大学生们,大家好呀,在本篇博客,我们将引入一个新的板块学习,那就是前端,关于前端,GPT是这样描述的:前端通常指的是Web开发中用户界面的部分,…

35. UE5 RPG制作火球术技能

接下来,我们将制作技能了,总算迈进了一大步。首先回顾一下之前是如何实现技能触发的,然后再进入正题。 如果想实现我之前的触发方式的,请看此栏目的31-33篇文章,讲解了实现逻辑,这里总结一下: …

用于半监督的图扩散网络 笔记

1 Title Graph Neural Diffusion Networks for Semi-supervised Learning(Wei Ye, Zexi Huang, Yunqi Hong, and Ambuj Singh)【2022】 2 Conclusion This paper proposes a new graph neural network called GND-Nets (for Graph Neural Diffu…

1W 6KVDC 隔离双输出 DC/DC 电源模块 ——TPJ 系列

TPJ一款有超高隔离电压的电源模块,主要用于医疗仪器和设备,特别在安全设备的应用中起着相当重要的作用, 它的绝缘设计完全能满足对隔离电压要求超过6000V的应用,在额定负载1W的情况下,工作温度范围为–40℃到 105℃&am…

转换为elementUI提示方法为uni-app的showToast提示

// 转换为elementUI提示方法为uni-app的showToast提示---------------------------------------- // 一般提示 Vue.prototype.$message function(title) {title && uni.showToast({icon: none,title}); }; // 成功提示 Vue.prototype.$message.success (title) > …

项目管理利器 Git

一、序言 今天聊聊 Git。 二、开发的问题 在开发项目时,我们的代码都是直接放在本地的机器上的。如果本地机器出现了问题,怎么办?在企业中,开发项目都是团队协作,一个团队共同维护一个项目该如何处理?团…

采用4G、5G实现无线视频监控,流量过大费用高,如何降低网络流量?

目录 一、高清视频监控中使用的4G和5G介绍 (一)4G物联网卡: 1、数据传输与稳定性 2、应用与优势 (二)5G物联网卡: 1、数据传输与速率 2、应用场景 二、4G/5G流量池 三、视频监控的流量使用 …