昇思25天学习打卡营第35天|自然语言处理-LSTM+CRF序列标注

news2024/9/8 8:57:14

昇思25天学习打卡营第35天|自然语言处理-LSTM+CRF序列标注

序列标注简介

序列标注指给定输入序列,给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取,包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。

条件随机场(Conditional Random Fields, CRF)

CRF 是一种强大的序列标注模型,通过直接建模条件概率,避免了生成模型中观测序列独立性假设的限制。它能够捕捉观测序列和标签序列之间的复杂依赖关系,尤其适用于自然语言处理等领域的序列标注任务。其工作过程包括特征函数定义、势函数计算、条件概率计算、训练和解码等步骤。

命名实体识别:CRF 被用于将每个词标注为不同类型的实体或非实体。

词性标注:CRF 可以根据词的上下文信息来准确地预测词性。

语音识别:CRF 可以用于将音素或特征序列映射到词序列。

词汇分割:CRF 可以用来识别词的边界。

掩码矩阵 (mask)

掩码矩阵通常是一个与输入序列相同维度的矩阵,其值为 0 或 1。1 表示对应位置是有效的 token,0 表示对应位置是填充值。

使用掩码矩阵是为了处理不同长度的序列,将多个序列打包为一个 batch 时对填充 (padding) 的部分进行忽略。这样可以确保模型计算时仅考虑有效的 token,而不是填充的无效部分,是处理不同长度序列的关键工具。

Normalizer计算

Normalizer是𝑥𝑥对应的所有可能的输出序列的Score的对数指数和(Log-Sum-Exp)。此时如果按穷举法进行计算,则需要将每个可能的输出序列Score都计算一遍,因此需要通过复用计算结果来提高效率。

Viterbi算法

通过递归地计算每个时间步的最优状态路径来找到整个序列的最优状态路径。其基本思想是通过最大化条件概率来找到最优的标签序列。

双向 LSTM

LSTM (Long Short-Term Memory) 是一种能够有效捕捉长距离依赖的递归神经网络(RNN)。

双向 LSTM 使用两个 LSTM 网络,一个从序列的左到右处理,另一个从右到左处理。这种设计使模型能够同时利用前向和后向的上下文信息,从而更全面地理解每个词的语境。

双向 LSTM + CRF 组合的优势

上下文信息和全局标签依赖:双向 LSTM 提供了丰富的上下文特征,而 CRF 通过建模标签之间的依赖关系,能够确保最终的标签序列符合语法和语义规则。

提高识别准确性:这种组合在训练时能够同时优化特征提取和标签序列建模,通常能显著提高 NER 的性能。

处理长距离依赖:LSTM 能够处理较长的上下文,而 CRF 能够处理标签之间的长距离依赖。

模型架构

nn.Embedding -> nn.LSTM -> nn.Dense -> CRF  #其中LSTM提取序列特征,经过Dense层变换获得发射概率矩阵,最后送入CRF层。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1951962.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sqlserver 连接数据4064

用sa登录,找到对应的登录名,右键属性,设置默认数据库

Android APP 音视频(03)CameraX预览与MediaCodec编码

说明: 此CameraX预览和编码实操主要针对Android12.0系统。通过CameraX预览获取yuv格式数据,将yuv格式数据通过mediacodec编码输出H264码流(使用ffmpeg播放),存储到sd卡上。 1 CameraX 和 MediaCodec简介 1.1 CameraX…

【区块链】如何发行自己的加密货币到以太坊测试网络,remixIDE发行自己的数字货币

如何发行自己的加密货币到以太坊测试网络 环境 reminx在线编辑器:https://remix.ethereum.org/安装有小狐狸钱包插件(MetaMask) 如何部署代币? 创建一个名字叫做HelloMyToken.sol的文件。编写好智能合约,这边我要发…

RedHat9 | Ansible 处理任务失败

环境版本说明 RedHat9 [Red Hat Enterprise Linux release 9.0]Ansible [core 2.13.3]Python [3.9.10]jinja [3.1.2] 1. 忽略任务失败 Ansible评估各任务的返回代码,从而确定任务是成功还是失败通常而言,当任务失败时,Ansible将立即在该主…

【2024年国际高等学校数学建模竞赛IMMCHE】问题 A:金字塔石块的运输 问题分析及数学模型及求解代码

【2024 年国际高等学校数学建模竞赛(IMMCHE)】问题 A:金字塔石块的运输 问题分析及数学模型及求解代码 Problem A: Transportation of Pyramid Stones 1 题目 建造金字塔是古埃及文明的杰出成就之一。它们不仅是建筑奇迹,也是人…

1.C基础_计算机基础知识

计算机构成 计算机是由输入设备、输出设备、内存储器、外存储器、CPU构成,具体框图如下: 输入设备:将其他信号转换为计算机能识别的电信号的设备,如传感器 输出设备:将电信号转换为其他信号,如显示器 存…

SAM与OpenAI发布的CLIP强强联手(SAM2CLIP 和 CLIP2SAM),实现22000类的分割与识别

Abstract CLIP 和 Segment Anything Model(SAM)是卓越的视觉基础模型(VFMs)。SAM 在各种领域的分割任务中表现出色,而 CLIP 以其零样本识别能力而闻名。本文深入探讨了将这两种模型整合到一个统一框架中的方法。具体而…

2024101读书笔记|《飞花令·冬》——三冬雪压千年树,四月花繁百尺藤

2024101读书笔记|《飞花令冬》——三冬雪压千年树,四月花繁百尺藤 《飞花令冬(中国文化古典诗词品鉴)》素心落雪 编著,飞花令得名于唐代诗人韩翃《寒食》中的名句“春城无处不飞花”,类似于行酒令,是文人们…

Java 面试相关问题(下)——JVM相关问题GC相关问题

1. 类加载1.1 类的生命周期说一下?1.2 介绍下生命周期中的加载?1.3 介绍下生命周期中的验证?1.4 介绍下生命周期中的准备?1.5 介绍下生命周期中的解析?1.6 介绍下生命周期中的初始化?1.7 介绍下生命周期中的…

MySQL大框架总结

1.DDL,DML,DQL,DCL的区别 (由于DCL是关乎用户的,以下内容重点讲述数据库,表与数据的操作,所以对DCL不详细赘述) DDL DML DQL DCL 中文/英文 数据库定义语言 data definition language 数据库操作语言 data mani…

04-用户画像+sqoop使用

优点 sqoop的作用是实现数据的导入和导出,主要是对数据库和数据仓库之间的操作 只要是支持jdbc连接的数据库都可以使用sqoop操作 添加Sqoop到环境变量中 export SQOOP_HOME/export/server/sqoop export PATH$PATH:$SQOOP_HOME/bin:$SQOOP_HOME/sbinsource /etc/…

Spark RDD 介绍

什么是 RDD ? 弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合; 特性: 弹性: 存储弹性:内存与磁盘的…

CentOS 7.x 的 YUM 仓库问题

背景 CentOS Linux 7 的生命周期(EOL)已经于 2024 年 6 月 30 日终止这意味着 CentOS 7.x 的官方镜像站点将不再提供服务,导致在使用 yum 安装或更新程序时可能会遇到 错误。本文将介绍如何解决这一问题,使得你可以继续在 CentOS…

实验八: 彩色图像处理

目录 一、实验目的 二、实验原理 1. 常见彩色图像格式 2. 伪彩色图像 3. 彩色图像滤波 三、实验内容 四、源程序和结果 (1) 主程序(matlab (2) 函数FalseRgbTransf (3) 函数hsi2rgb (4) 函数rgb2hsi (5) 函数GrayscaleFilter (6) 函数RgbFilter 五、结果分析 1. …

shell脚本相关应用

编写一个简单的脚本,以及运行脚本 301 vim helloworld.sh #!/bin/bash echo "hello world!" ls -lh /etc/ 执行的方式如下: 302 bash helloworld.sh 303 sh helloworld.sh 304 chmod x helloworld.sh 305 ./helloworld.sh…

【计算机网络】数据链路层实验

一:实验目的 1:学习WireShark软件的抓包操作,分析捕获的以太网的MAC帧结构。 2:学习网络中交换机互相连接、交换机连接计算机的拓扑结构,理解虚拟局域网(WLAN)的通信机制。 3:学习…

stm32入门-----TIM定时器(输入捕获模式——下)

目录 前言 一、C语言编程初始化步骤 1.开启时钟 2.配置GPIO口 3.配置时基单元 4.配置输入捕获单元(主模式) 5.配置触发源于从模式 6.开启定时器 二、项目实操(测周法) 1.定时器测量方波 2.定时器测量方波的占空比 前言 接…

nginx的学习(二):负载均衡和动静分离

简介 nginx的负载均衡和动静分离的简单使用 负载均衡配置 外部访问linux的ip地址:80/edu/a.html地址,会轮询访问Tomcat8080和Tomcat8081服务。 Tomcat的准备 准备两个Tomcat,具体准备步骤在nginx的学习一的反向代理例子2中,在Tomcat8080…

搜索引擎项目构建与解析(一)

这是源码,大家可以下载下来作为参考,一起食用效果更佳:SearchEngine 王宇璇/submit - 码云 - 开源中国 (gitee.com)https://gitee.com/yxuan-wang/submit/tree/master/SearchEngine搜索引擎项目总体来看内容比较简单,代码量也比较…

【计算机方向】五本“三区水刊”重磅推荐!几乎不拒收,国人发文友好!

本期将为您带来五本计算机SCI 妥妥毕业神刊! AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS International Journal on Document Analysis and Recognition COMPUTATIONAL INTELLIGENCE IET Biometrics ACM Transactions on Asian and Low-Resource L…