【机器学习300问】117、序列模型中的符号表示方法?以命名实体识别(NER)任务为例。

news2025/4/27 10:30:55

        在序列模型中,特别是在命名实体识别(NER)任务中,我们通常会用一系列符号来表示输入序列、目标标签以及模型的结构和操作。本文列出一些常见的符号表示方法,结合NER任务进行解释。

一、什么是命名实体识别任务?

(1)命名实体识别的任务目标

        命名实体识别(Named Entity Recognition,简称NER),是自然语言处理中的一个子任务,任务目标是从文本中自动检测具有特定意义的实体并将其分类的任务。

(2)什么是“命名实体”?

        实体通常包括人名、地名、组织机构名、时间、数量等,它们被归类到预定义的类别中,比如人名(Person)、地点(Location)、组织(Organization)、时间表达式(Time)等。

(3)举个例子说明一下

        这里有一句话:“Harry Potter and Hermione Granger invented a new spell”,命名实体识别(NER)的目标是识别出文本中的人名。

  1. 识别实体: 系统需要识别出“Harry Potter”和“Hermione Granger”是人名(Person)类别中的实体。这是因为“Harry Potter”和“Hermione Granger”是公众熟知的小说角色名称,属于文学作品《哈利·波特》系列中的虚构人物。

  2. 分类实体: 除了识别出这些是实体外,系统还会给这些实体分配正确的类型标签。在这个案例中,“Harry Potter”和“Hermione Granger”会被标记为Person类型。

  3. 忽略非实体或普通词汇: 句子中的其他词汇,如“and”、“invented”、“a”、“new”、“spell”,虽然对理解句子含义很重要,但它们不是命名实体,因此在NER任务中通常会被标记为非实体类别,常用'O'(Outside)来表示,意指这些词不属于任何特定的命名实体类别。

词汇实体类型
Harry PotterPerson
Hermione GrangerPerson
inventedO
aO
newO
spellO

        此表格展示了每个词汇及其对应的命名实体识别分类结果,其中“Person”表示人名实体,“O”表示非实体类别。

二、如何用符号来表示句子?

        还是用上面的例子,我先用一个表格直观的为大家展示出如何用符号表示句子,然后用文字进行必要且详细的解释。

XHarry Potter and Hermione Granger invented a new spell
符号x^{<1>}x^{<2>}x^{<3>}......x^{<t>}......x^{<8>}x^{<9>}
y110110000
符号y^{<1>}y^{<2>}y^{<3>}......y^{<t>}......y^{<8>}y^{<9>}
x^{(i)<t>}表示第i个输入序列样本中的第t个元素
y^{(i)<t>}表示第i个输出序列样本中的第t个元素
T_x^{(i)}=9表示第i个输入序列的长度为9
T_y^{(i)}=9表示第i个输出序列的长度为9

(1)输入序列表示

        x^{(i)}=(x^{(i)<1>},x^{(i)<2>},...,x^{(i)<t>},...,x^{(i)<T^{(i)}_x>})表示输入的文本序列,其中x^{(i)<t>}代表序列中的第t个单词或token,而T^{(i)}_x是序列的长度。

(2)输出序列表示

        y^{(i)}=(y^{(i)<1>},y^{(i)<2>},...,y^{(i)<t>},...,y^{(i)<T^{(i)}_y>})表示对应的标签序列,每个y^{(i)<t>}对应于x^{(i)<t>}的标签,用来指示该单词属于哪种类型的命名实体(如人名、地点、组织机构等)。在NER中,常用的标签编码方案有BIOES,其中B表示实体开始,I表示实体内部,E表示实体结束,O表示非实体。

三、如何表示一个句子中的单词?

(1)词典与独热编码的方式

        可以使用词典与One-Hot编码的方式来表示句子中的每个单词。举例说明。

        假设我们的词典包含10000个不同的单词,每个单词对应一个唯一的索引,从0到9999。如果句子“Harry Potter and Hermione Granger invented a new spell”中的所有单词都恰好在词典中,我们可以为每个单词创建一个长度为10000的向量,向量中对应单词索引的位置为1,其余位置为0。

理想情况下假设所有单词都在词典中:

  • “Harry”假设词典索引为1,则其one-hot编码为:[0, 1, 0, ..., 0]
  • “Potter”假设词典索引为2,则其one-hot编码为:[0, 0, 1, ..., 0]
  • “and”假设词典索引为3,则其one-hot编码为:[0, 0, 0, 1, ..., 0]
  • 以此类推

【注】如果词典中没有某个单词,则需要采取一些策略,比如使用“未知词<UNK>”,通常是词典中的一个特定索引,比如9999来表示未知词。

(2)其他更好地方式

        由于实际操作中直接手动构建这样庞大的one-hot编码不太现实,通常我们会使用更高效的词嵌入技术(如Word2Vec、GloVe)来表示单词,这些方法能够在保持高效的同时捕获词汇的语义信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1823133.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

06 SpringBoot 配置文件详解-application.yaml

Spring Boot 提供了大量的自动配置&#xff0c;极大地简化了spring 应用的开发过程&#xff0c;当用户创建了一个 Spring Boot 项目后&#xff0c;即使不进行任何配置&#xff0c;该项目也能顺利的运行起来。当然&#xff0c;用户也可以根据自身的需要使用配置文件修改 Spring …

L50--- 104. 二叉树的最大深度(深搜)---Java版

1.题目描述 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 2.思路 这个二叉树的结构如下&#xff1a; 根节点 1 左子节点 2 右子节点 3 左子节点 4 计算过程 从根节点 1 开始计算&#xff1a; 计算左子树的最大深度&#xff1a; 根节点 2&#xf…

QTcreator编译器路径错误,no valid kit found

重装系统后&#xff0c;整个QT的应用换了一个盘&#xff0c;但是创建QT工程时默认的编译器路径还是以前的路径且无法修改&#xff0c;创建工程时&#xff0c;出现no valid kit found 可见在option下的编译器相关路径是在E盘且无法更改 进入现在的QT盘进行文件的修改 F:\QT\Too…

UnityAPI学习之协程原理与作用

协程的原理与作用 Unity 协程(Coroutine)原理与用法详解_unity coroutine-CSDN博客 using System.Collections; using System.Collections.Generic; using UnityEngine;public class NO14_coroutine : MonoBehaviour {Animator animator;// Start is called before the first…

深入掌握SystemVerilog验证:《SystemVerilog验证 测试平台编写指南》(可下载)

在数字设计的世界中&#xff0c;验证是确保硬件设计满足预期功能和性能要求的关键步骤。SystemVerilog作为一种先进的硬件描述语言&#xff0c;以其强大的验证特性&#xff0c;成为了设计和验证工程师的首选工具。 1. SystemVerilog验证的重要性 在数字设计流程中&#xff0c…

javaWeb项目-ssm+vue在线购物系统功能介绍

本项目源码&#xff1a;java-ssmvue在线购物系统的设计与实现源码说明文档资料资源-CSDN文库 项目关键技术 开发工具&#xff1a;IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架&#xff1a;ssm、Springboot 前端&#xff1a;Vue、ElementUI 关键技术&#xff1a;sprin…

[Nacos]No spring.config.import property has been defined

在学习 Spring Cloud Alibaba &#xff0c;Nacos组件&#xff0c;创建一个cloudalibaba-config-nacos-client&#xff0c;加载多配置集时遇到问题 配置了 bootstrap.yml 后启动项目报错&#xff1a; 是因为在springcloud 2020.0.2版本中把bootstrap的相关依赖从spring-cloud-s…

Python 中国象棋游戏【含Python源码 MX_011期】

简介&#xff1a; 中国象棋是一种古老而深受喜爱的策略棋类游戏&#xff0c;也被称为中国的国粹之一。它在中国有着悠久的历史&#xff0c;起源可以追溯到几个世纪以前。Python 中国象棋游戏是一个用Python编程语言编写的软件程序&#xff0c;旨在模拟和提供中国象棋的游戏体验…

一键获取CPU详情:Python最强查询工具实战教程

要在 Python 中查询 CPU 信息,可以使用多个强大的工具和库.以下是一些最常用和强大的库,可以帮助你获取详细的 CPU 信息&#xff1a; 1.psutil 2.cpuinfo 3.platform 4.os 1. 使用 psutil 库 psutil 是一个跨平台库,提供了获取系统和进程信息的便捷方法.它不仅可以获取 C…

I/O Stream设计实验

实验要求和目的 深入理解java输入输出流相关类的基本用法&#xff0c;并且可以掌握Java程序的编写和调试。 实验环境 Java语言&#xff0c;PC或android平台 实验具体内容 设计和编写以下程序&#xff1a; 程序1&#xff1a; 从键盘读入多行字符串&#xff08;英文&#xf…

生产运作管理--第六版陈荣秋

第一章&#xff1a; 生产运作的分类有哪些&#xff1f; 答&#xff1a;可以分为两大类&#xff1a; 产品生产: 产品生产是通过物理或者化学作用将有形输入转化为有形输出的过程。 按照工艺过程的特点&#xff0c;可以分为&#xff1a; 连续性生产&#xff1a;物料均匀、连续的按…

右值引用和移动语义

什么是左值&#xff1f;什么是右值&#xff1f; 通俗来讲&#xff0c;可以出现在赋值语句左侧的&#xff0c;为左值&#xff1b;只能出现在赋值语句右侧的&#xff0c;为右值。 左值与右值的本质区别在于&#xff1a;左值能取地址&#xff0c;但右值不能。 本文主要通过三个场景…

Commons-io工具包与Hutool工具包

Commons-io Commons-io是apache开源基金组织提供的一组有关IO操作的开源工具包 作用:提高I0流的开发效率。 FileUtils类(文件/文件夹相关) static void copyFile(File srcFile,File destFile) 复制文件 static void copyDirectory(File srcDir,File destDir) 复…

你的职业规划就是面向贫穷的规划

如果你觉得作者的文章还有点用,请记得点赞 + 关注 说一个扎心的事实,就是我们绝大多数人的职业规划基本上都是错误的,都是面向贫穷的规划。 因为绝大多数人的职业规划都是打工人的职业规划,这种规划除了很少部分人最终能成为企业高管,实现层级跃迁外,绝大多数人在大多数…

递归解析 LXML 树并避免重复进入某个节点

1、问题背景 我们在使用 LXML 库解析 MathML 表达式时&#xff0c;可能会遇到这样一个问题&#xff1a;在递归解析过程中&#xff0c;我们可能会重复进入同一个节点&#xff0c;导致解析结果不正确。例如&#xff0c;我们希望将以下 MathML 表达式解析为 Python 表达式&#x…

DJ-122A电压继电器 柜内安装 电磁式继电器 约瑟JOSEF

系列型号&#xff1a; DJ-100A/Q系列电压继电器 DJ-111A/Q电压继电器; DJ-112A/Q电压继电器; DJ-121A/Q电压继电器; DJ-122A/Q电压继电器; DJ-131A/Q电压继电器; DJ-132A/Q电压继电器; DJ-131A/Q160CN电压继电器; DJ-131A/Q160C电压继电器; ​ 概述 DJ-100A/Q系列电…

linux安装dgl

1.DGL官网、选择与自己cuda、python版本匹配的dgl的whl文件CUDA11.8、python10并下载 2.用pip install运行 pip install /home/u2023170749/download/dgl-2.2.0cu118-cp310-cp310-manylinux1_x86_64.whl

RocketMQ在Centos7系统上单机部署

最近因为一些信创问题&#xff0c;要将RabbitMQ替换为RocketMQ&#xff0c;因此在此分享一些RocketMQ在Centos7系统上单机部署相关过程。 优缺点 RocketMQ的优点&#xff1a; 性能优越&#xff1a;RocketMQ在处理大量消息时&#xff0c;性能优于RabbitMQ。当面临每秒数万到数…

【云岚到家】-day04-2-索引同步-搜索接口

【云岚到家】-day04-2-索引同步-搜索接口 1 索引同步1.1 编写同步程序1.1.1 创建索引结构1.1.2 编写同步程序1.1.2.1 添加依赖1.1.2.2 配置连接ES1.1.2.3 编写同步程序 1.1.3 测试1.1.4 小结1.1.4.1 如何保证CanalMQ同步消息的顺序性&#xff1f;1.1.4.2 如何保证只有一个消费者…

抖店一件代发设置自动发货

工具&#xff1a;逸淘 山东逸淘软件-www.1tsoft.com-一键下单&#xff01; step1 下载插件 下载对应浏览器的插件 step2 插件安装 谷歌浏览器--右上角...--设置--扩展程序 把下载的插件从文件夹拖过来 备注&#xff1a;显示 错误 不影响使用 在浏览器网址右边--把插件固定…