文本处理方式方法

news2026/2/11 11:55:50

概述

从今天开始，我们将开启一段自然语言处理的流程，自然语言可以让来处理、理解以及运用人类的语言，实现机器语言和人类语言之间的沟通桥梁。

在这里插入图片描述

文本处理

我们正在进行文本处理的时候，经常会用到文本长度不一致的情况，遇到奇奇怪怪的符号问题，这时候，我们就需要特殊字符来帮助我们解决这些问题。

在这里插入图片描述

$< P A D >$ 可以帮助我们填充句子长度不同的部分，在我们的NLP训练过程中，我们会将输入按Batch输入，但是这些Batch必须拥有相同的长度。

$< U N K >$ : ，可以帮助我们替换词汇表中不存在的字符，例如一些低频词或者低频字。或者特殊符号。
$< G O >$ :会放在句子的开头，用于告诉模型这是句子输入的开始，即第一个时间步长的输入。
$< E O S >$
会放在句子的结尾，用于告诉模型这是句子的输入结束。
在这里插入图片描述
在Bert等预训练模型的词汇表中，有 $[P A D], [C L S], [S E P], [M A S K], [U N K]$ 这样几种token，它们代表的具体含义如下:
【PAD]: 要将句子处理为特定长度，就要将句子前或后补充[PAD]
[CLS]:这个标志放在句子的首位，表示句子的开始。
【SEP】：这个标志用于分开两个输入句子，例如输入句子A和B，后面增加[SEP]标志。
【MASK]:这个标志用于遮盖句子中的一些单词。
【UNK}：词典中没有词被标记为[UNK]

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/53003.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Microsoft SQL Server 图书管理数据库的建立

Microsoft SQL Server 图书管理数据库的建立

文章目录题目描述创建数据库使用数据库创建三个表外码的表示形式结果展示题目描述 – 新建 “图书管理数据库" – 其中包含三个关系 – 图书（编号，图书名，作者，出版社，类型，单价） – 借阅…

阅读更多...

ASP.NET Core 3.1系列（16）——Entity Framework Core之Code First

ASP.NET Core 3.1系列（16）——Entity Framework Core之Code First

1、前言前一篇博客介绍了EFCore中的DB First开发模式，该模式可以根据数据库生成实体类和数据库上下文，因此适用于数据库已经存在的场景。而与之相对应的，Code First主要是根据自定义的实体类和数据库上下文反向构建数据库，因此也…

阅读更多...

操作系统02_进程管理_同步互斥信号量_PV操作_死锁---软考高级系统架构师007

操作系统02_进程管理_同步互斥信号量_PV操作_死锁---软考高级系统架构师007

存储管理可以分为固定存储管理和分页存储管理。现在固定存储管理已经不用也不考,但要知道因为固定存储管理指的是整存整取也就是把一整个程序，比如说10G的游戏全部都存到内存里这样的话是非常占用内存的，这个固定存储管理现在已经不用了。然后这里我们主要看分页存储管: …

阅读更多...

网页去色变黑白+网页黑白恢复为彩色

网页去色变黑白+网页黑白恢复为彩色

前言特定节日，你会发现网页和app首页都会变成灰色，以此来表达我们的哀思之情。好奇宝宝想知道各个网站都是使用哪些小技巧来做出这种效果的（由彩变灰，由灰变彩），于是稍微学习了一下… 由灰变彩稍微想…

阅读更多...

USDP集群服务器宕机后集群及组件重启

USDP集群服务器宕机后集群及组件重启

USDP集群的其中2服务器意外宕机，其中包括一台USDP管理服务节点主机和工作节点主机，服务器重新启动后，USDP智能大数据平台无法登录，启动UDSP服务（/opt/usdp-srv/usdp/bin/start-udp-server.sh）后可以登录&am…

阅读更多...

Go1.9.3跑GinDemo

Go1.9.3跑GinDemo

Gin 1. 简介 1.1. 介绍 Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的n…

阅读更多...

Linux部署WordPress(宝塔版)

Linux部署WordPress(宝塔版)

宝塔手册宝塔安装 yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh 宝塔配置 1.帮助命令：bt2.修改用户名(童心同萌)：bt 63.修改密码(123456)：bt 54.修改端口(888…

阅读更多...

JWT详细介绍

JWT详细介绍

文章目录1 jwt介绍1.1 什么是jwt1.2 使用场景1.2.1 授权1.2.2 信息交换1.3 JWT结构1.3.1 header1.3.2 payload1.3.3 signature 签名2 Python 实现2.1 手动编码2.2 jwt包3 校验 jwt5 js解析jwt1 jwt介绍官网：https://jwt.io/ 本文以python来进行实战演示 1.1 什么…

阅读更多...

KG-开源项目：CMeKG【利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱】

CMeKG（Chinese Medical Knowledge Graph）是利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱。项目来源： 中文医学知识图谱CMeKG2.0版发布-自然语言处理实验室北京大…

阅读更多...

iOS开发之打包上传到App Store——（一）各种证书的理解

iOS开发之打包上传到App Store——（一）各种证书的理解

OK，有日子没写iOS开发的相关文章啦，主要是最近的精力都没在这上面，不过既然产品已经快要出来了，就有必要了解一下各种证书啥的（众所周知iOS的一堆证书可是很让人头大呀），最近确实被这个搞得头大…

阅读更多...

外汇天眼：随着美元贬值所有世界货币，每个国家都在为自己着想

外汇天眼：随着美元贬值所有世界货币，每个国家都在为自己着想

没有迹象表明各国政府愿意合作，各国被迫靠自己的力量建立防御措施，抵御万能的美元的无情力量。在美联储的鹰派政策、美国经济强劲以及寻求市场波动避险的投资者的支持下，美元兑所有其他货币正在稳步走强，创下数十年来的最大涨幅。…

阅读更多...

信号发生器不会用？一篇文章教会你

信号发生器不会用？一篇文章教会你

信号发生器是一种能提供各种频率、波形和输出电平电信号的设备。在测量各种电信系统或电信设备的振幅特性、频率特性、传输特性及其它电参数时，以及测量元器件的特性与参数时，用作测试的信号源或激励源。 1、信号发生器如何使用选用与验电器相同电压等…

阅读更多...

Gateway--服务网关

Gateway--服务网关

目录一、网关简介二、Gateway简介三、Gateway快速入门基础版增强版简写版四、Gateway核心架构基本概念执行流程五、断言内置路由断言工厂内置路由断言工厂的使用自定义路由断言工厂六、过滤器局部过滤器内置局部过滤器内置局部过滤器的使用自定义局部过滤器全局过滤器内置全局…

阅读更多...

ROS MoveIT2（humble）安装总结

ROS MoveIT2（humble）安装总结

版本系统版本：ubuntu22.04 ROS2版本：humble Moveit版本：moveit2-humble 安装 ROS 2 和 Colcon 如果您在接下来的几个步骤中遇到错误，一个好的开始是返回并确保您已正确安装 ROS 2。用户通常忘记的一个是获取 ROS 2 安装本身。…

阅读更多...

手写Redux(一)：实现Redux

手写Redux(一)：实现Redux

在React中，组件和组件之间通过props传递数据的规范，极大地增强了组件之间的耦合性，而context类似全局变量一样，里面的数据能被随意接触就能被随意修改，每个组件都能够改context里面的内容会导致程序的运行不可预料。 …

阅读更多...

复习计算机网络——第二章记录（2）

复习计算机网络——第二章记录（2）

理解一些基本概念： 1、数据（data）是运送信息的实体。 2、信号（signal）是数据的电气的或电磁的表现。 3、数据或信号可以是模拟的，也可以是数字的。 4、所谓“模拟的”就是连续变化的。 5、所谓“数字的…

阅读更多...

后端微服务项目中出现的问题整理2022年11月

后端微服务项目中出现的问题整理2022年11月

后端微服务项目中出现的问题整理2022年11月后端微服务项目中出现的问题整理2022年11月1.SpringBoot-Mail-Service（Spring邮箱服务）报错截图解决办法方法一：使用Resource注解方法二：添加(requiredfalse)Resource和Autowired区别2.反…

阅读更多...

基于plc的自动洗碗机的设计（西门子）

基于plc的自动洗碗机的设计（西门子）

目录摘要 I Abstract II 1绪论 1 1.1全自动洗碗机的发展 1 1.2全自动洗碗机概述 2 1.2.1 全自动洗碗机的分类 2 1.2.2 全自动洗碗机的基本结构 3 1.2.3 全自动洗碗机的工作原理 4 1.3研究主要内容 4 2 全自动洗碗机机械设计 6 2.1 整体方案设计 6 2.2 各重要部件设计 6 2.2.…

阅读更多...

TF-IDF

TF-IDF

2.TF - IDF：作用：提取出来一句话中词的重要性，分成两个部分： tf: 词频(某一类中词条出现的次数 / 该类中所有词条数目) idf: 逆文档频率（作用：去掉逗号，的等）公式：idf l…

阅读更多...

【第一阶段：java基础】第8章：面向对象编程高级-2（P394-P423）final、抽象类、接口、内部类

【第一阶段：java基础】第8章：面向对象编程高级-2（P394-P423）final、抽象类、接口、内部类

本系列博客是韩顺平老师java基础课的课程笔记，吐血推荐的一套全网最细java教程，获益匪浅韩顺平java课程目录（P394-P423） 1 final 2 抽象类 3 接口 4 内部类 1️⃣ 局部内部类 2️⃣🍓匿名内部类 3️⃣成员内部类 4️…

阅读更多...

推荐文章

最新文章