1. 自然语言处理NLP-数据预处理

1. 自然语言处理NLP-数据预处理

news2025/4/13 14:05:42

NLP任务预处理的流程包括： 收集语料库、文本清洗、分词、去掉停用词、标准化和特征提取等。

（1）收集语料库

（2）清洗数据

eg：删除所有不相关的字符，例如非字母数字字母

（3）分词

英文：词性还原（does转为do）；词干提取（cities转为city）

中文：粒度（中国科学技术大学、中国\科学技术\大学）

中文难度更高，没有统一的标准、歧义词难以区分、新词难以识别

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。其中典型的代表就是jieba分词，一个热门的多语言中文分词包。

（4）标准化

标准化是为了给后续的处理提供一些必要的基础数据，包括：去掉停用词、二次采样、词汇表等等。

去掉停用词：删除and 、is、a等词的过程。

二次采样：每个词有一定概率会被丢弃，越高频的词被丢弃的概率越大（eg：the、a、in）

词汇表：是为语料库建立一个所有不重复词的列表，每个词对应一个索引值，并索引值不可以改变。

（5）特征提取

将原始数据提取为具体特征（已被整理可直接使用），主要是两种：统计和embedding。

（1）将词转化为一个向量，eg:One-Hot编码。但是由于非常稀疏，且缺少语义信息，所以才有word2vec

比如：我、爱、自然、语言、处理

转化为：

我： [1, 0, 0, 0, 0]

爱： [0, 1, 0, 0, 0]

自然：[0, 0, 1, 0, 0]

语言：[0, 0, 0, 1, 0]

处理：[0, 0, 0, 0, 1]

（2）提取中心词和背景词。在word2vec中使用。

在整数1和max_window_size(最大背景窗口)之间随机均匀采样一个整数作为背景窗口大小。

（6）负采样或softmax来近似训练。在word2vec中使用。

降低生成给定词汇条件概率的复杂程度。

（7）读取数据集

随机小批量进行读取（从数据集中提取所有中心词，以及每个中心词对应的背景词和噪声词）

引用：(173条消息) [深度学习] 自然语言处理 --- NLP入门指南_不算晚的晴天的博客-CSDN博客

动手学深度学习李沐

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/572523.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Java Servlet相关面试题

Java Servlet相关面试题

一、什么是servlet？ Servlet是运行在java服务器中的小型Java程序。作用：接收用户请求，并对请求作出处理，将处理结果相应给客户端。 Servlet是JavaWeb三大组件（Servlet、过滤器，监听器 ）之一…

阅读更多...

C++学习day--12 循环

C++学习day--12 循环

第 1 节: 需求分析、项目实现——重复验证项目实现： #include <iostream> #include <Windows.h> #include <string> using namespace std; int main(void) { string name; string pwd; while (1) { system("cls"); std::cout <…

阅读更多...

Windows编辑开发中的内聚性、内聚类型、耦合性和耦合类型

Windows编辑开发中的内聚性、内聚类型、耦合性和耦合类型

我是荔园微风，作为一名在IT界整整25年的老兵，今天总结一下Windows编辑开发中的内聚性、内聚类型、耦合性和耦合类型。软件设计的基本原则是信息隐蔽性与模块独立性。模块设计目标是高内聚，低耦合。然后记住下面这张神图，一张…

阅读更多...

Mybatis之MetaObject

Mybatis之MetaObject

在mybatis中，ResultSetHandler在收集JDBC返回的结果后需要转换成对应的Bean对象，其实映射的原理基本大家都能想到使用的时候java中的反射机制，但是在Mybatis中，提供了一个更加强大的对象，就是MetaObject，使…

阅读更多...

Python - 面向对象编程 - 实例方法、静态方法、类方法

Python - 面向对象编程 - 实例方法、静态方法、类方法

实例方法在类中定义的方法默认都是实例方法，前面几篇文章已经大量使用到实例方法实例方法栗子 class PoloBlog:def __init__(self, name, age):print("自动调用构造方法")self.name nameself.age agedef test(self):print("一个实例方法&…

阅读更多...

阿里P8写出的《深入理解Java虚拟机》最新版，轻松学会JVM底层

阿里P8写出的《深入理解Java虚拟机》最新版，轻松学会JVM底层

前言 Java是目前用户最多、使用范围最广的软件开发技术，Java的技术体系主要由支撑Java程序运行的虚拟机、提供各开发领域接口支持的Java类库、Java编程语言及许许多多的第三E方Java框架(如Spring、 MyBatis等) 构成。在国内，有关Java类库API、Java语言语…

阅读更多...

能源汽车下乡充电桩建设优化建议及解决方案

能源汽车下乡充电桩建设优化建议及解决方案

安科瑞耿敏花摘要：5月5日，国务院总理李强主持召开国务院常务会议，审议通过关于加快发展先进制造业集群的意见，部署加快建设充电基础设施，更好支持新能源汽车下乡和乡村振兴。会议指出，农村新能源汽车市…

阅读更多...

JavaScript 原型和原型链

JavaScript 原型和原型链

文章目录 JavaScript 原型和原型链概述new操作符的流程原型对象、构造函数、实例关系原型链原型链查找hasOwnPropertyin JavaScript 原型和原型链概述任何函数都有prototype属性，prototype是原型的意思。 prototype的属性值是个对象，它默认拥有cons…

阅读更多...

Java内存模型（Java Memory Mode，JMM）

Java内存模型（Java Memory Mode，JMM）

并发编程模型的两个关键问题线程之间如何通信及线程之间如何同步。线程之间如何通信：共享内存，消息传递线程之间如何同步通信是指线程之间以何种机制来交换信息同步是指程序中用于控制不同线程间操作发生相对顺序的机制在共享内存的并发模型里&a…

阅读更多...

网络安全大厂面试题汇总

网络安全大厂面试题汇总

注：本套面试题，已整理成pdf文档，但内容还在持续更新中，因为无论如何都不可能覆盖所有的面试问题，更多的还是希望由点达面，查漏补缺。某大厂一面整理 1、防范常见的 Web 攻击 2、重要协议分布层 3、ar…

阅读更多...

c++使用yaml -基于windows10

c++使用yaml -基于windows10

参考：Windows10下使用VS2017编译和使用yaml-cpp库_雪域迷影的博客-CSDN博客 1. 下载yaml-cpp 建议在github下载其最新的官方版本，不要在其他平台下载该工具软件，下载地址如下（其中的一个版本）： Release …

阅读更多...

理解深度可分离卷积

理解深度可分离卷积

1、常规卷积常规卷积中，连接的上一层一般具有多个通道（这里假设为n个通道），因此在做卷积时，一个滤波器（filter）必须具有n个卷积核（kernel）来与之对应。一个滤波器完成一…

阅读更多...

Android自定义键盘（KeyboardView）

Android自定义键盘（KeyboardView）

目录 1.场景：2.想法：3.开始实现：《一》在res包下创建xml目录,Keyboard标签来定义键盘布局：《二》创建IKeyboardView类并继承KeyboardView类,设置键盘布局（数字和字母）《三》处理自定义键盘按键的点击事件…

阅读更多...

C++11：列表初始化、新增关键字和新增的默认成员函数

C++11：列表初始化、新增关键字和新增的默认成员函数

目录一. 列表初始化 1.1 {}列表初始化的方法 1.2 列表初始化实现的原理二. C11新增关键字 2.1 decltype -- 自动类型推断 2.2 nullptr -- 空指针 2.3 default -- 强制生成默认成员函数 2.4 delete -- 禁止生成默认成员函数 2.5 final -- 禁止类被继承/禁止虚函数被重…

阅读更多...

自动化测试之PageObject设计模式

自动化测试之PageObject设计模式

译文如下： PageObject 当您针对网页编写测试时，您需要参考该网页中的元素以单击链接并确定显示的内容。但是，如果您编写直接操作 HTML 元素的测试用例，则您的测试将无法应对 UI 中的频繁修改。PageObject对应于一个HTML网页、页…

阅读更多...

5月26号软件资讯更新合集......

5月26号软件资讯更新合集......

Windows Terminal 1.18 新功能预览：标签拖拽、上下文菜单... Windows Terminal 预览版已更新到 1.18 版本，带来多项实用内容，一起来看看这个版本的新东西： 标签撕裂（拖拽功能） Windows Terminal 已支持对…

阅读更多...

安装Redis6

安装Redis6

安装Redis 安装redis依赖 redis是基于C语言编写的，因此首选需要安装redis所需的gcc依赖 yum install -y gcc tcl 上传安装包并解压我安装的是redis-6.2.6版本，并且放到了/usr/local/src目录下 - 进入/usr/local/src目录shellcd /usr/local/src解压 tar …

阅读更多...

全球最受欢迎低代码平台排行榜出炉

全球最受欢迎低代码平台排行榜出炉

低代码平台正在成为寻求快速有效地构建应用程序的企业的首选解决方案。这些平台减少了编码要求，使企业能够在降低成本的同时更快地完成应用程序开发项目。在本文中，将探索全球受欢迎的低代码平台排行榜。该排名使用的标准包括易用性、成本效益、集成性、…

阅读更多...

很后悔，才发现这个API管理神器

很后悔，才发现这个API管理神器

想必大家都注意到了，近半年国产API管理工具火了起来。这说明两个问题，第一，API管理的重要性被越来越多的开发者认识到了，研发团队对API管理的需求也越来越强了。第二，说明国产软件真是越来越厉害了，大家确实…

阅读更多...

《微服务实战》第十八章 Redis查看配置文件和数据类型

《微服务实战》第十八章 Redis查看配置文件和数据类型

前言本章节讲解如何查看、修改Redis配置，介绍Redis类型。 1、查看配置 config get 配置名称 2、修改配置项 config set 配置项名称配置项值 2.1、配置项说明配置项参数说明daemonizeno/yes默认为 no，表示 Redis 不是以守护进程的方式运行&#xff…

阅读更多...

推荐文章

最新文章