【停用词】NLP中的停用词怎么获取?我整理了6种方法

news2024/11/16 16:00:28

文章目录

  • 一、停用词介绍
  • 二、停用词应用场景
    • 2.1 提取高频词
    • 2.2 词云图
  • 三、停用词获取方法
    • 3.1 自定义停用词
    • 3.2 用wordcloud调取停用词
    • 3.3 用nltk调取停用词
      • 3.3.1 nltk中文停用词
      • 3.3.2 nltk英文停用词
    • 3.4 用sklearn调取停用词
    • 3.5 用gensim调取停用词
    • 3.6 用spacy调取停用词

一、停用词介绍

您好,我是@马哥python说 ,一名10年程序猿。

在自然语言处理(NLP)研究中,停用词stopwords是指在文本中频繁出现但通常没有太多有意义的词语。这些词语往往是一些常见的功能词、虚词甚至是一些标点符号,如介词、代词、连词、助动词等,比如中文里的"的"、“是”、“和”、“了”、“。“等等,英文里的"the”、“is”、“and”、”…"等等。

停用词的作用是在文本分析过程中过滤掉这些常见词语,从而减少处理的复杂度,提高算法效率,并且在某些任务中可以改善结果的质量,避免分析结果受到这些词的干扰。

二、停用词应用场景

2.1 提取高频词

在使用jieba.analyse提取高频词时,可以事先把停用词存入stopwords.txt文件,然后用以下语句设置停用词:jieba.analyse.set_stop_words(‘stopwords.txt’) 这样提取出的高频词就不会出现停用词了。

2.2 词云图

在使用wordcloud画词云图时,可以设置WordCloud对象的参数stopwords,把需要设置的停用词放到这个参数里(通常情况下,需要手动多次增加停用词,多轮迭代,才能绘制出满意的词云图结果)。

图1:加入停用词后的「淄博烧烤」词云图

图2:未加入停用词的「淄博烧烤」词云图

图2掺杂了太多无意义的词语,严重影响了词频分析结果,图1效果就好多了,由此可见停用词在文本分析里的重要性。

三、停用词获取方法

3.1 自定义停用词

在科研领域,很多机构公开了一些停用词库,比如中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库等,以方便广大科研者使用。

下面,以哈工大停用词表为例,完整代码如下:

# 读取停用词(哈工大通用停用词表)
with open('hit_stopwords.txt', 'r') as f:
    stopwords_list = f.readlines()
stopwords_list = [i.strip() for i in stopwords_list]

print('停用词数量:', len(stopwords_list))
print('停用词列表:')
print(stopwords_list)

运行截图:
 自定义停用词
可以看到,中文停用词还是挺全面的,共767个。

我整理了一份较详尽的停用词词典,包含:中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库,公众号"老男孩的平凡之路"后台回复"停用词"直接拿!

3.2 用wordcloud调取停用词

Python中的wordcloud是用来画词云图的库,它可以根据文本中单词的频率或重要性,将单词以不同的大小、颜色等形式展示在图像中,从而形成一个视觉上吸引人的词云图。

同时,它也内置了英文停用词库,完整代码如下:

from wordcloud import STOPWORDS

print('停用词数量:', len(STOPWORDS))
print('停用词列表:')
print(STOPWORDS)

运行截图:
wordcloud调取停用词
可以看到,wordcloud共包含了192个常用英文停用词。

3.3 用nltk调取停用词

nltk是一个流行的自然语言处理库,提供了许多文本处理和语言分析的功能。包含停用词加载、文本分词、词性标注、命名实体识别、词干提取和词形还原等常见功能。

其中,nltk内置了多种语言的停用词,下面分别介绍中文、英文停用词。

3.3.1 nltk中文停用词

完整代码:

import nltk
from nltk.corpus import stopwords

# 下载停用词资源
nltk.download('stopwords')

# 获取中文停用词列表
stopwords_cn_list = stopwords.words('chinese')
# 打印中文停用词列表
print('中文停用词数量:', len(stopwords_cn_list))
print('中文停用词:\n', stopwords_cn_list)

运行截图:
nltk中文停用词

可以看到,nltk共包含841个中文停用词。

3.3.2 nltk英文停用词

完整代码:

import nltk
from nltk.corpus import stopwords

# 下载停用词资源
nltk.download('stopwords')

# 获取英文停用词列表
stopwords_en_list = stopwords.words('english')
# 打印英文停用词列表
print('英文停用词数量:', len(stopwords_en_list))
print('英文停用词:\n', stopwords_en_list)

运行截图:
nltk英文停用词

可以看到,nltk共包含179个英文停用词。

3.4 用sklearn调取停用词

sklearn是一个用于机器学习的Python库,它包含了各种经典和先进的机器学习算法,如分类、回归、聚类、降维、特征选择、模型选择等。

其中,sklearn.feature_extraction是用于特征提取的模块,可以利用它调取停用词库,完整代码如下:

from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

# 打印停用词列表
print('停用词数量:', len(ENGLISH_STOP_WORDS))
print('停用词列表:')
print(list(ENGLISH_STOP_WORDS))

运行截图:
sklearn调取停用词
可以看到,sklearn共包含318个英文停用词。

3.5 用gensim调取停用词

gensim是一个用于主题建模和自然语言处理的Python库。它提供了一组功能强大的工具和算法,用于从大规模文本语料库中提取语义主题和执行相关的文本处理任务。

其中,gensim.parsing.preprocessing是gensim库中用于文本预处理的模块。该模块提供了一系列函数和工具,用于对文本进行标记化、停用词去除、大小写转换、标点符号去除、词干提取等常见的文本预处理任务。

用gensim调取停用词,完整代码如下:

from gensim.parsing.preprocessing import STOPWORDS

# 打印停用词列表
print('停用词数量:', len(STOPWORDS))
print('停用词列表:')
print(list(STOPWORDS))

运行截图:
gensim调取停用词
可以看到,gensim共包含337个英文停用词。

3.6 用spacy调取停用词

spacy是一个用于自然语言处理的Python库,具有高性能、易用性和多语言支持的特点。它提供了一系列的功能和工具,用于词法分析、命名实体识别、句法分析、依存关系分析等常见的自然语言处理任务。

用spacy调取停用词,完整代码如下:

import spacy

nlp = spacy.load("en_core_web_sm")
stopwords = nlp.Defaults.stop_words

# 打印停用词列表
print('停用词数量:', len(stopwords))
print('停用词列表:')
print(list(stopwords))

运行截图:
spacy调取停用词
可以看到,spacy共包含326个英文停用词。

以上。


推荐阅读:

【Python可视化大屏】「淄博烧烤」热评舆情分析大屏

【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“狂飙”的评论数据

【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“阳了“的评论数据


首发公号:【停用词】NLP中的停用词怎么获取?我整理了6种方法


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/730714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

select语句与CSP模型~Go进阶

select语句 select 是 Go 中的一个控制结构。select 语句类似于 switch 语句,但是select会随机执行一个可运行的case。如果没有case可运行,它将阻塞,直到有case可运行。 语法结构 select语句的语法结构和switch语句很相似,也有…

【UGUI学习笔记】Rect Transform

文章目录 Rect Transform锚点和轴心轴心点锚点 Rect Transform 锚点和轴心 在上图中,中心位置的蓝色同心圆代表了轴心点,而四角花瓣的图形代表了实体的锚点。 Attribute含义轴心点 Pivot默认实体的几何中心处,轴心代表了对物体在空间上的坐…

安装git工具

下载安装地址: Git - Downloading Package (git-scm.com) 命令安装:创建文件夹下载路径 启动powershell 输入命令:winget install --id Git.Git -e --source winget 等待下载安装

集合面试题--ArrayList数组

介绍数组 数组(Array)是一种用连续的内存空间存储相同数据类型数据的线性数据结构。数组(Array)是一种用连续的内存空间存储相同数据类型数据的线性数据结构。 因为int占4个字节,所以也可以理解为占四块内存 数组如何…

600多个人工智能AI工具汇总,资源、教程和讲解免费提供(第二讲)

这里是600多个人工智能AI工具汇总第二讲,每天介绍5个,文章最后会告诉大家获取方式的。现在请大家同我一起进入AIGC的世界。 第一个:Leonardo.Ai,用来创造力、革新为你的创意项目生成质量的资产AI-driven速度和style-consistency。…

代码安全审计

什么是代码安全审计 代码安全审计是指有开发和安全经验的人员,通过阅读开发文档和源代码,以自动化分析工具或者人工分析为手段,对应用程序进行深入分析,高效全面的发现系统代码的编码缺陷以及开发人员不安全的编程习惯,并指导开发人员进行修复,保障应用系统的安全运行。 …

Spring Boot 中的任务调度器是什么,如何使用?

Spring Boot 中的任务调度器是什么,如何使用? 介绍 在开发企业级应用程序时,经常需要执行定时任务或周期性任务。这些任务可以包括清理临时文件,备份数据库,发送电子邮件等等。Spring Boot 提供了一个内置的任务调度…

基于STM32的homeassistant(采用FreeRTOS操作系统)【第一章:设备配网、连接服务器、断网重连、断服务器重接】

第一章开发环境: 主控STM32F103C8T6WIFI模块ESP01S开发语言C开发编译器 KEIL 组网方式WIFI服务器协议MQTT 本章要点: ESP01S的AT指令配网以及服务器连接STM32与ESP01S的usart协议通信断网重连以及断服务器重连STM32向服务器端口发送对应指令 抽象理解…

硬件电路设计--运算放大器(二)选型

文章目录 前言一、运算放大器的工艺决定Vos和Ib二、TI放大器的命名规律三、选型总结 前言 一、运算放大器的工艺决定Vos和Ib 运放的设计工艺对其各种指标有非常重要的影响 常常有三种基本工艺: Bipolar: 低输入阻抗,Ib1-100nA:Vos10-100uV,低至0.1uV/o…

惊艳!全网首份“架构师成长笔记”GitHub狂澜9000星

其实架构师是需要一个相对而言对架构师友善的环境。第一,架构师到底需要什么?一个架构师要成长,首先他需要信任,第二他需要授权,第三他需要时间,第四他需要资源,少一样都很难开展工作。如果一个…

NIO-Selector 网络编程

目录 一、阻塞 & 非阻塞 1、阻塞 2、非阻塞 二、selector 1、连接和读取 2、处理客户端断开 3、处理消息的边界 4、ByteBuffer大小分配 三、多线程优化 四、NIO vs BIO 1、stream vs channnel 2、IO模型 阻塞IO 非阻塞IO 多路复用 异步IO模型 一、阻塞 &am…

使用OpenCV检测两张图片的关键点并计算关键点的描述子

#include <iostream> #include <opencv2/core/core.hpp> #include <opencv2/features2d/features2d.hpp> #include <opencv2/highgui/highgui.hpp>

每日一博 - 探索代码世界的地图 code iris

文章目录 地址特性安装 code iris如何使用 地址 https://plugins.jetbrains.com/plugin/7324-code-iris 特性 This plugin visualizes the modules, packages and classes of your project. It’s like a UML based “Google Maps” for your Source Code. Code Iris does…

zabbix代理服务器,高可用,监控java,windows,SNMP

zabbix 一&#xff1a;代理服务器1.设置 zabbix 的下载源&#xff0c;安装 zabbix-proxy2.部署数据库&#xff0c;要求 MySQL 5.7 或 Mariadb 10.5 及以上版本2.1.初始化数据库2.2.创建数据库并指定字符集2.3.创建 zabbix 数据库用户并授权 3.导入数据库信息4.修改 zabbix-prox…

前端项目请求天地图地址报错跨域;报错418

原因是因为转义字符&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 在请求回来的地址中 给他转化一下再次请求就OK了&#xff01;

oracle 使从表中随机取出一行记录数据

select * from (select rownum no, a.* from a where status_code AVAILABLE and id_type MEM and archive_flag N and rownum<1000000 ) where no >1000000-1 for update 随机取一条&#xff0c;锁住记录&#xff0c;操作完archive_flag Y不会再取。 四种解决…

【动态规划算法】第八题:931.下降路径最小和

&#x1f496;作者&#xff1a;小树苗渴望变成参天大树&#x1f388; &#x1f389;作者宣言&#xff1a;认真写好每一篇博客&#x1f4a4; &#x1f38a;作者gitee:gitee✨ &#x1f49e;作者专栏&#xff1a;C语言,数据结构初阶,Linux,C 动态规划算法\&#x1f384; 如 果 你…

PqQt实现对数据库的添加,删除,修改(完整过程演示)

在PyQt中设置的如下的窗口&#xff1a; 其中的图标是通过新建Resource File加入的 images里面的图片可以在这里面取&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1gOgBpW7s-ZWn_5aRoaYLkQ 提取码&#xff1a;jyjy 我们把这个文件取名为res.qrc 资源文件的使用可以…

基于matlab显示城市街区场景中配备立体摄像机的无人机开发视觉SLAM算法(附源码)

一、前言 视觉SLAM是计算摄像机相对于周围环境的位置和方向&#xff0c;同时映射环境的过程。开发可视化 SLAM 算法并评估其在不同条件下的性能是一项具有挑战性的任务。最大的挑战之一是生成相机传感器的地面实况&#xff0c;尤其是在户外环境中。使用仿真可以在各种场景和相…

HarmonyOS学习路之开发篇—数据管理(分布式文件服务)

分布式文件服务概述 分布式文件服务能够为用户设备中的应用程序提供多设备之间的文件共享能力&#xff0c;支持相同帐号下同一应用文件的跨设备访问&#xff0c;应用程序可以不感知文件所在的存储设备&#xff0c;能够在多个设备之间无缝获取文件。 基本概念 分布式文件 分布…