【NLP实战】NLTK工具包

news2025/11/16 15:03:09

“Natural Language Toolkit，自然语言处理工具包，在NLP领域中，最常使用的一个Python库。NLTK是一个开源的项目，包含：Python模块，数据集和教程，用于NLP的研究和开发。NLTK由Steven Bird和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发。NLTK包括图形演示和示例数据。其提供的教程解释了工具包支持的语言处理任务背后的基本概念。

一、工具下载

1. 方法1

pip install nltk

直接pip即可，但是现在安装的只是nltk的框架，并不是全部的工具包，每当我们使用某个工具包时，都需要去单独的下载：https://github.com/nltk/nltk_data
注：punkt插件

NOTICE: 下载后塞到：C:\Users\XXXX\AppData\Roaming\nltk_data路径下，没有nltk_data就创建一个，然后将压缩包解压后塞进去就好。

注意：最后的路径要和官网上的路径一致，不是全都塞入nltk_data路径下，例如：stopwords，先先建立corpora文件夹，再将stopwords解压后放到corpora路径下，即：C:\Users\XXXX\AppData\Roaming\nltk_data\corpora\stopwords

2. 方法2

nltk.download()

在下图所示的弹窗中，在All Packages中选择需要的工具包，点击左下角的download，等待右下角的红色进度条结束后则安装完成。
在这里插入图片描述

二、NLTK应用

1. 基本应用

import nltk
from nltk.tokenize import word_tokenize
from nltk.text import Text
str1 = "Today's weather is good, very windy and sunny, we have no classes in the afternoon, we have to play basketball tomorrow."
tokens = word_tokenize(str1)
tokens

在这里插入图片描述
将原文转换为小写:👇

tokens = [word.lower() for word in tokens]
tokens[:5]

创建Text对象，方便后续操作：

t = Text(tokens)   # 实例化

t.count('good')  # OUT： 1

t.index('good')  # OUT： 4

统计出现的词汇的前8个最多的词：👇

t.plot(8)

在这里插入图片描述

2. 停用词

from nltk.corpus import stopwords
stopwords.readme().replace('\n',' ')

查看都支持哪些语言的停用词：【没有汉语，扎不扎心~😄】

stopwords.fileids()

查看english的停用词有哪些：

stopwords.raw('english').replace('\n',' ')   # 把\n替换一下看着舒服一些

文本预处理：（改小写，去掉重复元素）

str1 = "Today's weather is good, very windy and sunny, we have no classes in the afternoon, we have to play basketball tomorrow."
tokens = word_tokenize(str1)
test_words = [word.lower() for word in tokens]
test_words_set = set(test_words)
test_words_set

在这里插入图片描述
查看原文中的单词与停用词表的交集（注：记得指定使用哪种语言的停用词表）👇

test_words_set.intersection(set(stopwords.words('english')))
# OUT： {'and', 'have', 'in', 'is', 'no', 'the', 'to', 'very', 'we'}

过滤掉停用词 (遍历test_words_set中的每个单词，如果不在停用词表中，就留下来)👇

filter = [w for w in test_words_set if (w not in stopwords.words('english'))]
filter

在这里插入图片描述

3. 词性标注

(1)基本操作

先安装第三个工具包（averaged~~~）

from nltk import pos_tag
tags = pos_tag(tokens)
tags

在这里插入图片描述

（2）分块操作

from nltk.chunk import RegexpParser
sentence = [('the','DT'),('little','JJ'),('yellow','JJ'),('dog','NN'),('died','VBD')]
grammer = "MY_NP: {<DT>?<JJ>*<NN>}"
cp = nltk.RegexpParser(grammer)
result = cp.parse(sentence)
print(result)   
# OUT： (S (MY_NP the/DT little/JJ yellow/JJ dog/NN) died/VBD)

result.draw()

在这里插入图片描述

（3）命名实体识别

先安装maxenet_ne_chunke工具包

from nltk import ne_chunk
sentence = "Edison went to Tsinghua University today."
print(ne_chunk(pos_tag(word_tokenize(sentence))))  # 分词，词性，识别

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/356619.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【NLP实战】NLTK工具包

一、工具下载

1. 方法1

NOTICE: 下载后塞到：C:\Users\XXXX\AppData\Roaming\nltk_data路径下，没有nltk_data就创建一个，然后将压缩包解压后塞进去就好。

2. 方法2

二、NLTK应用

1. 基本应用

2. 停用词

3. 词性标注

(1)基本操作

（2）分块操作

（3）命名实体识别

相关文章

「可信计算」助力TLS 传输更安全

洛谷P8601[蓝桥杯][2013年第四届真题]剪格子

【Java开发】Spring 12 ：Spring IOC控制反转和依赖注入（解决单接口多实现类调用）

分享112个HTML艺术时尚模板，总有一款适合您

Redis数据类型以及应用场景

40/365 javascript 严格检查模式字符串

Python数据容器、list列表、tuple元组、str字符串、数据容器（序列）切片、set集合、dict字典

从零开始 verilog 以太网交换机（三）MAC发送控制器的设计与实现

数据结构概述

【python】英雄联盟电竞观赛引擎掉落提示 CapsuleFarmerEvolved 「Webhook」「钉钉」

3｜物联网控制｜计算机控制-刘川来胡乃平版｜第1章:绪论｜青岛科技大学课堂笔记｜U1 ppt

sonarqube 生成pdf报错

Day894.加锁规则的一些问题 -MySQL实战

stable-diffusion-webui 安装使用

如何将Python打包后的exe还原成.py？

No.182# 技术管理之管理任务管理

QT mp3音乐播放器实现框架，Qt鼠标事件，网络编程，QSqlite,Json解析，HTTP请求等

C进阶：5.动态内存管理

帮助指令 man ，help及文档常用管理指令

[SSD科普之2] SATA、mSATA、M.2、M.2（NVMe）、PCIE固态硬盘接口详解