自然语言处理 (NLP) 是一门研究如何让计算机程序理解人类语言的学科。NLTK (Natural Language Toolkit) 是一个 Python 包,可以用于 NLP 的应用开发。
很多数据都是非结构化的,而且包含可以被人类读懂的文本。在用编程方式分析这些数据之前,我们需要对它们进行预处理。在本教程中,我们将首先了解可以使用 NLTK 进行的文本预处理的任务类型,这样你就可以准备好在未来的项目中使用它们。我们还将学习如何进行一些基本的文本分析和创建可视化效果。
这里列列举 NLTK 常用的处理文本的方法。
文章目录
- Python 的 NLTK
- 标记化 Tokenizing
- 过滤停用词 Stop Words
- 词干提取 Stemming
- 标记词性 Tagging Parts of Speech
- 词形还原 Lemmatizing
- 分块包含 Chunking
- 分块排除 Chinking
- 命名实体识别 Using Named Enti