Python 实现 NLP 的完整流程

news2025/4/17 4:12:05

💖 欢迎来到我的博客！ 非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。

🔍 博客内容包括：

Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。
大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Flink、Kafka、Redis、ECharts、Zookeeper等相关技术。
开发工具：分享常用开发工具（IDEA、Git、Mac、Alfred、Typora等）的使用技巧，提升开发效率。
数据库与优化：总结MySQL及其他常用数据库技术，解决实际工作中的数据库问题。
Python与大数据：专注于Python编程语言的深度学习，数据分析工具（如Pandas、NumPy）和大数据处理技术，帮助您掌握数据分析、数据挖掘、机器学习等技术。
数据结构与算法：总结数据结构与算法的核心知识，提升编程思维，帮助您应对大厂面试挑战。

🌟 我的目标：持续学习与总结，分享技术心得与解决方案，和您一起探索技术的无限可能！在这里，我希望能与您共同进步，互相激励，成为更好的自己。

📣 欢迎订阅本专栏，与我一起在这个知识的海洋中不断学习、分享和成长！💻🚀

📍版权声明：本博客所有内容均为原创，遵循CC 4.0 BY-SA协议，转载请注明出处。

1. 安装和导入必要的库

2. 文本数据准备

3. 文本预处理

3.1 小写化

3.2 分词（Tokenization）

3.3 去除停用词

3.4 词干提取（Stemming）

4. 特征提取

5. 训练测试数据集划分

6. 训练模型

7. 评估模型

8. 模型预测

9. 总结

1. 安装和导入必要的库

首先，确保已安装必要的 NLP 库：

pip install numpy pandas matplotlib scikit-learn nltk spacy

然后导入必要的 Python 库：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, confusion_matrix
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import spacy

2. 文本数据准备

在实际应用中，你可能需要从文件、数据库或网页中获取文本数据。这里我们以一个简单的文本数据集为例：

# 示例文本数据
data = {
    'text': [
        "I love programming in Python.",
        "Python is a great language for machine learning.",
        "Natural language processing is fun!",
        "I enjoy solving problems using code.",
        "Deep learning and NLP are interesting fields.",
        "Machine learning and AI are revolutionizing industries."
    ],
    'label': [1, 1, 1, 0, 1, 0]  # 1表示正面情感，0表示负面情感
}

df = pd.DataFrame(data)
print(df)

3. 文本预处理

文本预处理是 NLP 的关键步骤，通常包括：分词、去除停用词、词干提取和小写化。

3.1 小写化

将文本中的所有字母转换为小写，确保词汇的一致性。

# 小写化
df['text'] = df['text'].apply(lambda x: x.lower())

3.2 分词（Tokenization）

分词是将一段文本分割成一个个单独的词。

nltk.download('punkt')  # 下载 punkt 分词器

# 分词
df['tokens'] = df['text'].apply(word_tokenize)
print(df['tokens'])

3.3 去除停用词

停用词是一些常见但不携带实际信息的词，如 "the", "is", "and" 等。我们需要去除这些词。

nltk.download('stopwords')  # 下载停用词库

stop_words = set(stopwords.words('english'))

# 去除停用词
df['tokens'] = df['tokens'].apply(lambda x: [word for word in x if word not in stop_words])
print(df['tokens'])

3.4 词干提取（Stemming）

词干提取是将词语还原为其基本形式（词干）。例如，将“running”还原为“run”。

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

# 词干提取
df['tokens'] = df['tokens'].apply(lambda x: [stemmer.stem(word) for word in x])
print(df['tokens'])

4. 特征提取

文本数据无法直接用于机器学习模型，因此需要将其转换为数字特征。常见的特征提取方法是 TF-IDF（Term Frequency-Inverse Document Frequency）。

# 使用 TF-IDF 向量化文本
vectorizer = TfidfVectorizer()

# 将文本数据转换为 TF-IDF 特征矩阵
X = vectorizer.fit_transform(df['text'])

# 查看转换后的 TF-IDF 特征矩阵
print(X.toarray())

5. 训练测试数据集划分

将数据集分成训练集和测试集，通常是 80% 训练集和 20% 测试集。

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, df['label'], test_size=0.2, random_state=42)

print(f"训练集大小: {X_train.shape}")
print(f"测试集大小: {X_test.shape}")

6. 训练模型

我们使用 朴素贝叶斯（Naive Bayes） 模型来训练数据。朴素贝叶斯是一种常用的分类算法，适用于文本分类任务。

# 创建并训练模型
model = MultinomialNB()
model.fit(X_train, y_train)

7. 评估模型

训练好模型后，我们需要用测试集来评估模型的性能。主要评估指标包括准确率和混淆矩阵。

# 使用测试集进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.4f}")

# 显示混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("混淆矩阵:")
print(conf_matrix)

# 可视化混淆矩阵
plt.matshow(conf_matrix, cmap='Blues')
plt.title("Confusion Matrix")
plt.xlabel('Predicted')
plt.ylabel('True')
plt.colorbar()
plt.show()

8. 模型预测

使用训练好的模型对新的文本数据进行预测。

# 新文本数据
new_text = ["I love learning about AI and machine learning."]

# 文本预处理
new_text = [text.lower() for text in new_text]
new_tokens = [word_tokenize(text) for text in new_text]
new_tokens = [[stemmer.stem(word) for word in tokens if word not in stop_words] for tokens in new_tokens]
new_text_clean = [' '.join(tokens) for tokens in new_tokens]

# 特征提取
new_features = vectorizer.transform(new_text_clean)

# 预测
prediction = model.predict(new_features)
print(f"预测标签: {prediction[0]}")