【机器学习】文本多分类

news2024/11/24 0:02:44

声明:这只是浅显的一个小试验,且借助了AI。使用的是jupyter notebook,所以代码是一块一块,从上往下执行的

知识点:正则删除除数字和字母外的所有字符、高频词云、混淆矩阵

参考:使用python和sklearn的中文文本多分类实战开发_文本多标签分类 用二分类器做 python 数据集中文_-派神-的博客-CSDN博客


数据:【免费】初步的文本多分类小实验资源-CSDN文库

数据介绍:训练集train.csv中有120000条数据,测试集test.csv中有7600条数据。两个文件中记录的是新闻,均只有3列,第1列记录了新闻的种类(world,sports,sci/Tech,Business,记录与class.txt中),总共有4类[3,4,2,1],且每一类的占比均为25%;第2列记录了新闻标题,第3列记录了新闻的大致内容。

数据总体情况

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re # 正则匹配
plt.rcParams['font.sans-serif'] = ['STKaiTi']
plt.rcParams['axes.unicode_minus']=False

# 数据的情况
dfTrain = pd.read_csv('train.csv',header = None)
dfTest = pd.read_csv('test.csv',header = None)
print(f'训练集数据量:{len(dfTrain)}')
print(f'测试集数据量:{len(dfTest)}')
print(f'数据:{dfTrain.head(4)}')

数据预处理

空值与重复值

没有空值与重复值

# 检查是否有空值
print(f'数据情况{dfTrain.info()}')
print(f'第1列空值:{dfTrain.iloc[0].isnull().sum()}')
print(f'第2列空值:{dfTrain.iloc[1].isnull().sum()}')
print(f'第3列空值:{dfTrain.iloc[2].isnull().sum()}')
# 重复值分析与处理
print(f'重复值:{dfTrain.duplicated(keep=False).sum()}')

重命名列名

由于数据中没有列名,所以,读取的时候header=None(见第一段pd.read_csv),为了操作的方便,添加列名['category','title','content']。

# 列重命名
dfTrain.columns = ['category','title','content']
dfTest.columns = ['category','title','content']

删除除数字和英文的所有字符

为了展示出高频词的词云以及后续的处理,这里使用正则表达式删除数据中第2、3列中除数字和字母外的所有字符,且各词汇之间采用空格切分。

# 在a-z A-Z 0-9范围外的字符替换为空格字符
def remove_punctuation(text):
    cleaned_text = re.sub(r'[^a-zA-Z0-9]', ' ', text)
    return cleaned_text
# 删除除数字和英文的所有字符
dfTrain['title'] = dfTrain['title'].apply(remove_punctuation)
dfTest['title'] = dfTest['title'].apply(remove_punctuation)
dfTrain['content'] = dfTrain['content'].apply(remove_punctuation)
dfTest['content'] = dfTest['content'].apply(remove_punctuation)

补充

我这个试验只采用了第2列title的内容,没有用第3列content 里的内容,预测精度会有所下降。

这里呢其实还是可以有其他操作的。比如将第2列和第3列合并成新的一列,然后用新的一列作为输入。还可以删除英文里面的停用词,减少无意义的高频词。

不同分类对数据进行可视化

# 训练集种类
print(f'种类:{dfTrain.iloc[:,0].unique()}')
# 训练集各类别数据量
d= {'类别':dfTrain['category'].value_counts().index,'数量':dfTrain['category'].value_counts()}
Num = pd.DataFrame(data = d).reset_index(drop = True)

# 柱状图
plt.figure(1,figsize = (10,6),dpi = 400)
plt.title('训练集类别数据量',fontsize = 15)  # 标题
labels = ['World','Sports','Business','Sci/Tech']
colors = ['skyblue', 'green', 'orange','red']
plt.bar(labels,Num['数量'], width=0.6,color=colors)
# 添加数据标签
for i in range(len(Num)):
    plt.text(labels[i], Num['数量'][i]+0.01, f'{Num["数量"][i]}', ha='center',rotation = 0,fontsize = 15)

plt.xlabel('种类',fontsize = 15)
plt.ylabel('数量',fontsize = 15)
plt.show()


# 测试集种类
print(f'种类:{dfTest.iloc[:,0].unique()}')
# 测试集各类别数据量
d2= {'类别':dfTest['category'].value_counts().index,'数量':dfTest['category'].value_counts()}
Num2 = pd.DataFrame(data = d2).reset_index(drop = True)


# 柱状图
plt.figure(2,figsize = (10,6),dpi = 400)
plt.title('测试集类别数据量',fontsize = 15)  # 标题
labels = ['World','Sports','Business','Sci/Tech']
colors = ['skyblue', 'green', 'orange','red']
plt.bar(labels,Num2['数量'], width=0.6,color=colors)
# plt.xlabel(Num['类别'])
# 添加数据标签
for i in range(len(Num2)):
    plt.text(labels[i], Num2['数量'][i]+0.05, f'{Num2["数量"][i]}', ha='center',rotation = 0,fontsize = 15)
plt.xlabel('种类',fontsize = 15)
plt.ylabel('数量',fontsize = 15)
plt.show()

高频词词云

 画出训练集中,4种分类的新闻标题的top10的高频词云,需要借助wordcloud库

import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import defaultdict

# 创建一个存储每个类别文本的字典
category_text = defaultdict(str)

# 将每个类别的文本合并到对应的字典项中
for category, sentence in zip(dfTrain['category'], dfTrain['title']):
    category_text[category] += sentence + ' '

# 生成词云图像并绘制
for category, text in category_text.items():
    wordcloud = WordCloud(width=800, height=400,max_words=10, background_color="white").generate(text)
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation="bilinear")
    plt.title(f'Word Cloud for Category {category}',fontsize = 30)
    plt.axis("off")
    plt.show()

 

         根据我们事先的得知的数字与类别的对应关系:1-World,2-Sports,3-Business,4-Sci/Tech,观察每种类别的高频词云图,可以看出对于world,常出现诸如Iraq、US等国家名称,对于Sports类,常出现Win,Game等相关词汇,对于Business类,常出现deal,oil,price等相关词汇,对于Sci/Tech类,常出现MicroSoft,Intel等相关词汇。因此,每一类的高频词云是符合当前类的特征的。

模型预测

思路:为了能使模型能够对文本进行预测,首先需要使用TF-IDF向量化器进行文本特征提取(至于原理什么的,我不知道,AI生成的)。然后再次基础上借助预测模型进行多分类预测,在训练集中训练,测试集中测试

使用朴素贝叶斯

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# 划分x,y
X_train = dfTrain['title']
X_test = dfTest['title']
y_train  = dfTrain['category']
y_test  = dfTest['category']
# 文本特征提取,使用词袋模型
vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)
# 训练朴素贝叶斯分类器
clf = MultinomialNB()
clf.fit(X_train_vec, y_train)
# 预测
y_pred = clf.predict(X_test_vec)
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
# 输出分类报告
print(classification_report(y_test, y_pred))

下图为朴素贝叶斯的预测结果,总体的预测准确率为0.87。但是对于不同类别的预测效果也不同,可以看出朴素贝叶斯对类别2的预测效果最好的,精确度、召回率、f1分数均能达到0.9以上 

画出混淆矩阵 

from sklearn.metrics import confusion_matrix
import seaborn as sns

# 计算混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)

# 绘制混淆矩阵
plt.figure(figsize=(8, 6),dpi = 400)
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=clf.classes_, yticklabels=clf.classes_)
plt.xlabel('预测')
plt.ylabel('实际')
plt.title('混淆矩阵')
plt.show()

下图为朴素贝叶斯预测的混淆矩阵。可以看出对于朴素贝叶斯模型来说,容易将第1类错误预测为第3类,第2类错误预测为第1类,第3类错误预测为第1、4类,第4类错误预测为第3类。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1015622.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JDK9特性——语法、API的改变

文章目录 语法层次改变钻石操作符号语法升级try结构语法升级下划线命名标识符的使用限制 API层次的改变接口中的私有方法String底层存储结构变化Stream新增4个APIInputStream新增transferTo方法只读集合创建 语法层次改变 钻石操作符号语法升级 钻石操作符,就是我…

LeetCode(力扣)738. 单调递增的数字Python

LeetCode738. 单调递增的数字 题目链接代码 题目链接 https://leetcode.cn/problems/monotone-increasing-digits/description/ 代码 class Solution:def monotoneIncreasingDigits(self, n: int) -> int:strNum str(n)flag len(strNum)for i in range(len(strNum) - …

ffmpeg6.0编译(NDK)

ffmpeg 6.0 支持vulkan 需要手动安装Vulkan 并将include里面的vk_video 和 vulkan 拷贝到 android-ndk-r25c/toolchains/llvm/prebuilt/linux-x86_64/sysroot/usr/include/ vulkan 下载 cp -r vk_video $NDK_HOME/toolchains/llvm/prebuilt/linux-x86_64/sysroot/usr/include/…

前端vue3分享——项目封装axios、vite使用env环境变量

文章目录 ⭐前言⭐vue3封装统一的axios请求💖 请求拦截器 ⭐vue3使用env环境变量💖 vite env变量规则💖 vite.config获取env参数 ⭐总结💖 编码sliod原则 ⭐结束 ⭐前言 大家好,我是yma16,本文分享关于前端…

iOS开发之编译OpenSSL静态库

项目审查发现OpenSSL1.0.2d有漏洞,所以需要升级更新OpenSSL版本,借此机会,记录一下编译OpenSSL静态库的流程。 Xcode使用的是14.2,OpenSSL使用的是1.0.2u、1.1.1u,由于是对两个不同版本进行的编译操作,所以…

企业架构LNMP学习笔记55

MongoDB的安装和配置: 1、安装方式介绍: yum安装方式: 手动通用安装方式: 2、二进制可执行安装: 下载路径:Download MongoDB Community Server | MongoDB 下载mongodb的源码包进行安装。 1)…

220kV 及以下避雷器直流泄露电流试验

试验步骤: 1) 记录试验现场的环境温度、 湿度。 2) 对被试设备充分放电后可靠接地。 3) 试验前正确设置安全围栏和悬挂标示牌。 4) 做上节避雷器直流试验时, 根据图进行试验接线, 微安表的一端夹子接在上节避雷器的下端, 另一端安装在高压直流发生器的电压输出端, 上节避雷…

cgroup限制内存

首先简单介绍下cgroup限制cpu的使用率&#xff0c;写一段代码如下&#xff1a; #include <stdio.h> #include <pthread.h>int main() { int i 0; for(;;)i; return 0; }很明显&#xff0c;这里面是单核拉满&#xff0c;然后top看下进程的cpu使用率&#xff0c;如…

【深度学习】Pytorch 系列教程(十四):PyTorch数据结构:6、模块(Module):前向传播

目录 一、前言 二、实验环境 三、PyTorch数据结构 0、分类 1、张量&#xff08;Tensor&#xff09; 2、张量操作&#xff08;Tensor Operations&#xff09; 3、变量&#xff08;Variable&#xff09; 4、数据集&#xff08;Dataset&#xff09; 5、数据加载器&#x…

科学计算器网站Desmos网站

科学计算器网站Desmos网站 有时在学习工作或者生活中&#xff0c;需要用到计算问题&#xff0c;但由于电脑上没有安装相应的专业软件&#xff0c;难以计算有的问题&#xff0c;因而&#xff0c;本文推荐一种免费的在线计算网站Desmos。 一、Desmos网址 Desmos官网的地址为&a…

[管理与领导-96]:IT基层管理者 - 扩展技能 - 5 - 职场丛林法则 -10- 七分做,三分讲,完整汇报工作的艺术

目录 前言&#xff1a; 一、汇报工作的重要性 1.1 汇报的重要性&#xff1a;汇报工作是工作重要的一环 1.2 向上司汇报工作状态具有重要的意义 1.2 汇报工作存在一些误解 1.3 汇报工作中的下错误做法 1.4 汇报工作与做实际工作的关系 二、工作汇报的内容与艺术 2.1 工…

【深度学习】- NLP系列文章之 1.文本表示以及mlp来处理分类问题

系列文章目录 1. 文本分类与词嵌入表示&#xff0c;mlp来处理分类问题 2. RNN、LSTM、GRU三种方式处理文本分类问题 3. 评论情绪分类 还是得开个坑&#xff0c;最近搞论文&#xff0c;使用lstm做的ssd的cache prefetching&#xff0c;意味着我不能再划水了。 文章目录 系列文章…

js创建动态key的对象ES6和ES5的方法

前提&#xff1a; 有个场景&#xff0c;循环数组&#xff0c;根据每一项的值&#xff0c;往一个数组中push一个新对象&#xff0c;对象的key不同要从数组中获取 情况解析&#xff1a;push没有什么问题&#xff0c;问题就是创建一个动态key的对象。下面就说一下如何以参数为key…

【pwn入门】基础知识

声明 本文是B站你想有多PWN和星盟安全学习的笔记&#xff0c;包含一些视频外的扩展知识。 工具和命令 常见的工具 pwntools安装checksec安装pwndbg的安装和gdb使用ubuntu没有使用全部磁盘空间 sudo lvextend -l 100%FREE /dev/mapper/ubuntu--vg-ubuntu--lv sudo resize2f…

Vue中一键批量注册全局组件

文件目录如下 1. component文件夹中编写所有的公共组件 注意&#xff1a;之后一键注册的全局组件名就是每个公共组件&#xff08;xxx.vue&#xff09;文件的文件名 xxx 2. plugins/components.js中批量注册组件 import Vue from "vue"let requireFile require.con…

关于阿里云服务器Ubuntu编译jdk8中遇到的坑及解决方案

关于阿里云服务器Ubuntu系统安装jdk8中遇到的坑及解决方案 记录一下困扰了很多天、到处查资料最后终于成功安装的过程 关于阿里云服务器无法登录的问题 基本反馈是这样的&#xff1a; 如果你添加了ip之后仍然登不进去&#xff0c;有一种方法是直接从第三个选项进去登录之后修…

十天学完基础数据结构-第一天(绪论)

1. 数据结构的研究内容 数据结构的研究主要包括以下核心内容和目标&#xff1a; 存储和组织数据&#xff1a;数据结构研究如何高效地存储和组织数据&#xff0c;以便于访问和操作。这包括了在内存或磁盘上的数据存储方式&#xff0c;如何将数据元素组织成有序或无序的集合&…

浅谈C++|多态篇

1.多态的基本概念 多态是C面向对象三大特性之一多态分为两类 1. 静态多态:函数重载和运算符重载属于静态多态&#xff0c;复用函数名 2.动态多态:派生类和虚函数实现运行时多态 静态多态和动态多态区别: 静态多态的函数地址早绑定–编译阶段确定函数地址 动态多态的函数地址晚绑…

浅谈C++|类的继承篇

引子&#xff1a; 继承是面向对象三大特性之一、有些类与类之间存在特殊的关系&#xff0c;例如下图中: 我们发现&#xff0c;定义这些类时&#xff0c;下级别的成员除了拥有上一级的共性&#xff0c;还有自己的特性。 这个时候我们就可以考虑利用继承的技术&#xff0c;减少…

Learn Prompt-人工智能基础

什么是人工智能&#xff1f;很多人能举出很多例子说这就是人工智能&#xff0c;但是让我们给它定义一个概念大家又觉得很难描述的清楚。实际上&#xff0c;人工智能并不是计算机科学领域专属的概念&#xff0c;在其他学科包括神经科学、心理学、哲学等也有人工智能的概念以及相…