基于多种机器学习算法的短信垃圾分类模型

news2024/11/18 17:42:42

文章目录

      • ==有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主==
      • 导入第三方库
      • 读取数据
      • 数据预处理
      • 数据分析与可视化
      • 机器学习建模
      • 贝叶斯
      • 逻辑回归
      • 支持向量机
      • 随机森林
      • XGBoost
      • 总结
      • 每文一语

有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主

导入第三方库

import warnings  # 导入警告库
warnings.filterwarnings("ignore")  # 忽略所有警告信息

import string  # 导入字符串处理模块
import numpy as np  # 导入NumPy库,用于数组和矩阵运算
import pandas as pd  # 导入Pandas库,用于数据分析
import re  # 导入正则表达式模块
import matplotlib.pyplot as plt  # 导入matplotlib库,用于数据可视化
import seaborn as sns  # 导入Seaborn库,用于数据可视化
from nltk.corpus import stopwords  # 从NLTK库导入停用词
from plotly import graph_objs as go  # 导入Plotly库的图形对象
from plotly import express as px  # 导入Plotly Express模块,用于简化数据可视化
from plotly import figure_factory as ff  # 导入Plotly的图形工厂模块
from collections import Counter  # 导入Counter模块,用于计数
from PIL import Image  # 导入Python Imaging Library,用于处理图像
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator  # 导入词云生成模块
# ! pip install bs4  # 安装BeautifulSoup4库
from bs4 import BeautifulSoup  # 导入BeautifulSoup库,用于解析HTML和XML

from sklearn.model_selection import train_test_split  # 导入数据划分模块
from sklearn.preprocessing import LabelEncoder  # 导入标签编码器
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score  # 导入评估指标模块
from sklearn.linear_model import LogisticRegression  # 导入逻辑回归模型
from sklearn import svm  # 导入支持向量机模块
from sklearn.ensemble import RandomForestClassifier  # 导入随机森林分类器
from sklearn.ensemble import GradientBoostingClassifier  # 导入梯度提升分类器
from sklearn.neighbors import KNeighborsClassifier  # 导入K近邻分类器
from sklearn.feature_extraction.text import CountVectorizer  # 导入计数向量化模块
from sklearn import metrics  # 导入评估指标模块
from sklearn.naive_bayes import MultinomialNB  # 导入多项式朴素贝叶斯分类器
from sklearn.feature_extraction.text import CountVectorizer  # 导入计数向量化模块(重复)

from string import punctuation  # 导入标点符号
from nltk.tokenize.toktok import ToktokTokenizer  # 导入Toktok分词器
from nltk import pos_tag  # 导入词性标注模块
from nltk.corpus import wordnet  # 导入词汇数据库
from nltk.stem.porter import PorterStemmer  # 导入Porter词干提取器
from nltk.corpus import stopwords  # 从NLTK库导入停用词(重复)

primary_blue = "#496595"  # 定义主要的蓝色十六进制代码
primary_blue2 = "#85a1c1"  # 定义第二种主要的蓝色十六进制代码
primary_blue3 = "#3f4d63"  # 定义第三种主要的蓝色十六进制代码
primary_grey = "#c6ccd8"   # 定义主要的灰色十六进制代码

读取数据

在这里插入图片描述

数据预处理

在这里插入图片描述

数据分析与可视化

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

机器学习建模

贝叶斯

在这里插入图片描述在这里插入图片描述

逻辑回归

在这里插入图片描述在这里插入图片描述

支持向量机

在这里插入图片描述在这里插入图片描述

随机森林

在这里插入图片描述
在这里插入图片描述

XGBoost

在这里插入图片描述在这里插入图片描述

总结

本项目是一个基于多种机器学习的自然语言处理项目,通过对邮件的文本进行预处理,然后分词,转换为词向量,在进行多维度的EDA分析,最终采用多种机器学习的模型算法对其进行建模,评估。通过分类报告,ROC曲线,AUC面积,混淆矩阵,以及在线验证程序进行展示,来凸显出大数据和人工智能算法结合的语言判别模型的优势

每文一语

业精于勤荒于嬉

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1955509.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阅读笔记2:董超底层视觉之美|底层视觉是什么?

原文链接:https://mp.weixin.qq.com/s/9EQNwXqCM6odwe5n9dOrmw 本文针对底层视觉给出了一个大致的定义,然后通过底层视觉与人工智能、计算机视觉、图像处理等相关概念的对比来对底层视觉做了进一步的界定。 1. 底层视觉是什么 以像素级图像为输入、处…

利用小爱同学与点灯科技+esp8266+舵机,制作智能关灯神器:小白也可制作,米家同步设备可实现多部手机进行控制。(亲测有用)

利用小爱同学与点灯科技,制作智能关灯神器:小白也可制作,米家同步设备可实现多部手机进行控制。 文章目录 利用小爱同学与点灯科技,制作智能关灯神器:小白也可制作,米家同步设备可实现多部手机进行控制。1.…

vue3 快速入门 (六) : vue中调用HTTP请求

1. 本文环境 Vue版本 : 3.4.29Node.js版本 : v20.15.0系统 : Windows11 64位IDE : VsCode 1.91.0 2. 访问HTTP 在Vue中,访问HTTP,可以使用axios第三方库。 axios 是一个基于 promise 的网络请求库,可以用于浏览器和 node.js。 axios使用简…

一步步理清开源路径规划导航引擎GraphHopper

一步步理清开源路径规划导航引擎GraphHopper,学习应用 GraphHopper简介 源码用 Java 编写,开发人员可以通过 Maven 轻松上手。可以用作** Java 库**来计算两个或多个点之间路线的距离、时间、逐向指示和许多道路属性。可以用作独立的 Web 服务器来计算…

redis的学习

! 快速入门 安装 1.使用docker安装redis docker pull redisdocker run -d --name redis -p 6379:6379 --restart unless-stopped -v /etc/docker/Redis/data:/data -v /etc/docker/Redis/conf/redis.conf:/usr/local/etc/redis/redis.conf redis redis-server /usr/local/e…

Python 百题(实战快速掌握语法)_2(链表)

目录 实现链表类 挑战介绍 挑战内容 挑战要求 示例代码 版权说明 参考答案 代码分析: Node 类 LinkedList 类 方法分析 总结 删除链表的重复项 挑战介绍 挑战内容 挑战要求 示例代码 版权说明 参考答案 代码分析: 寻找链表倒数第 k…

算法笔记--知识点记录2

enumerate函数 enumerate 是 Python 中的一个内置函数,它用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,通常用在 for 循环当中。 使用 enumerate 可以同时获得每个元…

什么是C++活锁?

听过太多的死锁(Deadlock),今天来聊聊什么是C活锁(Livelock)。 C中的活锁(Livelock)并非特指C语言本身的一个概念,而是并发编程和操作系统中可能遇到的一种现象。活锁指的是任务或者…

数据库 执行sql添加删除字段

添加字段: ALTER TABLE 表明 ADD COLUMN 字段名 类型 DEFAULT NULL COMMENT 注释 AFTER 哪个字段后面; 效果: 删除字段: ALTER TABLE 表明 DROP COLUMN 字段;

【C++】C++入门知识(上)

好久不见&#xff0c;本篇介绍一些C的基础&#xff0c;没有特别的主题&#xff0c;话不多说&#xff0c;直接开始。 1.C的第一个程序 C中需要把定义文件代码后缀改为 .cpp 我们在 test.cpp 中来看下面程序 #include <stdio.h> int main() {printf("hello world\n…

Linux文件与相关函数的知识点3

main函数参数 int main(int argc,char *argv[]) { return 0; } C语言规定了main函数的参数只能有两个&#xff0c;一个是argc,一个是argv并且&#xff0c;argc只能是整数&#xff0c;第二个必须是指向字符 串的指针数组。 argc: 参数表示命令行中参数的个数&#xff0…

【建议收藏】CTF网络安全夺旗赛刷题指南(非常详细)零基础入门到精通,收藏这一篇就够了

在数字化浪潮汹涌澎湃的今天&#xff0c;网络安全已成为国家、企业和个人无法忽视的重要议题。为了挖掘和培养网络安全人才&#xff0c;一场场紧张刺激、充满智慧的CTF&#xff08;Capture The Flag&#xff09;安全竞赛应运而生。 一、CTF安全竞赛简介 CTF安全竞赛&#xff0c…

鸿蒙仓颉语言之【安全密码库crypto4cj】功能示例

功能示例 MD5使用样例 from crypto4cj import md5cj.*main() { var md: Array<UInt8> Array<UInt8>(16, item: 0)var result: String String(Array<Char>(33, item: 0))var str: String "helloworld"var ret md5(str.toUtf8Array(), md)r…

lua 游戏架构 之 游戏 AI (六)ai_auto_skill

定义一个为ai_auto_skill的类&#xff0c;继承自ai_base类。ai_auto_skill类的目的是在AI自动战斗模式下&#xff0c;根据配置和条件自动选择并使用技能。 lua 游戏架构 之 游戏 AI &#xff08;一&#xff09;ai_base-CSDN博客文章浏览阅读379次。定义了一套接口和属性&#…

ASCII码图片

在许多计算机语言中&#xff0c;比较字母、字符串大小时&#xff0c;都会运用到ASCII码。而这是很多创客容易遗忘的&#xff0c;今天发给大家ASCII码大全图片&#xff0c;记得收藏

Redis是多线程还是单线程?

文章目录 1、用户态和内核态2、阻塞IO3、非阻塞IO4、IO多路复用4.1 select4.2 poll4.3 epoll4.4 epoll中的ET和LT4.5 epoll的服务端流程 5、信号驱动6、异步IO7、对比8、Redis是单线程的吗&#xff1f;9、单线程多线程网络模型变更 1、用户态和内核态 1、ubuntu和Centos 都是Li…

Golang 知识结构图

总结Go的入门知识结构&#xff0c;如下图所示&#xff1a;

(史上最全的)Spring6框架学习教程

一、什么是Spring 1.javaWeb框架发展史 1、ServletJSPJavaBean(跳转页面、业务逻辑判断、数据库查询) 2、MVC三层架构(M Model pojo(User)V-view(USP)C-(controller-servlet)) (web-跳转页面service-业务逻辑判断 new UserService0;dao-数据库查询 new UserDao(); ) 3、使用…

【C++】—— 类和对象(一)

【C】—— 类和对象&#xff08;一&#xff09; 1、类的定义1.1、类定义1.1.1、类定义格式1.1.2、成员变量的标识1.1.3、C 中的 s t r u c t struct struct1.1.4、C 中的内联函数1.1.5、总结 1.2、访问限定符1.3、类域 2、实例化2.1、实例化的概念2.2、对象大小2.2.1、对象的大…

黑神话悟空游戏什么时候上线能玩 黑神话悟空是哪个公司 苹果电脑能玩黑神话悟空吗

《黑神话&#xff1a;悟空》是一款以中国神话为背景的动作角色扮演游戏。故事取材于中国古典小说“四大名著”之一的《西游记》。 你将扮演一位“天命人”&#xff0c;为了探寻昔日传说的真相&#xff0c;踏上一条充满危险与惊奇的西游之路。 一、《黑神话&#xff1a;悟空》什…