九、多项式朴素贝叶斯算法(Multinomial NB,Multinomial Naive Bayes)(有监督学习)

news2024/11/25 12:47:59

Multinomial Naive Bayes:用于多项式模型的Naive Bayes分类器

一、算法思路

多项式Naive Bayes分类器适用于离散特征分类(如文本分类中的字数)
多叉分布通常需要整数特征计数
不过,在实际应用中,分数计数(如 tf-idf)也可以起作用

二、官网API

官网API
导包:from sklearn.naive_bayes import MultinomialNB

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, force_alpha='warn', fit_prior=True, class_prior=None)

①平滑参数alpha

加法(拉普拉斯/利德斯通)平滑参数(设置 alpha=0 和 force_alpha=True 表示不平滑)
浮点数,默认为1.0
也可以传入array形式,array为各个特征值

具体官网详情如下:
在这里插入图片描述

使用方法

MultinomialNB(alpha=1.2)
或者
beyond = ['cat','dog']
multinomial = MultinomialNB(alpha=beyond)

②force_alpha

如果为False,且alpha小于1e-10,则会将alpha设置为1e-10,默认值
如果为True,alpha将保持不变
如果alpha太接近0,可能会导致数字错误

具体官网详情如下:
在这里插入图片描述

使用方法

MultinomialNB(force_alpha=True)

③fit_prior

是否学习类别先验概率。如果为False,将使用统一先验;默认值为True

具体官网详情如下:
在这里插入图片描述

使用方法

MultinomialNB(fit_prior=False)

④类别先验概率class_prior

class_prior类别的先验概率;如果指定,则不会根据数据调整先验概率;默认值为None

具体官网详情如下:
在这里插入图片描述

使用方法

beyond = ['cat','dog']
multinomial = MultinomialNB(class_prior=beyond)

⑤最终构建模型

MultinomialNB(alpha=1.2,force_alpha=True,fit_prior=False)

三、代码实现

①导包

这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X,最后一列是因变量Y

常用的划分数据集函数官网API:train_test_split
在这里插入图片描述
test_size:测试集数据所占比例
train_size:训练集数据所占比例
random_state:随机种子
shuffle:是否将数据进行打乱
因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建MultinomialNB模型

参数可以自己去尝试设置调整

multinomial = MultinomialNB(alpha=1.2,force_alpha=True,fit_prior=False)

⑤模型训练

就这么简单,一个fit函数就可以实现模型训练

multinomial.fit(X_train,y_train)

⑥模型评估

把测试集扔进去,得到预测的测试结果

y_pred = multinomial.predict(X_test)

看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy)

也可以通过score得分进行评估,计算的结果和思路都是一样的,都是看所有的数据集中模型猜对的概率,只不过这个score函数已经封装好了,当然传入的参数也不一样,需要导入accuracy_score才行,from sklearn.metrics import accuracy_score

score = multinomial.score(X_test,y_test)#得分
print(score)

⑦模型测试

拿到一条数据,使用训练好的模型进行评估
这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果,prediction = multinomial.predict(test)
看下预测结果是多少,是否和正确结果相同,print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = multinomial.predict(test)
print(prediction) #[2]

⑧保存模型

multinomial是模型名称,需要对应一致
后面的参数是保存模型的路径

joblib.dump(multinomial, './multinomial.model')#保存模型

⑨加载和使用模型

multinomial_yy = joblib.load('./multinomial.model')

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = multinomial_yy.predict(test)#带入数据,预测一下
print(prediction) #[4]

完整代码

模型训练和评估,不包含⑧⑨。

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)


multinomial= MultinomialNB(alpha=1.2,force_alpha=True,fit_prior=False)
multinomial.fit(X_train,y_train)

y_pred = multinomial.predict(X_test)
accuracy = np.mean(y_pred==y_test)
print(accuracy)
score = multinomial.score(X_test,y_test)#得分
print(score)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = multinomial.predict(test)
print(prediction) #[2]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1036638.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode刷题

一 【移除元素】 原题链接:27. 移除元素 - 力扣(LeetCode) 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用…

SLAM从入门到精通(机器人建模和仿真环境)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 很多同学学了ros,以为把publish、subscribe、消息、服务这些接口学好了就行。其实这是很大的误区。因为这些通信机制只是帮我们了解ros…

bean加载properties文件(spring)

1.开启Context命名空间 复制一下第二行的信息,然后粘贴一下,把粘贴过来的所有beans替换成context 2.使用context命名空间,加载指定的properties文件 3,使用#{}占位符读取加载的属性值 实际实例(在配置文件xml中写) 补充: 不加载系统属性的解释: 如果你在配置文件中配置的变量…

MyBatis友人帐之缓存

一、概述 1.1简介 什么是缓存 [ Cache ]? 存在内存中的临时数据。 将用户经常查询的数据放在缓存(内存)中,用户去查询数据就不用从磁盘上(关系型数据库数据文件)查询,从缓存中查询,从而提高查询效率&…

【SoC基础】硬件起源之晶体管的诞生

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

Go语言入门篇

目录 一、基础数据类型 1.1 变量的定义方式 1.2 用%T输出变量的类型 二、复合数据类型 2.1 数组 2.1.2、数组的遍历 2.1.3 数组传参 2.2. 切片slice 2.2.1. 初始化切片 2.2.2. append向切片中追加元素 2.2.3. 切片的截取 2.3. map 2.3.1. map初始化 2.3.2. 添加和…

CSS3有哪些新特性

CSS3 引入了许多新特性&#xff0c;以增强样式设计和页面布局的能力&#xff0c;提供更多的视觉效果和交互性。以下是一些 CSS3 中的新特性&#xff1a; 圆角边框&#xff08;Border Radius&#xff09;&#xff1a;圆角的边框&#xff0c;而不是传统的方形边框。 <!DOCTY…

GLTF编辑器告诉你凹凸贴图的作用

什么是凹凸贴图 凹凸贴图&#xff08;Bump Mapping&#xff09;是一种计算机图形学中的技术&#xff0c;用于在表面上模拟微小的凹凸形状&#xff0c;从而增加了物体的细节和真实感。它可以在不改变物体几何形状的情况下&#xff0c;通过修改光照的反应&#xff0c;使表面看起来…

华为云云耀云服务器L实例评测 | WebVR性能测试

随着最近几年Web技术的快速发展&#xff0c;Web3D和WebVR在网页端效果越来越好。 本文讲述如何在云耀云服务器L实例上部署WebVR服务器&#xff0c;服务器代码里添加一个3D模型&#xff0c;然后再使用本地浏览器作为客户端来查看模型加载和交互情况&#xff0c;并体验WebVR。 …

猴赛雷 ! 上次我见过这么厉害的安全测试实战演练还是上次!

01、概念介绍 1.1 xss XSS 攻击通常指的是通过利用网页开发时留下的漏洞&#xff0c;通过巧妙的方法注入恶意指令代码到网页&#xff0c;使用户加载并执行攻击者恶意制造的网页程序。这些恶意网页程序通常是 JavaScript&#xff0c;但实际上也可以包括 Java、 VBScript、Acti…

Python绘制二元函数图像

1 问题 利用python来解决绘制二元函数图像的问题。 2 方法 用文字描述解题思路&#xff0c;可配合一些图形以便更好的阐述。解决问题的步骤采用如下方式&#xff1a; 注意下述步骤全部使用(1)格式。 需要调用两个第三方库;Matplotlib、numpy编写代码绘制f(x,y)(sin(x)*sin(y))/…

云上亚运:所使用的高新技术,你知道吗?

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 公众号&#xff1a;网络豆云计算学堂 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a; 网络豆的主页​​​​​ 目录 前言 一.什么是云上亚运会 二.为什么要使用云…

Python字典的增删改查以及嵌套

嗨喽&#xff0c;大家好呀~这里是爱看美女的茜茜呐 &#x1f447; &#x1f447; &#x1f447; 更多精彩机密、教程&#xff0c;尽在下方&#xff0c;赶紧点击了解吧~ python源码、视频教程、插件安装教程、资料我都准备好了&#xff0c;直接在文末名片自取就可 字典 基础数…

Java客户端_Apache Curator操作Zookeeper

Curator是 Netflix公司开源的一套ZooKeeper客户端框架。和ZkClient一样&#xff0c;Curator解决了很多ZooKeeper客户端非常底层的细节开发工作&#xff0c;包括连接重连、反复注册Watcher和 NodeExistsException异常等&#xff0c;目前已经成为了Apache的顶级项目,是全世界范围…

基于若依ruoyi-nbcio增加flowable流程待办消息的提醒,并提供右上角的红字数字提醒(七)

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 接下来需要进行点击消息进行操作的动作。 1、首先先导入这个更新用户消息的一些菜单与权限&#xff0c;以…

python随手小练4

题目&#xff1a; 写一段python代码判断一句话是否是回文 具体操作&#xff1a; n input("请输入需判断的语句&#xff1a;") #因为input默认为字符串类型 if n[ : :-1] n[: :]:print("是回文") else:print("不是回文") 结果展示&#xff1a…

最新AI创作系统+ChatGPT网站源码+支持GPT4.0+支持ai绘画+支持国内全AI模型

一、AI创作系统 SparkAi系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美&#xff0c;可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作ChatGPT系统&#xff1f;小编这里写一个详细图文教程吧&#x…

华为云云耀云服务器L实例评测|centos7.9配置java环境变量安装tomcat 部署war和jar

文章目录 ⭐前言⭐配置jdk环境&#x1f496; 选择linux x64 archive&#x1f496; 云耀服务器控制台使用cloudShell ⭐配置tomcat环境&#x1f496; wget下载解压包&#x1f496; 运行tomcat&#x1f496; 控制台开放8080端口访问部署tomcat成功&#xff01; ⭐java运行jar⭐to…

VS Code 自动选择Python3 venv

我们使用VS Code写Python代码时&#xff0c;往往希望这个项目的依赖和其他项目或者全局的python环境隔离开&#xff0c;VS Code不像PyCharm那样自动完成&#xff0c;但是我们也可以快速的进行设置. 首先我们需要把python项目所在的目录添加为VS Code的Workspace 添加成works…

7.6 实现进程挂起与恢复

挂起与恢复进程是指暂停或恢复进程的工作状态&#xff0c;以达到一定的控制和管理效果。在 Windows 操作系统中&#xff0c;可以使用系统提供的函数实现进程的挂起和恢复&#xff0c;以达到对进程的控制和调度。需要注意&#xff0c;过度使用进程挂起/恢复操作可能会造成系统性…