【Python机器学习】朴素贝叶斯分类的讲解及预测决策实战(图文解释 附源码)

news2025/3/14 10:32:05

需要代码请点赞关注收藏后评论区留言私信~~~

朴素贝叶斯分类

朴素贝叶斯(naïve Bayes)分类是基于贝叶斯定理与特征条件独立假定的分类方法。

设试验E的样本空间为S,A为E的事件,B_1,B_2,⋯,B_n为S的一个划分,且P(A)>0,P(B_i)>0(i=1,2,…,n),则贝叶斯公式为:

P(B_i)称为先验概率,即分类B_i发生的概率,它和条件概率P(A│B_i)可从样本集中估计得到。通过贝叶斯公式就可以找到使后验概率P(B_i│A)最大的B_i。即A事件发生时,最有可能的分类B_i。

设样本集为S={s_1,s_2,…,s_m},每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i。标签y_i有k种取值{y_i^(1),y_i^(2),…,y_i^(k)}。

朴素贝叶斯法首先基于特征条件独立假定,从样本集中学习到先验概率和条件概率,然后基于它们,对给定的测试样本x,利用贝叶斯公式求出使后验概率最大的预测值y。y可看作x所属分类的编号。

特征条件独立假定,是指假定样本的各个特征是相互独立的,互不关联。这个假定显然是不符合实际的,但它可以在大数据量、大特征量的情况下极大简化计算,使得贝叶斯算法实际可行。从实际应用情况来看,朴素贝叶斯分类也取得了不错的效果。 

1:多项式朴素贝叶斯分类器

多项式朴素贝叶斯分类器假设条件概率P(A│B_i)服从多项式分布。多次抛硬币实验中,出现指定次数正面(或反面)的概率是二项分布。将二项分布中的两种状态推广到多种状态,就得到了多项式分布。

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)
fit(X, y, sample_weight=None)
predict(X)
predict_proba(X)

其中,alpha称为平滑值,它用来避免在估计条件概率时出现值为0的情况,它的取值大于0,当等于1时,称为Laplace平滑。

当假定特征取值符合0-1分布时,多项式分类器 退化为伯努利朴素贝叶斯分类器,即伯努利朴素分类器中,特征只能取两个值,它在某些场合下比多项式分类器效果更好一些,使用伯努利分类器之前,需要先将非二值的特征转化为二值的特征

部分代码如下  用来预测相亲问题 

# 训练样本集
blind_date_X = [ [35, 176, 0, 20000],
                 [28, 178, 1, 10000],
                 [26, 172, 0,],
                 [29, 173, 2, 20000],
                 [28, 174, 0, 15000] ]
blind_date_y = [ 0, 1, 0, 1, 1 ]
# 测试样本集
test_sample = [  [24, 178, 2, 170],
                 [27, 176, 0, 25000],
                 [27, 176, 0, 10000]  ]
 
# 多项式朴素贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))

2:高斯朴素贝叶斯分类器

当特征值是连续变量的时候,可采用高斯朴素贝叶斯分类器。高斯朴素贝叶斯分类器假设条件概率P(A│B_i)服从参数未知的高斯分布。

代码如下

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(blind_date_X, blind_date_y)
print(clf.predict(test_sample))
>>> [1 0 1]
print(clf.class_prior_) # 标签的先验概率
>>> [0.4 0.6]
print(clf.class_count_) # 每个标签的样本数量
>>> [2. 3.]
print(clf.theta_) # 高斯模型的期望值
>>> [[3.05000000e+01 1.74000000e+02 0.00000000e+00 2.25000000e+04]
     [2.83333333e+01 1.75000000e+02 1.00000000e+00 1.50000000e+04]]
print(clf.sigma_) # 高斯模型的方差
>>> [[2.02760000e+01 4.02600000e+00 2.60000000e-02 6.25000003e+06]
     [2.48222222e-01 4.69266667e+00 6.92666667e-01 1.66666667e+07]]

朴素贝叶斯法实现简单,学习与预测的效率都很高,甚至在某些特征相关性较高的情况下都有不错的表现,是一种常用的方法

创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/103231.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入浅出理解Java并发AQS的共享锁模式

自定义共享锁例子 首先我们通过AQS实现一个非常最最最轻量简单的共享锁例子,帮助大家对共享锁有一个整体的感知。 Slf4j public class ShareLock {/*** 共享锁帮助类*/private static class ShareSync extends AbstractQueuedSynchronizer {private int lockCount…

C. Sequence Pair Weight(数学贡献法)

Problem - 1527C - Codeforces 序列的权重被定义为具有相同值&#xff08;aiaj&#xff09;的无序索引对&#xff08;i,j&#xff09;&#xff08;这里i<j&#xff09;的数量。例如&#xff0c;序列a[1,1,2,2,1]的权重是4&#xff0c;具有相同值的无序索引对的集合是&#x…

结构篇-适配器模式

文章目录一、跨越鸿沟靠适配二、插头与插孔的冲突1.三相插孔接口2.两相插孔接口3.电视机机类TV4.客户端类二、通用适配1. 适配器2.客户端类三、专属适配1.电视机专属适配器2.客户端类总结1. 对象适配器2. 类适配器总结适配器模式(Adapter)通常也被称为转换器&#xff0c;顾名思…

数字孪生炒得火热,但好像对企业发展还没有任何实质性的突破,是否只是表面功夫?

首先&#xff0c;什么是数字孪生&#xff1f; ​ 数字孪生是充分利用物理模型、传感器更新、运行历史等数据&#xff0c;集成多学科、多物理量、多尺度、多概率的仿真过程&#xff0c;在虚拟空间中完成映射&#xff0c;从而反映相对应的实体装备的全生命周期过程。数字孪生是一…

const成员,流插入,流提取重载,初始化列表!(6千字长文详解!)

c详解之const成员&#xff0c;流插入&#xff0c;流提取重载&#xff0c;初始化列表&#xff01; 文章目录c详解之const成员&#xff0c;流插入&#xff0c;流提取重载&#xff0c;初始化列表&#xff01;<< 流插入 和 >> 流提取的重载解决共有成员函数问题链式访问…

实用!7个强大的Python机器学习库!⛵

&#x1f4a1; 作者&#xff1a;韩信子ShowMeAI &#x1f4d8; 机器学习实战系列&#xff1a;https://www.showmeai.tech/tutorials/41 &#x1f4d8; 本文地址&#xff1a;https://www.showmeai.tech/article-detail/412 &#x1f4e2; 声明&#xff1a;版权所有&#xff0c;转…

如何借助扬尘视频监测系统开展扬尘污染防控工作?

一、方案背景 目前&#xff0c;跟随国家快速发展的步伐&#xff0c;城市化建设也在飞速发展&#xff0c;各种建设工程遍地开花。如何更好抵管理施工扬尘&#xff0c;杜绝各种违规及不文明现象&#xff0c;一直是施工企业、政府管理部门关注的焦点。 二、系统介绍 环境扬尘视频…

手把手教你一套完善且高效的k8s离线部署方案

作者&#xff1a;郝建伟 背景 面对更多项目现场交付&#xff0c;偶而会遇到客户环境不具备公网条件&#xff0c;完全内网部署&#xff0c;这就需要有一套完善且高效的离线部署方案。 系统资源 编号主机名称IP资源类型CPU内存磁盘01k8s-master110.132.10.91CentOS-74c8g40g0…

SkeyeVSS储备地块可视化管理信息系统 助力土地批后全程监管解决方案

一、方案背景 近年来&#xff0c;储备地块经常遭遇倾倒渣土、隐蔽性私搭乱建等违法行为的侵害&#xff0c;在违法行为发生之后又面临追责难度大、效率低的问题&#xff0c;因此可视化监管系统的建设将有效地解决单纯靠人力巡查、巡查时间长、巡查效率低以及发现侵害行为后追责…

阿里云轻量服务器--Docker--Mqtt(eclipse-mosquitto)安装

1 获取镜像&#xff1a; docker pull eclipse-mosquitto:1.6.14查看获取的镜像&#xff1a; docker images 2 安装&#xff1a; 2.1 新建日志和数据目录&#xff1a; # 配置文件存放 mkdir -p /root/mosquitto/config # 数据文件存放 mkdir -p /root/mosquitto/data # 日志文…

安全智能分析技术 神经网络架构搜索

神经网络架构搜索 定义内涵 神经网络架构搜索是为给定数据集自动找到一个或多个架构的任务&#xff0c;这些架构将为给定 的数据集生成具有良好结果的模型&#xff0c;其本质是在高维空间的最优参数搜索问题。 技术背景 深度学习模型的使用越来越大众化&#xff0c;在很多行…

论多线程之中断篇

线程中断一. 启动线程的方式二. 安全中断三. 线程的补充知识3.1 线程常用方法和线程的状态&#xff1a;3.2 线程的优先级概念&#xff1a;一. 启动线程的方式 新启线程的方式 继承Thread类实现Runnable接口&#xff0c;实际上也是通过Thread类来进行线程的操作的 package cn.…

嵌入式:数据处理指令详解

文章目录数据处理指令的特点数据处理指令的汇编格式数据处理指令&#xff0d;指令表&#xff08;1&#xff09;ADD、ADC、SUB、SBC、RSB和RSC&#xff08;2&#xff09;AND、ORR、EOR和BIC&#xff08;3&#xff09;MOV和MVN&#xff08;4&#xff09;CMP和CMN&#xff08;5&am…

如何下载及安装BIGEMAP GIS Office

如何下载及安装BIGEMAP GIS Office 发布时间&#xff1a;2018-01-17 版权&#xff1a; 本产品支持主流winodws操作系统&#xff08;xp sp3,vista,windows 7,windows 8及windows 10 11&#xff09;&#xff0c; 可通过访问Bigemap官网(BIGEMAP-卫星地图_高清卫星地图制图软件_…

791068-69-4,肾素的FRET底物

FRET substrate for renin. excitation at 340 nm, emission at 490 nm.肾素的FRET底物。激发波长为340 nm&#xff0c;发射波长为490 nm。 编号: 182722中文名称: Renin Substrate 1英文名: Renin Substrate 1CAS号: 791068-69-4单字母: H2N-R-E(Edans)-IHPFHLVIHT-K(Dabcyl)-…

PDF如何加密码保护?分享PDF加密的简单方法

PDF 通常是只读的&#xff0c;但如果收件人有特定的编辑软件&#xff0c;它们仍然可以修改&#xff0c;因此当您发送或共享 PDF 文档时&#xff0c;您可能希望使用密码对其进行保护。这样&#xff0c;未经您的许可&#xff0c;任何人都无法读取文件。 如何使用密码保护 pdf 文档…

什么是SD-WAN,它如何改变传统网络?

近年来&#xff0c;网络的构建、管理和运行方式发生了重大变化。许多 IT 管理员现在正在用更高级的网络概念和策略取代传统的网络组件和传统技术。例如&#xff0c;他们越来越依赖网络容器化、自动化、软件定义网络 &#xff08;SDN&#xff09; 和云计算等概念来简化网络。 这…

网络安全和信息化条例

神经网络架构搜索 定义内涵 神经网络架构搜索是为给定数据集自动找到一个或多个架构的任务&#xff0c;这些架构将为给定 的数据集生成具有良好结果的模型&#xff0c;其本质是在高维空间的最优参数搜索问题。 技术背景 深度学习模型的使用越来越大众化&#xff0c;在很多行…

数据处理指令

目录 一、指令 1.1 数据处理指令:数学运算、逻辑运算 1.1.1数据搬移指令 1.1.2机器码 1.1.3立即数 1.1.4数据运算指令基本格式 1.1.5加法指令 1.1.6减法指令、逆向减法指令、乘法指令 1.1.7位运算&#xff08;逻辑运算&#xff09; 1.1.8格式扩展 1.1.9数据运算指令对条…

面试官:Spring Bean的生命周期,你知道吗?

小熊学Java网站&#xff1a;https://javaxiaobear.gitee.io/&#xff0c;每周持续更新干货&#xff0c;建议收藏&#xff01; bean 的生命周期从调用 beanFactory 的 getBean 开始&#xff0c;到这个 bean 被销毁&#xff0c;可以总结为以下七个阶段&#xff1a; 处理名称&…