机器学习——贝叶斯分类器(基础理论+编程)

news2024/9/26 1:17:11

目录

一、理论

1、初步引入

2、做简化

3、拉普拉斯修正

二、实战

1、计算P(c)

2、计算P(x|c)

3、实战结果

1、数据集展示

2、相关信息打印


 

一、理论

1、初步引入

在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

个人通俗地理解:给一些这个西瓜的信息x(eg:纹理如何?色泽如何?),计算这个西瓜是好瓜的概率和是坏瓜的概率,比较大小,哪个概率较大,该西瓜就属于哪一类

理解转为公式:就是找 eq?%5Cmax_%7Bc_i%7D%20P%28c_i%7Cx%29

2、做简化

1)贝叶斯转换

由贝叶斯公式可以将eq?P%28c_i%7Cx%29 做如下转换:

                eq?P%28c_i%7Cx%29%20%3D%20%5Cfrac%7BP%28x%2Cc_i%29%7D%7BP%28x%29%7D%20%3D%20%5Cfrac%7BP%28x%7Cc_i%29P%28c_i%29%7D%7BP%28x%29%7D

2)针对目标简化:

我们最终是要确定使得eq?P%28c_i%7Cx%29最大的eq?c_i ,而eq?P%28x%29 对任何 eq?c_i 都一致,所以求

eq?%5Cmax_%7Bc_i%7D%20P%28c_i%7Cx%29 可以舍去分母,也即求 eq?%5Cmax%20P%28x%7Cc_i%29P%28c_i%29

对于 eq?P%28x%7Cc_i%29 和 eq?P%28c_i%29 采用估计

3)求P(c)

假定训练集数据容量足够且分布能够真实反应数据实际时,我们可以将频率估计为概率

即 eq?P%28c_i%29%20%3D%20%5Cfrac%7B%7CD_%7Bc_i%7D%7C%7D%7B%7CD%7C%7D

4)求P(x|c_i)

a)x是离散属性

eq?D_%7Bc%2Cxi%7D 表示eq?D_c中在第i个属性上取值为xi的样本组成的集合,则条件概率eq?P%28x%7Cc_i%29 可估计为

        eq?p%28x_i%7Cc%29%20%3D%20%5Cfrac%7B%7CD_%7Bc%2Cx_i%7D%7C%7D%7BD_c%7D

b)x是连续属性

通常对条件概率不能用频率估计,一般采用的方式:先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。

假设eq?P%28x%7Cc_i%29 服从正态分布,

                        eq?p%28x_i%7Cc%29%20%3D%20%5Cfrac%7B1%7D%7B%5Csqrt%7B2%5Cpi%5Csigma_%7Bc%2Ci%7D%7D%7De%5E%7B%28-%5Cfrac%7B%28x-%5Cmu_%7Bc%2Ci%7D%29%5E2%7D%7B2%5Csigma%5E2_%7Bc%2Ci%7D%7D%29%7D

其中:

         eq?%5Cmu_%7Bc%2Ci%7D%20%3D%20%5Cfrac%7B1%7D%7B%7CD_%7Bc%2Ci%7D%7C%7D%5Csum_%7Bx_i%5Cepsilon%20D_c%7D%20x_i  

        eq?%5Csigma_%7Bc%2Ci%7D%5E2%20%3D%20%5Cfrac%7B1%7D%7B%7CD_%7Bc%2Ci%7D%7C%7D%20%5Csum_%7Bx_i%5Cepsilon%20D_%7Bc%2Ci%7D%7D%28x_i-%5Cmu%20_c%29%28x_i-%5Cmu%20_c%29%5ET

3、拉普拉斯修正

问题:若某个属性值在训练集中没有与某个类同时出现过,则直接将概率连乘,会导致“哪怕在其他属性上明显像好瓜,分类的结果都将是坏瓜”的情况。

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”(smoothing),常用“拉普拉斯修正”(Laplacian correction)

具体做法是:

                eq?P%28c%29%20%3D%20%5Cfrac%7B%7CDc%7C+1%7D%7B%7CD%7C+N%7D

                eq?P%28c%2Ci%29%20%3D%20%5Cfrac%7B%7CD_%7Bc%2Ci%7D%7C+1%7D%7B%7CD_c%7C+N_i%7D

二、实战

1、主要流程介绍:

1)完整代码:

DrawPixel/Bayesian_decison.ipynb at main · ndsoi/DrawPixel (github.com)

2)实战分三个部分:

087e2288935847feb43f06c83d1bbe7e.png

详情可以见上述链接,博文只放关键代码

1、计算P(c)

1)先从数据集中找出类别为c的所有数据

def getDc(train_data,Class):
  Dc = []
  for melon in train_data:
    if melon['类别'] == Class:
      Dc.append(melon)
  return Dc

然后只需用以下计算Pc

Pc = len(Dc)/len(train_data)

收集好的Dc可以进一步用于计算 P(x|c)

2、计算P(x|c)

1)离散属性 

写出求 类别c中属性attr取值为value的样本概率

# 计算类别c中属性attr取值为value的样本概率
def calP_xiForI(attr,value,Dc):
  cnt = 0
  for melon in Dc:
    if melon[attr] == value:
      cnt+=1
  #print(f"P(({attr}={value})|{melon['类别']})={cnt/len(Dc)}")
  return cnt/len(Dc)

计算 对于给定的一个样本test('attr1':'value1','attr2':'value2',..,),已知它所有的属性,则它是类别Class的概率【这里仅考虑离散属性】

def calPcx(train_data,Class,test):
  # 找出类别为Class的数据
  Dc = getDc(train_data,Class)
  Pc = len(Dc)/len(train_data)
 # print(f"P({Class})={Pc}")
  ans = 1
  for attr,value in test.items():
    # 属性是离散的
    tmp = calP_xiForI(attr,value,Dc)
    
    ans*= tmp

  return ans*Pc

2)连续属性:

对于连续属性,要先计算均值和方差:

import math
### 计算均值
def calmu_c_i(Dc,attr):
  mu = 0
  for data in Dc:
    mu += float(data[attr])
  print(f"attr={attr},mu={mu/len(Dc)}")
  return mu/len(Dc)

### 计算方差
def cal_sigma_c_i(Dc,attr):
  sigma = 0
  mu = calmu_c_i(Dc,attr)
  for data in Dc:
    sigma+=(float(data[attr])-mu)*(float(data[attr])-mu)
  print(f"方差attr={attr}.sigma={math.sqrt(sigma/len(Dc))}")
  return math.sqrt(sigma/len(Dc))

然后写出计算P(x|c)的函数

def calP_xiForC(attr,Dc,test):
  sigma = cal_sigma_c_i(Dc,attr)
  mu = calmu_c_i(Dc,attr)
  tmp = -(float(test[attr])-mu)*(float(test[attr])-mu)/(2*sigma*sigma)
  return 1/math.sqrt(2*math.pi*sigma)*math.exp(tmp)

计算样本x是Class类别的概率(既考虑离散又考虑连续属性)

def calPcx_v3(train_data,Class,test,Attrs):
  # 找出类别为Class的数据
  Dc = getDc(train_data,Class)
  Pc = len(Dc)/len(train_data)
 # print(f"P({Class})={Pc}")
  ans = 1
  for attr,value in test.items():
    # 属性是离散的
    if Attrs[attr] == 'c':
      tmp = calP_xiForC(attr,Dc,test)
    else:
      tmp = calP_xiForI_v2(attr,value,Dc)
    # 属性是连续的
    ans*= tmp
  print(f"calPcx_v3:{ans*Pc}")
  return ans*Pc

3、实战结果

(复现西瓜书7.3的例题)

1、数据集展示

训练数据集:

e354ea21347841849f42ff43ede660dc.png

测试例:

d41edf8925064b76b24fb9147323e98e.png

2、相关信息打印

3c926145d3a44b388d41c1a4d45560a1.png

结果解析,最上方的红色和黄色框指的是好瓜中密度的均值、方差以及含糖率的密度和均值

蓝色和绿色框指的是坏瓜中密度的均值、方差以及含糖率的密度和均值

黑色是测试集的原始数据集和预测类别,看到对于测试例的预测是“好瓜”

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1542113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32通过串口发送指令控制LED灯亮灭OLED并显示命令

先来看看程序运行的结果吧: 接下来就不说废话了,自己看源代码吧!每一行我都做了注释: 首先是主函数main.c文件: #include "stm32f10x.h" // Device header #include "OLED.h" …

学习SpringBoot笔记--知识点(1)

目录 SpringBoot介绍 创建一个最基础的springbooot项目 使用Spring Initializr创建springboot项目 Spring Boot 自动配置机制 SpringBoot常用注解 1.组件注册 2.条件注解 3.属性绑定 SpringBoot自动配置流程​编辑 学习SpringBoot的方法 ​编辑 SpringBoot日志配置…

AJAX——JSON

目录 一、JSON概述 二、JSON对象语法 三、JSON序列化方法 四、JSON与XML比较 五、Java对象与Json对象的转换 六、Js解析服务器发送过来的JSON字符串 七、$.getJSON() 一、JSON概述 JSON简介:JSON的全称为JavaScript Object Nation(JavaScript 对象表示语法),…

基于nodejs+vue的BBS论坛系统python-flask-django-php

为了更好地发挥本系统的技术优势,根据BBS论坛系统的需求,本文尝试以B/S架构设计模式中的express框架,nodejs语言为基础,通过必要的编码处理、BBS论坛系统整体框架、功能服务多样化和有效性的高级经验和技术实现方法,旨…

【Web】NKCTF 2024 个人wp(部分)

目录 my first cms 全世界最简单的CTF attack_tacooooo 属实太菜了,3/4 my first cms 一眼搜版本2.2.19 CVE -CVE-2024-27622 GitHub - capture0x/CMSMadeSimple 访问/admin/login.php 爆出弱口令,后台登录 admin Admin123 Extensions > User D…

<Linux> 模拟实现文件流 - 简易版

目录 1. FILE 结构设计 2、函数使用及分析 3、文件打开 fopen 4. 缓冲区刷新fflush 5. 数据写入fwrite 6. 文件关闭 fclose 7. 测试 8. 小结 1. FILE 结构设计 在设计 FILE 结构体前,首先要清楚 FILE 中有自己的缓冲区及冲刷方式 缓冲区的大小和刷新方式因…

【云开发笔记No.6】腾讯CODING平台

腾讯云很酷的一个应用,现在对于研发一体化,全流程管理,各种工具层出不穷。 云时代用云原生,再加上AI,编码方式真是发生了质的变化。 从前,一个人可以写一个很酷的软件,后来,这变得…

Day08 Java复习8 Spring MVC概念

Day09 Java复习9 Spring MVC spring mvc 的核心组件是什么? DispatcherServlet 1.JAVA 和Spring 、Spring Boot 、Spring MVC的关系 你要举办一个生日派对,而且你希望它既特别又好玩。Java就像是举办派对的地方,Spring、Spring Boot和Spri…

javaSSM公司招聘管理系统IDEA开发mysql数据库web结构计算机java编程maven项目

一、源码特点 IDEA开发SSM公司招聘管理系统是一套完善的完整企业内部系统,结合SSM框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发)MAVEN方式加 载,系统具有完整的源代码和…

银行监管报送系统介绍(六):客户风险数据报送系统

【概念定义】 银监会决定从2013年起实行新版客户风险统计制度,对各政策性银行、国有商业银行、股份制商业银行进行客户信息汇总统计。 客户风险统计信息,是指新版客户风险统计报送信 息。客户风险统计报送信息包括但不限于对公及同业客户授信和 表内外业…

设计模式(十二):中介者模式(行为型模式)

Mediator,中介者模式:用一个中介对象封装一些列的对象交互。属于行为型模式 Facade,外观模式:为子系统中的一组接口提供一致的界面,facade 提供了一高层接口,这个接口使得子系统更容易使用。属于结构型模式…

Rust并发编程thread多线程和channel消息传递

安全高效的处理并发是 Rust 诞生的目的之一,主要解决的是服务器高负载承受能力。 并发(concurrent)的概念是指程序不同的部分独立执行,这与并行(parallel)的概念容易混淆,并行强调的是"同…

npm、nrm、nvm详解与应用

本文全面介绍了 npm、nrm 以及 nvm 这三个与 Node.js 开发密切相关的工具。首先,对 npm 进行了定义和功能解释,包括其在依赖管理、项目管理、脚本执行、版本控制和社区贡献等方面的作用。接着,详细介绍了 npm 的常用命令和设置下载源的操作&a…

python综合实战案例-数据分析

Python是进行数据分析的好工具,今天就是借助一个案例给大家进行数据分析讲解。 本例设计一个log.txt⽂件,该文件记录了某个项⽬中某个 api 的调⽤情况,采样时间为每分钟⼀次,包括调⽤次数、响应时间等信息,⼤约18万条数…

java数据结构与算法刷题-----LeetCode451. 根据字符出现频率排序

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 文章目录 1. hash统计出现次数后排序2. 桶排序 1. hash统计出现次数后排序…

WebClient 同步、异步调用实现对比

文章目录 一、概述二、pom依赖三、代码结构四、源码传送1、异步代码2、同步代码3、完整代码 一、概述 WebClient是Spring WebFlux模块提供的一个非阻塞的基于响应式编程的进行Http请求的客户端工具,从Spring5.0开始WebClient作为RestTemplete的替代品,有…

初探Flink集群【持续更新】

周末下雨&#xff0c;倒杯茶&#xff0c;在家练习Flink相关。 开发工具&#xff1a;IntelliJ Idea 第一步、创建项目 打开Idea&#xff0c;新建Maven项目&#xff0c;包和项目命名 在pom.xml 文件中添加依赖 <properties><flink.version>1.13.0</flink.vers…

python(django(自动化))之流程接口展示功能前端开发

1、创建模板代码如下&#xff1a; <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><title>测试平台</title> </head> <body role"document"> <nav class "navbar n…

轻量级 C++ UI 库:快速、可移植、自包含 | 开源日报 No.168

ocornut/imgui Stars: 53.4k License: MIT imgui 是 C 的无臃肿图形用户界面&#xff0c;具有最小的依赖关系。 该项目的主要功能、关键特性、核心优势包括&#xff1a; 为 C 提供了一个轻量级的图形用户界面库输出优化的顶点缓冲区&#xff0c;可在 3D 渲染应用程序中随时呈…

2024/03/24----Pycharm社区版本下载以及创建一个新项目

1.本科安装过这个软件&#xff0c;因为系统重置了&#xff0c;所以重头再来一遍。 2.链接 社区版本Pycharm 3.我下载了2023.1.15的版本&#xff0c;越前面一些的版本可能会比较稳定 4.安装步骤 &#xff08;1&#xff09;先把文件安装目录改成其他盘(文件名最好不要有数字和符号…