机器学习:朴素贝叶斯分类器

news2025/2/11 15:58:55

贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

贝叶斯定理是贝叶斯决策论的基础,描述了如何根据新的证据更新先验概率,贝叶斯定理
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac {P(B|A) P(A)} {P(B)} P(AB)=P(B)P(BA)P(A)

后验概率P(A|B)在观测B的条件下A的概率指在观测到数据之后,对某个假设的概率估计。它是通过贝叶斯定理计算得到的,结合了先验概率和似然概率。(事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小。
似然概率P(B|A)在A发生的条件下B的概率指在某个假设下,观测数据的概率。它描述了在某个假设下,数据出现的可能性
先验概率P(A)没有观测到B的条件下A的概率指在没有观测到任何数据之前,对某个事件的概率估计。它通常基于先验知识或经验。(根据以往经验或经过数据统计得到的概率。
边际概率P(B)B的总概率

贝叶斯决策论通过结合先验知识和观测数据,使用贝叶斯定理计算后验概率,从而做出最优决策。即:
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c|x) = \frac {P(c) P(x|c)} {P(x)} P(cx)=P(x)P(c)P(xc)
P©是样本空间中各类样本所占的比例,根据大数定理,当训练集包含充足的独立同分布样本时,P©可以通过各类样本所占的比例来进行估计。

但是对于类条件概率P(x|c)来说,涉及了关于x所有属性的联合概率,因此很难进行估计。

例如:每个样本具有d个属性,每个属性都有10个属性值,那么样本空间将有 1 0 d 10^d 10d种可能值,导致组合爆炸

朴素贝叶斯对条件概率分布做了条件独立性假设

即,现在有 10 × d 10 \times d 10×d种可能值。

P ( x ∣ c ) = ∏ j = 1 n P ( x j ∣ c ) P(x|c) = \prod_{j=1}^{n}P(x^j|c) P(xc)=j=1nP(xjc)

先验概率:
P ( c k ) = ∑ i N I ( y i = c k ) N P(c_k) = \frac {\sum_i^NI(y_i = c_k)} {N} P(ck)=NiNI(yi=ck)
属性值是离散情况下,条件概率为:
P ( x j = a j l ∣ y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) P(x^j = a_{jl}|y = c_k) = \frac {\sum_{i=1}^NI(x_i^{(j)} = a_{jl}, y_i=c_k)} {\sum_{i=1}^{N}I(y_i=c_k)} P(xj=ajly=ck)=i=1NI(yi=ck)i=1NI(xi(j)=ajl,yi=ck)
属性值是连续情况下,条件概率为:

假设概率密度P(x|c)服从正太分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),通过极大似然估计得到的正态分布均值就是样本均值,方差就是 ( x − μ c ^ ) ( x − μ c ^ ) T (x - \hat{\mu_c})(x - \hat{\mu_c})^T (xμc^)(xμc^)T

这样假设使其问题变得简单,但是估计准确性严重依赖所假设的概率分布形式是否符合潜在的真实数据分布。不过准确性却较高。

例如:

在这里插入图片描述

代码示例:

数据处理:将DataFrame转为numpy.array类型,并自定义分出训练集和测试集用来检验正确性。

import pandas as pd
import numpy as np
from io import StringIO

data = '编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜\n\
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是\n\
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是\n\
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是\n\
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是\n\
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是\n\
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是\n\
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是\n\
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是\n\
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否\n\
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否\n\
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否\n\
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否\n\
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否\n\
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否\n\
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否\n\
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否\n\
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否'

df = pd.read_csv(StringIO(data))
# print(df.info())

def obj_to_int(series: pd.Series):
    return pd.Categorical(series).codes

def label_encoder(df: pd.DataFrame):
    for col in df.columns:
        if df[col].dtype == 'object':
            df[col] = obj_to_int(df[col])
    return df

# 已完成:2025年2月9日 14点27分
# # 保存处理后的数据
# df = label_encoder(df)
# df.to_csv('data.csv', index=False)

# # 已完成:2025年2月9日 14点30分
# # 随机选择三行作为测试集
# test_set = df.sample(n=3, random_state=42)
# # 获取剩余的行作为训练集
# train_set = df.drop(test_set.index)
# # 保存训练集和测试集
# train_set.to_csv('train.csv', index=False)
# test_set.to_csv('test.csv', index=False)

def get_train_data():
    df = pd.read_csv('train.csv')
    return np.array(df.iloc[:, :])

def get_test_data():
    # 2025年2月9日 16点19分
    df = pd.read_csv('test.csv')
    return np.array(df.iloc[0:, :])

    # 随机选择一半的数据作为训练集
    # df = pd.read_csv('data.csv')
    # bool_array = np.random.choice([True, False], size=len(df), p=[0.5, 0.5])
    # return np.array(df[bool_array].iloc[:, :])
# print(get_train_data())
# print(get_test_data())

朴素贝叶斯

  • 计算先验概率

    def get_prior_prob(train_data: np.array):
        # 先验概率
        prior_prob = {}
        # 计算先验概率
        for i in range(len(train_data)):
            if train_data[i][-1] not in prior_prob:
                prior_prob[int(train_data[i][-1])] = 1
            else:
                prior_prob[int(train_data[i][-1])] += 1
        for key in prior_prob:
            prior_prob[key] /= len(train_data)
        return prior_prob
    
  • 计算条件概率

    • 离散值

      n = len(train_data[0]) - 1
          cond_prob = [ {} for i in range(n) ]
          # 计算条件概率
          # (特征值, 类别) -> 出现次数
          fea_res_cnt = [[0,0] for i in range(n)]
          for i in range(len(train_data)):
              for j in range(1, n):
                  if int(train_data[i][-1]) == 0:
                      fea_res_cnt[j][0] += 1
                  else:  
                      fea_res_cnt[j][1] += 1
          
          for i in range(len(train_data)):
              # 仅计算特征值为离散值的条件概率
              for j in range(1, n - 2):
                  fea = int(train_data[i][j])
                  res = int(train_data[i][-1])
                  if (fea, res) not in cond_prob[j]:
                      cond_prob[j][(fea, res)] = 1
                  else:
                      cond_prob[j][(fea, res)] += 1
      
    • 连续值:使用极大似然法球的均值、标准差,进行正太分布

      # 计算特征值为连续值的条件概率
          reslist = [ [ [] for i in range(2)] for j in range(2)]
          for i in range(len(train_data)):
              for j in range(n - 2, n):
                  res = int(train_data[i][-1])
                  reslist[j - n + 2][res].append(float(train_data[i][j]))
          for i in range(2):
              for j in range(2):
                  mean,std = np.mean(reslist[i][j]),np.std(reslist[i][j])
                  cond_prob[i + n - 2][(j, mean, std)] = 0
      
      

    总的这个函数代码:

    def get_cond_prob(train_data: np.array):
        n = len(train_data[0]) - 1
        cond_prob = [ {} for i in range(n) ]
        # 计算条件概率
        # (特征值, 类别) -> 出现次数
        fea_res_cnt = [[0,0] for i in range(n)]
        for i in range(len(train_data)):
            for j in range(1, n):
                if int(train_data[i][-1]) == 0:
                    fea_res_cnt[j][0] += 1
                else:  
                    fea_res_cnt[j][1] += 1
        
        for i in range(len(train_data)):
            # 仅计算特征值为离散值的条件概率
            for j in range(1, n - 2):
                fea = int(train_data[i][j])
                res = int(train_data[i][-1])
                if (fea, res) not in cond_prob[j]:
                    cond_prob[j][(fea, res)] = 1
                else:
                    cond_prob[j][(fea, res)] += 1
    
        # 计算特征值为连续值的条件概率
        reslist = [ [ [] for i in range(2)] for j in range(2)]
        for i in range(len(train_data)):
            for j in range(n - 2, n):
                res = int(train_data[i][-1])
                reslist[j - n + 2][res].append(float(train_data[i][j]))
        for i in range(2):
            for j in range(2):
                mean,std = np.mean(reslist[i][j]),np.std(reslist[i][j])
                cond_prob[i + n - 2][(j, mean, std)] = 0
    
        # 计算条件概率
        for i in range(1, n - 2):
            for key in cond_prob[i]:
                cond_prob[i][key] /= fea_res_cnt[i][key[1]]
        return cond_prob
    
    

在这里插入图片描述

  • 进行测试

    # 正太分布密度概率
    def probability_density_function(mean:float, std:float, var:float) -> float:
        return (1/(std * np.sqrt(2 * np.pi))) * np.
    
    
    
exp(-0.5 * ((var - mean)/std)**2)
  
  def test():
      cond_prob = get_cond_prob(get_train_data())
      prior_prob = get_prior_prob(get_train_data())
      test_data = get_test_data()
      # 预测
      right_cnt = 0
      for i in range(len(test_data)):
          good = bad = 1
          good = prior_prob[1]
          bad = prior_prob[0]
          for j in range(len(cond_prob)):
              for key in cond_prob[j]:
                  if len(key) == 2:
                      if key[1] == 0:
                          bad *= cond_prob[j][(int(test_data[i][j]), key[1])]
                      else:
                          good *= cond_prob[j].get((int(test_data[i][j]), key[1]), 0) # 有可能出现未知的特征值
                  elif len(key) == 3:
                      if key[0] == 0:
                          bad *= probability_density_function(key[1], key[2], float(test_data[i][j]))
                      else:
                          good *= probability_density_function(key[1], key[2], float(test_data[i][j]))
          if good > bad:
              print('good')
              if int(test_data[i][-1]) == 1:
                  print('right')
                  right_cnt += 1
          else:
              print('bad')
              if int(test_data[i][-1]) == 0:
                  print('right')
                  right_cnt += 1
          
      print(f'accuracy: {right_cnt / len(test_data)}')
  

在这里插入图片描述

朴素贝叶斯(Naive Bayes)算法理论与实践 - 简书 (jianshu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DeepSeek 大模型每个版本的特点以及运用场景对比

deepseek 网页地址:DeepSeek | 深度求索 1. DeepSeek-V1 发布时间:2024年1月 参数规模:预训练数据量2TB,具体参数未明确公开,推测为数十亿级别 功能特点: 编码能力:支持多种编程语言(如Python、Java、C++),可生成高质量代码框架。 长上下文处理:支持128K上下文窗口,…

【Langchain学习笔记(一)】Langchain介绍

Langchain介绍 Langchain介绍前言1、Langchain 是什么2、为什么要用 Langchain3、Langchain 的核心4、Langchain 的底层原理5、Langchain 的应用场景 Langchain介绍 前言 想象一下,如果你能让聊天机器人不仅仅回答通用问题,还能从你自己的数据库或文件…

VSCode中出现“#include错误,请更新includePath“问题,解决方法

1、出现的问题 在编写C程序时,想引用头文件但是出现如下提示: (1)首先检查要引用的头文件是否存在,位于哪里。 (2)如果头文件存在,在编译时提醒VSCode终端中"#include错误&am…

【HeadFirst系列之HeadFirstJava】第2天之类与对象-拜访对象村

前言 从今日起,陆续分享《HeadFirstJava》的读书笔记,希望能够帮助大家更好的理解Java,提高自己的基础编码能力。 Java是一门面向对象的高级编程语言,常年霸占编程语言排行榜前三。 Java是目前国内的主流开发语言,基本…

MoMask:可将文本描述作为输入并生成相应的高质量人体运动动作

该图展示了 MoMask (一种最先进的人体运动生成模型)生成的运动示例。MoMask 使用文本到运动范式进行操作,其中它将文本描述作为输入并生成相应的高质量人体运动。这种方法确保生成的动作准确反映给定的文本条件,展示了 MoMask 生成…

【Python】元组

个人主页:GUIQU. 归属专栏:Python 文章目录 1. 元组的本质与基础概念1.1 不可变序列的意义1.2 元组与数学概念的联系 2. 元组的创建方式详解2.1 标准创建形式2.2 单元素元组的特殊处理2.3 使用 tuple() 函数进行转换 3. 元组的基本操作深入剖析3.1 索引操…

[RabbitMQ] RabbitMQ常见面试题

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

计算机组成原理 | (四)存储器

🌮🌮🌮宝子们好呀,今天继续更新我的学习笔记,教我计算机组成原理的老师是SDUCS的zrh老师,感谢z老师的教导,接下来我就放上我的手写笔记,供大家学习参考,适合大家预习和复…

基于 GEE 利用 SDWI 指数进行逐月水域面积提取

目录 1 SDWI指数 2 完整代码 3 运行结果 微波遥感具有全天候、全天时工作能力,能穿透云层,不受气象条件和光照水平影响,因此近年来利用微波遥感提取水体信息也备受关注。本文分享使用 Sentinel-1遥感影像通过SDWI指数来进行逐月水域面积计…

[EAI-034] 通过在线强化学习改进VLA模型

Paper Card 论文标题:Improving Vision-Language-Action Model with Online Reinforcement Learning 论文作者:Yanjiang Guo, Jianke Zhang, Xiaoyu Chen, Xiang Ji, Yen-Jen Wang, Yucheng Hu, Jianyu Chen 论文链接:https://arxiv.org/abs/…

每日学习 设计模式 五种不同的单例模式

狮子大佬原文 https://blog.csdn.net/weixin_40461281/article/details/135050977 第一种 饿汉式 为什么叫饿汉,指的是"饿" 也就是说对象实例在程序启动时就已经被创建好,不管你是否需要,它都会在类加载时立即实例化,也就是说 实例化是在类加载时候完成的,早早的吃…

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之上传头像和新增收货地址

🧸安清h:个人主页 🎥个人专栏:【Spring篇】【计算机网络】【Mybatis篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🚀1.上传头像 -持久…

SSM仓库物品管理系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.用户登录代码:2.保存物品信息代码:3.删除仓库信息代码: 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SSM框架开发的仓库…

模型压缩 --学习记录2

模型压缩 --学习记录2 如何找到更好的权衡方式(模型量化)方法一:寻找更好的 range方法二:寻找更好的 X-fp32(浮点数)方法三:寻找更好的 scale 和 zp方法四:寻找更好的 roundPTQ 后训练量化(离线量化)QAT 量化感知训练(在线量化)量化为什么会带来加速?三、模型稀疏技…

车载诊断工具技巧 --- CAPL Debug 功能使用介绍

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…

<论文>DeepSeek-R1:通过强化学习激励大语言模型的推理能力(深度思考)

一、摘要 本文跟大家来一起阅读DeepSeek团队发表于2025年1月的一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | Papers With Code》,新鲜的DeepSeek-R1推理模型,作者规模属实庞大。如果你正在使用Deep…

萌新学 Python 之字符串及字符串相关函数

字符串:单引号、双引号、三个单引号、三个双引号 字符串属于不可变的数据类型,一旦被定义,内存地址不变 name 张三 # 字符串赋值给name后,内存地址存储张三,地址不变 username 张三 # 张三去内存中找…

系统思考—自我超越

“人们往往认为是个人的能力限制了他们,但事实上,是组织的结构和惯性思维限制了他们的潜力。”—彼得圣吉 最近和一家行业隐形冠军交流,他们已经是领域第一,老板却依然要求:核心团队都要自我超越,攻坚克难…

redis高级数据结构Stream

文章目录 背景stream概述消息 ID消息内容常见操作独立消费创建消费组消费 Stream弊端Stream 消息太多怎么办?消息如果忘记 ACK 会怎样?PEL 如何避免消息丢失?分区 Partition Stream 的高可用总结 背景 为了解决list作为消息队列是无法支持消息多播问题,Redis5.0…

day44 QT核心机制

头文件&#xff1a; #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QLabel> //标签类头文件 #include<QPushButton> //按钮类头文件 #include<QLineEdit> //行编辑器类头文件QT_BEGIN_NAMESPACE namespace Ui { class Widget; } …