《机器学习公式推导与代码实现》chapter21-贝叶斯概率模型

news2024/11/15 14:09:17

《机器学习公式推导与代码实现》学习笔记,记录一下自己的学习过程,详细的内容请大家购买作者的书籍查阅。

贝叶斯概率模型

1 贝叶斯定理简介

贝叶斯定理认为任意未知量 θ \theta θ都可以看做一个随机变量,对该未知量的描述可以用一个概率分布 π ( θ ) \pi \left(\theta \right) π(θ)来概况,这是贝叶斯学派最基本的观点。当这个概率分布在进行现场试验或抽样前已经确定时,便可将该分布成为先验概率分布,再结合由给定数据集 X X X计算样本的似然函数$L\left ( \theta \mid X \right ) $后,即可应用贝叶斯公式计算该未知量的后验概率分布。经典的贝叶斯公式如下:
π ( θ ∣ X ) = L ( θ ∣ X ) π ( θ ) ∫ L ( θ ∣ X ) π ( θ ) d θ \pi \left(\theta \mid X\right) = \frac{L\left ( \theta \mid X \right )\pi\left(\theta\right)}{\int L\left ( \theta \mid X \right )\pi\left(\theta\right)d\theta} π(θX)=L(θX)π(θ)dθL(θX)π(θ)
其中 π ( θ ∣ X ) \pi \left(\theta \mid X\right) π(θX)为后验概率, ∫ L ( θ ∣ X ) π ( θ ) d θ \int L\left ( \theta \mid X \right )\pi\left(\theta\right)d\theta L(θX)π(θ)dθ为边缘分布,其排除了任何有关未知量 θ \theta θ的信息,因此贝叶斯公式的等价形式可以写作:
π ( θ ∣ X ) ∝ L ( θ ∣ X ) π ( θ ) \pi \left(\theta \mid X\right) \propto L\left ( \theta \mid X \right )\pi\left(\theta\right) π(θX)L(θX)π(θ)
贝叶斯公式的本质就是基于先验概率分布 π ( θ ) \pi\left(\theta\right) π(θ)和似然函数 L ( θ ∣ X ) L\left ( \theta \mid X \right ) L(θX)的统计推断,其中先验概率分布 π ( θ ) \pi\left(\theta\right) π(θ)的选择和后验分布 π ( θ ∣ X ) \pi \left(\theta \mid X\right) π(θX)的推断是贝叶斯领域的两个核心问题。

朴素贝叶斯是一种基于贝叶斯定理的概率分类模型,而贝叶斯网络是一种将贝叶斯定理应用于概率图中的分类模型,二者都是生成式学习方法。

之所以取名朴素贝叶斯是因为特征的条件独立性假设能够大大简化算法的学习和预测过程,但也会造成一定的精度损失。

进一步的,将朴素贝叶斯的条件独立性假设去掉,认为特征之间存在相关性的贝叶斯模型就是贝叶斯网络模型,贝叶斯网络模型是一种概率有向图模型。

2 朴素贝叶斯

在这里插入图片描述
在这里插入图片描述

2.1 基于numpy的朴素贝叶斯实现

import numpy as np

# 朴素贝叶斯模型训练与预测
class NaiveBayes:

    def fit(self, X, y):
        
        self.classes = y[y.columns[0]].unique() # 标签类别
        self.class_count = y[y.columns[0]].value_counts() # 类先验概率分布
        self.class_prior = self.class_count / len(y) # 极大似然估计:类先验概率
        self.prior_condition_prob = dict() # 类条件概率字典初始化

        # 遍历计算类条件概率
        for col in X.columns: # 遍历特征
            for j in self.classes: # 遍历类别
                p_x_y = X[(y==j).values][col].value_counts() # 统计当前类别下特征的不同取值
                for i in p_x_y.index: # 遍历计算类条件概率
                    self.prior_condition_prob[(col, i, j)] = p_x_y[i] / self.class_count[j]
        
        return self.classes, self.class_prior, self.prior_condition_prob # 标签类别,类先验概率分布,类条件概率分布

    def predict(self, X_test):

        res = [] # 初始化结果列表
        for c in self.classes: # 遍历样本类别
            p_y = self.class_prior[c] # 获取当前类的先验概率
            p_x_y = 1 # 初始化类条件概率
            for i in X_test.items(): # 似然函数:类条件概率连乘
                p_x_y *= self.prior_condition_prob[tuple(list(i)+[c])]
            res.append(p_y * p_x_y) # 类先验概率与类条件概率乘积
        print(res)
        return self.classes[np.argmax(res)] # 结果转化为预测类别

构造数据集

import pandas as pd

# 构造数据集: 来自于李航统计学习方法表4.1
x1 = [1,1,1,1,1,2,2,2,2,2,3,3,3,3,3] # 特征x1
x2 = ['S','M','M','S','S','S','M','M','L','L','L','M','M','L','L'] # 特征x2
y = [-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1] # 标签列表

df = pd.DataFrame({'x1':x1, 'x2':x2, 'y':y})
df.head()

在这里插入图片描述
测试结果

model = NaiveBayes()
X = df[['x1', 'x2']]
y = df[['y']]
classes, class_prior, prior_condition_prob = model.fit(X, y)
classes, class_prior, prior_condition_prob
(array([-1,  1], dtype=int64),
  1    0.6
 -1    0.4
 Name: y, dtype: float64,
 {('x1', 1, -1): 0.5,
  ('x1', 2, -1): 0.3333333333333333,
  ('x1', 3, -1): 0.16666666666666666,
  ('x1', 3, 1): 0.4444444444444444,
  ('x1', 2, 1): 0.3333333333333333,
  ('x1', 1, 1): 0.2222222222222222,
  ('x2', 'S', -1): 0.5,
  ('x2', 'M', -1): 0.3333333333333333,
  ('x2', 'L', -1): 0.16666666666666666,
  ('x2', 'M', 1): 0.4444444444444444,
  ('x2', 'L', 1): 0.4444444444444444,
  ('x2', 'S', 1): 0.1111111111111111})
X_test = {'x1': 2, 'x2': 'S'}
print('测试数据预测类别为:', model.predict(X_test))
[0.06666666666666667, 0.02222222222222222]
测试数据预测类别为: -1

2.2 基于sklearn的朴素贝叶斯实现

sklearn也提供了朴素贝叶斯的算法实现方式,涵盖不同似然函数分布的朴素贝叶斯算法实现方式,比如高斯朴素贝叶斯伯努利朴素贝叶斯多项式朴素贝叶斯等,我们以高斯朴素贝叶斯为例,高斯朴素贝叶斯即假设似然函数为正态分布的朴素贝叶斯模型,它的似然函数如下:
P ( x i ∣ y ) = 1 2 π σ y 2 e x p ( − ( x i − μ y ) 2 2 σ y 2 ) P\left(x_{i}\mid y\right)=\frac{1}{\sqrt{2\pi\sigma_{y}^{2}}}exp\left(-\frac{\left(x_{i}-\mu_{y}\right)^{2}}{2\sigma_{y}^{2}}\right) P(xiy)=2πσy2 1exp(2σy2(xiμy)2)
sklearn中高斯朴素贝叶斯的调用接口为sklearn.naive_bayes.GaussianNB,以iris数据集为例给出调用示例:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train).predict(X_test)
f"Accuracy of GaussianNB in iris data test: {accuracy_score(y_test, y_pred)}"
'Accuracy of GaussianNB in iris data test: 0.9466666666666667'

3 贝叶斯网络

3.1 贝叶斯网络的原理推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 借助于pgmpy的贝叶斯网络实现

pgmpy是一款基于python的概率图模型包,主要包括贝叶斯网络和马尔可夫蒙特卡洛等常见概率图模型的实现以及推断方法。
我们以学生获得推荐信的质量为例来构造贝叶斯网络,相关特征的DAG和概率表如图所示:
在这里插入图片描述
首先指定各变量之间的关系:

from pgmpy.factors.discrete import TabularCPD
from pgmpy.models import BayesianModel

# 构建模型框架
letter_model = BayesianModel([
    ('D', 'G'),
    ('I', 'G'),
    ('G', 'L'),
    ('I', 'S')
])

构建各个结点的条件概率分布,需要指定相关参数和传入概率表:

# 学生成绩的条件概率分布
grade_cpd = TabularCPD(
    variable='G', # 结点名称
    variable_card=3, # 结点取值个数
    values=[[0.3, 0.05, 0.9, 0.5],
            [0.4, 0.25, 0.08, 0.3],
            [0.3, 0.7, 0.02, 0.2]],
    evidence=['I', 'D'], # 该结点的依赖结点
    evidence_card=[2, 2] # 依赖结点的取值个数
)

# 考试难度的条件概率分布
difficulty_cpd = TabularCPD(
    variable='D',
    variable_card=2,
    values = [[0.6], [0.4]]
)

# 个人天赋的条件概率分布
intel_cpd = TabularCPD(
    variable='I',
    variable_card=2,
    values=[[0.7], [0.3]]
) 

# 推荐信质量的概率分布
letter_cpd = TabularCPD(
    variable='L',
    variable_card=2,
    values = [[0.1, 0.4, 0.99],
              [0.9, 0.6, 0.01]],
    evidence=['G'],
    evidence_card=[3]
)

# sat考试分数的条件概率分布
sat_cpd = TabularCPD(
    variable='S',
    variable_card=2,
    values=[[0.95, 0.2],
            [0.05, 0.8]],
    evidence=['I'],
    evidence_card=[2]
)

构建贝叶斯网络模型

# 将各节点添加到模型中,构建贝叶斯网络
letter_model.add_cpds(
    grade_cpd,
    difficulty_cpd,
    intel_cpd,
    letter_cpd,
    sat_cpd
)

from pgmpy.inference import VariableElimination # 导入pgmpy贝叶斯推断模块
letter_infer = VariableElimination(letter_model) # 贝叶斯网络推断

# 天赋较好且考试不难情况下推断该学生获得推荐信的质量
prob_G = letter_infer.query(
    variables=['G'],
    evidence={'I':1, 'D':0}
)
print(prob_G) # 聪明学生遇到简单考试获得一等成绩的概率高达90%
+------+----------+
| G    |   phi(G) |
+======+==========+
| G(0) |   0.9000 |
+------+----------+
| G(1) |   0.0800 |
+------+----------+
| G(2) |   0.0200 |
+------+----------+

笔记本_Github地址

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/735247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何编写联邦学习训练框架——Pytorch实现

联邦学习框架实现 联邦学习训练过程由服务器和客户端两部分组成。 客户端将本地数据训练得到的模型上传服务器,服务器通过聚合客户端上传的服务器再次下发新一轮的模型,原理很简单,那么我们开始动手写代码。 1. 客户端部分: 客…

LVS - DR群集

文章目录 一、DR模式 LVS负载均衡群集1.数据包流向分析 二、LVS-DR模式的特点三、LVS-DR中的ARP问题四、DR模式 LVS负载均衡群集部署1.环境准备2.配置负载调度器(192.168.40.104)2.1.配置虚拟 IP 地址(VIP:192.168.40.180&#xf…

RabbitMQ在SpringBoot中的高级应用(1)

启动RabbitMQ 1. 在虚拟机中启动RabbitMQ,要先切换到root用户下: su root 2.关闭防火墙: systemctl stop firewalld 3.rabbitmq-server start # 启用服务 4.rabbitmq-server -detached # 后台启动 1.消息确认机制 有两种确认的方式: 自动ACK:RabbitMQ将消息发送给…

一些有意思的耗尽型MOS恒流源阻抗对比

貌似没有什么管子能超过DN2540,测试的环境差别不大,LD1014D因为本身耐压太低(25V),而且达不到1mA这个值,因此,测试的时候相应降低了电压,选择了2mA的电流,并将负载电阻减…

Pytorch-ResNet50-MINIST Classify 网络实现流程

分两个文件讲解:1、train.py训练文件 2、test.py测试文件. 1、train.py训练文件 1)从主函数入口开始,设置相关参数 # 主函数入口 if __name__ __main__:# ----------------------------## 是否使用Cuda# 没有GPU可以设置成Fasle# -…

IDEA+SpringBoot+mybatis+bootstrap+jquery+Mysql车险理赔管理系统

IDEASpringBootmybatisbootstrapjqueryMysql车险理赔管理系统 一、系统介绍1.环境配置 二、系统展示1. 管理员登录2.编辑个人信息3.用户管理4.添加用户5.申请理赔管理6.赔偿金发放管理7.待调查事故保单8.已调查记录9.现场勘察管理10.勘察记录11.我的保险管理12.我的理赔管理 三…

Atcoder Beginner Contest 309——D-F讲解

前言 由于最近期末考试,所以之前几场都没打,给大家带了不便,非常抱歉。 这个暑假,我将会持续更新,并给大家带了更好理解的题解!希望大家多多支持。 由于, A ∼ C A\sim C A∼C 题比较简单&am…

现代C++新特性 扩展的聚合类型(C++17 C++20)(PC浏览效果更佳)

文字版PDF文档链接:现代C新特性(文字版)-C文档类资源-CSDN下载 1.聚合类型的新定义 C17标准对聚合类型的定义做出了大幅修改,即从基类公开且非虚继承的类也可能是一个聚合。同时聚合类型还需要满足常规条件。 1.没有用户提供的构造函数。…

用C语言写一个压缩文件的程序

本篇目录 数据在计算机中的表现形式huffman 编码将文件的二进制每4位划分,统计其值在文件中出现的次数构建二叉树搜索二叉树的叶子节点运行并输出新的编码文件写入部分写入文件首部写入数据部分压缩运行调试解压缩部分解压缩测试为可执行文件配置环境变量总结完整代…

23数字图像置乱技术(matlab程序)

1.简述 一、引言 所谓“置乱”,就是将图像的信息次序打乱,a像素移动到b像素位置上,b像素移动到c像素位置上,……,使其变换成杂乱无章难以辨认的图片。数字图像置乱技术属于加密技术,是指发送发借助数学或者…

Python实现PSO粒子群优化算法优化Catboost分类模型(CatBoostClassifier算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 PSO是粒子群优化算法(Particle Swarm Optimization)的英文缩写,是一…

《低代码指南》——轻流5.0发布,无代码引擎矩阵全面升级

7月6日,由轻流主办「无代码无边界 202376Day|轻流无代码探索者大会」于上海顺利举行。轻流也在会上重磅发布了更加开放、灵活、低门槛的轻流5.0,和全面升级的专有轻流。 轻流5.0全面迭代升级了轻流的无代码引擎矩阵(表单引擎、流程引擎、报表引擎、门户引擎、数据引擎)。…

软件测试项目实战,电商项目测试实例 - 业务测试(重点)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 支付功能怎么测试…

pytest自动化测试实战之执行参数

上一篇介绍了如何运行pytest代码,以及用例的一些执行规则,执行用例发现我们中间print输出的内容,结果没有给我们展示出来,那是因为pytest执行时,后面需要带上一些参数。 参数内容 我们可以在cmd中通过输入 pytest -h…

域名捡漏的好方法,希望能够帮到你:域霸扫描器 V0.44 绿色免费版,供大家学习研究参考

高速扫描域名的工具,一均程序每小时五万条。 扫描域名是否注册,注册商是谁,域名的注册日期与过期日期。 供大家学习研究参考! 下载:https://download.csdn.net/download/weixin_43097956/88025564

【SpringBoot——Error记录】

IDEA正常安装后,运行按钮为灰色解决方法尝试 解决方法一(本人适用)解决方法二 解决方法一(本人适用) 检查创建项目时JDK是否添加,版本是否正确。 解决方法二 点击左下角的Structure 参考链接&#xff1…

回归预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络多输入单输出回归预测

回归预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络多输入单输出回归预测 目录 回归预测 | MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络多输入单输出回归预测预测效果基本介绍模型描述程序设计学习总结参考资料 预测效果 基本介绍 回归预测 …

node中的数据持久化之mongoDB

一、什么是mongoDB MongoDB是一种开源的非关系型数据库,正如它的名字所表示的,MongoDB支持的数据结构非常松散,是一种以bson格式(一种json的存储形式)的文档存储方式为主,支持的数据结构类型更加丰富的NoS…

mysql多表查询练习题

创建表及插入数据 create table if not exists dept3( deptno varchar(20) primary key , -- 部门号 name varchar(20) -- 部门名字 ); -- 创建员工表 create table if not exists emp3( eid varchar(20) primary key , -- 员工编号 ename varchar(20), -- 员工名字 age int, -…

换零钱——最小钱币张数(贪心算法)

贪心算法:根据给定钱币面值列表,输出给定钱币金额的最小张数。 (本笔记适合学完python基本数据结构,初通 Python 的 coder 翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free:大咖免费“圣…