机器学习 第7章 贝叶斯分类器

news2024/11/15 21:57:14

目录

  • 7.1 贝叶斯决策论
  • 7.2 极大似然估计
  • 7.3 朴素贝叶斯分类器
  • 7.4 半朴素贝叶斯分类器
  • 7.5 贝叶斯网
    • 7.5.1 结构
    • 7.5.2 学习
    • 7.5.3 推断
  • 7.6 EM算法

7.1 贝叶斯决策论

对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。假设有N种可能的类别标记,即 γ = { c 1 , c 2 , . . . , c N } \gamma =\left \{ c_{1},c_{2},...,c_{N} \right \} γ={c1,c2,...,cN}, λ i j \lambda _{ij} λij是将一个真实标记为 c j c_{j} cj 的样本误分类为 c i c_{i} ci
所产生的损失。基于后验概率 P ( c i ∣ x ) P\left ( c_{i}\mid x \right ) P(cix)可获得将样本 x x x分类为 c i c_{i} ci所产生的期望损失,,即在样本 x x x上的“条件风险”。 R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i\mid\boldsymbol{x})=\sum_{j=1}^N\lambda_{ij}P(c_j\mid\boldsymbol{x}) R(cix)=j=1NλijP(cjx)
我们的任务是寻找一个判定准则 h h h χ ↦ γ \chi \mapsto \gamma χγ以最小化总体风险 R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R\left(h\right)=\mathbb{E}_{\boldsymbol{x}}\left[R\left(h\left(\boldsymbol{x}\right)\mid\boldsymbol{x}\right)\right] R(h)=Ex[R(h(x)x)]
对每个样本 x x x,若 h h h能最小化条件风险 R ( h ( x ) ∣ x ) R\left ( h\left ( x \right )\mid x \right ) R(h(x)x),则总体风险 R ( h ) R\left ( h \right ) R(h)也将被最小化。故此,贝叶斯判定准则由此产生: 为最小化总体风险,只需在每个样本上选择那个能使条件风险 R ( c ∣ x ) R\left ( c\mid x \right ) R(cx)最小的类别标记,即
h ∗ ( x ) = arg ⁡ min ⁡ c ∈ Y R ( c ∣ x ) {h}^{ * }\left( \mathbf{x}\right) = \underset{c \in \mathcal{Y}}{\arg \min }R\left( {c \mid \mathbf{x}}\right) h(x)=cYargminR(cx)
h ∗ ( x ) h^{*} \left ( x \right ) h(x)称为贝叶斯最优分类器, R ( h ∗ ) R\left ( h^{*}\right ) R(h) 称为贝叶斯风险,1- R ( h ∗ ) R\left ( h^{*}\right ) R(h) 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
要想使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 P ( c ∣ x ) P\left ( c\mid x \right ) P(cx),下面介绍两种策略尽可能准确地估计出后验概率。
(1)判别式模型:给定 x x x, 可通过直接建模 P ( c ∣ x ) P\left ( c\mid x \right ) P(cx)来预测 c c c
(2)生成式模型:先对联合概率分布 P ( x ∣ c ) P\left ( x\mid c \right ) P(xc)建模,再由此获得 P ( c ∣ x ) P\left ( c\mid x \right ) P(cx)
总的来说:贝叶斯决策论是一种基于概率统计的决策理论,它基于最大后验概率来作出分类决策。在分类问题中,我们选择具有最高后验概率的类别作为最终分类结果。

7.2 极大似然估计

D c D_{c} Dc表示训练集 D D D中第c类样本组成的集合,,假设这些样本是独立同分布的,则参数 θ c \theta _{c} θc对于数据集 D c D_{c} Dc的似然是
P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P\left( {{D}_{c} \mid {\mathbf{\theta }}_{c}}\right) = \mathop{\prod }\limits_{{\mathbf{x} \in {D}_{c}}}P\left( {\mathbf{x} \mid {\mathbf{\theta }}_{c}}\right) P(Dcθc)=xDcP(xθc)
θ c \theta _{c} θc进行极大似然估计,就是去寻找能最大化似然 P ( D c ∣ θ c ) P\left ( D_{c}\mid \theta _{c} \right ) P(Dcθc)的参数值 θ ^ c \hat{\theta } _{c} θ^c。例如,在连续属性情形下,假设概率密度函数 p ( x ∣ c ) ∼ N ( μ c , σ c 2 ) p\left( {\mathbf{x} \mid c}\right) \sim \mathcal{N}\left( {{\mathbf{\mu }}_{c},{\mathbf{\sigma }}_{c}^{2}}\right) p(xc)N(μc,σc2),则参数 μ c \mu _{c} μc σ c 2 \sigma _{c} ^{2} σc2的极大似然估计为
μ ^ c = 1 ∣ D c ∣ ∑ x ∈ D c x {\widehat{\mu }}_{c} = \frac{1}{\left| {D}_{c}\right| }\mathop{\sum }\limits_{{x \in {D}_{c}}}x μ c=Dc1xDcx
σ ^ c 2 = 1 ∣ D c ∣ ∑ x ∈ D c ( x − μ ^ c ) ( x − μ ^ c ) T {\widehat{\sigma }}_{c}^{2} = \frac{1}{\left| {D}_{c}\right| }\mathop{\sum }\limits_{{\mathbf{x} \in {D}_{c}}}\left( {\mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}}\right) {\left( \mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}\right) }^{\mathrm{T}} σ c2=Dc1xDc(xμ c)(xμ c)T
也就是说,通过极大似然法得到的正态分布均值就是样本均值,方差就是 ( x − μ ^ c ) ( x − μ ^ c ) T \left( {\mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}}\right) {\left( \mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}\right) }^{\mathrm{T}} (xμ c)(xμ c)T的均值。

7.3 朴素贝叶斯分类器

为避免难以从有限的训练样本直接估计类条件概率 P ( x ∣ c ) P\left ( x\mid c \right ) P(xc)这个障碍,朴素贝叶斯分类器采用了"属性条件独立性假设" :对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。基于属性条件独立性假设
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P\left( {c \mid \mathbf{x}}\right) = \frac{P\left( c\right) P\left( {\mathbf{x} \mid c}\right) }{P\left( \mathbf{x}\right) } = \frac{P\left( c\right) }{P\left( \mathbf{x}\right) }\mathop{\prod }\limits_{{i = 1}}^{d}P\left( {{x}_{i} \mid c}\right) P(cx)=P(x)P(c)P(xc)=P(x)P(c)i=1dP(xic)
其中d为属性数目, x i x_{i} xi x x x在第i个个属性上的取值。
朴素贝叶斯分类器的表达式如下:
h n b ( x ) = arg ⁡ max ⁡ c ∈ Y P ( c ) ∏ i = 1 d P ( x i ∣ c ) {h}_{nb}\left( \mathbf{x}\right) = \underset{c \in \mathcal{Y}}{\arg \max }P\left( c\right) \mathop{\prod }\limits_{{i = 1}}^{d}P\left( {{x}_{i} \mid c}\right) hnb(x)=cYargmaxP(c)i=1dP(xic)
显然,朴素贝叶斯分类器的训练过程就是基于训练集 D D D来估计类先验概率 P ( c ) P\left ( c \right ) P(c),并为每个属性估计条件概率 P ( x i ∣ c ) P\left ( x_{i}\mid c \right ) P(xic)
其中类先验概率为
P ( c ) = ∣ D c ∣ ∣ D ∣ P\left( c\right) = \frac{\left| {D}_{c}\right| }{\left| D\right| } P(c)=DDc
对离散属性,条件概率为
P ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D c ∣ P\left( {{x}_{i} \mid c}\right) = \frac{\left| {D}_{c,{x}_{i}}\right| }{\left| {D}_{c}\right| } P(xic)=DcDc,xi
对连续属性,条件概率为
p ( x i ∣ c ) = 1 2 π σ c , i exp ⁡ ( − ( x i − μ c , i ) 2 2 σ c , i 2 ) p\left( {{x}_{i} \mid c}\right) = \frac{1}{\sqrt{2\pi }{\sigma }_{c,i}}\exp \left( {-\frac{{\left( {x}_{i} - {\mu }_{c,i}\right) }^{2}}{2{\sigma }_{c,i}^{2}}}\right) p(xic)=2π σc,i1exp(2σc,i2(xiμc,i)2)

7.4 半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性问的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”(ODE)是半朴素贝叶
斯分类器最常用的一种策略。即
P ( c ∣ x ) ∝ P ( c ) ∏ i = 1 d P ( x i ∣ c , p a i ) P\left( {c \mid \mathbf{x}}\right) \propto P\left( c\right) \mathop{\prod }\limits_{{i = 1}}^{d}P\left( {{x}_{i} \mid c,p{a}_{i}}\right) P(cx)P(c)i=1dP(xic,pai)
其中 p a i pa_{i} pai为属性 x i x_{i} xi 所依赖的属性,称为 x i x_{i} xi的父属性。若 x i x_{i} xi p a i pa_{i} pai都已知,可以通过相关方法估计概率值 P ( x i ∣ c , p a i ) P\left( {{x}_{i} \mid c,p{a}_{i}}\right) P(xic,pai),问题的关键就转化为如何确定每个属性的父属性。最直接的做法是假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE方法。
在这里插入图片描述
在(b)图中,所有属性都依赖 x 1 x_{1} x1,故 x 1 x_{1} x1是超父属性。

7.5 贝叶斯网

贝叶斯网,亦称“信念网”,,它借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布。
一个贝叶斯网 B B B由结构 G G G和参数 Θ \Theta Θ构成,即 B = < G , Θ > B=< G,\Theta > B=<G,Θ>, G G G表示一个有向无环图, Θ \Theta Θ描述图中的边之间的依赖关系。

7.5.1 结构

给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,于是 B = < G , Θ > B=< G,\Theta > B=<G,Θ>将这些属性的联合概率分布定义为
P B ( x 1 , x 2 , … , x d ) = ∏ i = 1 d P B ( x i ∣ π i ) = ∏ i = 1 d θ x i ∣ π i {P}_{B}\left( {{x}_{1},{x}_{2},\ldots ,{x}_{d}}\right) = \mathop{\prod }\limits_{{i = 1}}^{d}{P}_{B}\left( {{x}_{i} \mid {\pi }_{i}}\right) = \mathop{\prod }\limits_{{i = 1}}^{d}{\theta }_{{x}_{i} \mid {\pi }_{i}} PB(x1,x2,,xd)=i=1dPB(xiπi)=i=1dθxiπi
下图显示了贝叶斯网中三个变量之间的典型依赖关系。
在这里插入图片描述

7.5.2 学习

贝叶斯网络的学习包括参数学习和结构学习。参数学习是指从数据中学习节点之间的条件概率分布,而结构学习是指从数据中学习网络的拓扑结构。

7.5.3 推断

在贝叶斯网络中,推断是指根据已知观测值推断其他变量的状态。常用的推断算法包括变量消元、近似推断和马尔可夫链蒙特卡洛等。

7.6 EM算法

EM算法是常用的估计参数隐变量的利器,它是一种迭代式的方法,其基本想法是:若参数 Θ \Theta Θ已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之,若Z的值已知,则可方便地对参数 Θ \Theta Θ做极大似然估计(M步)
以初始值 Θ 0 \Theta^{0} Θ0为起点,可迭代执行以下步骤直至收敛:
(1)基于 Θ t \Theta^{t} Θt推断隐变量Z的期望,记为 Z t Z^{t} Zt;
(2)基于已观测变量X Z t Z^{t} Zt对参数 Θ \Theta Θ做极大似然估计,记为 Z t + 1 Z^{t+1} Zt+1

这就是EM算法原型。
若我们不是取Z的期望,而是基于 Θ t \Theta^{t} Θt计算隐变量Z的概率分布 P ( Z ∣ X , Θ t ) P\left ( Z\mid X,\Theta ^{t} \right ) P(ZX,Θt),则EM算法的步骤是
(1)E步:以当前参数 Θ t \Theta^{t} Θt推断隐变量分布 P ( Z ∣ X , Θ t ) P\left ( Z\mid X,\Theta ^{t} \right ) P(ZX,Θt),并计算对数似然 L L ( Θ ∣ X , Z ) LL(\Theta \mid X,Z) LL(ΘX,Z)关于Z的期望
Q ( Θ ∣ Θ t ) = E Z ∣ X , Θ t L L ( Θ ∣ X , Z ) Q\left( {\Theta \mid {\Theta }^{t}}\right) = {\mathbb{E}}_{\mathbf{Z} \mid \mathbf{X},{\Theta }^{t}}{LL}\left( {\Theta \mid \mathbf{X},\mathbf{Z}}\right) Q(ΘΘt)=EZX,ΘtLL(ΘX,Z)
(2)M步:寻找参数最大化期望似然,即
Θ t + 1 = arg ⁡ max ⁡ Θ    Q ( Θ ∣ Θ t ) {\Theta }^{t + 1} = \underset{\Theta }{\arg \max }\;Q\left( {\Theta \mid {\Theta }^{t}}\right) Θt+1=ΘargmaxQ(ΘΘt)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2094053.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何删除浏览器每次登录自动保存的密码,以防自动登录泄露自己的隐私

今天小编以 Microsoft edge 浏览器为例&#xff0c;如何在自己离职或毕业以后留给他人的电脑是干净的&#xff0c;不会在任何网页登录时显示已保存的密码&#xff0c;让他人自动登录。 ①在电脑上打开 Microsoft edge 浏览器后&#xff0c;点击“设置” ②进入设置界面后&…

基于SSM的咖啡馆管理系统

基于SSM的咖啡馆管理系统的设计与实现~ 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringSpringMVCMyBatisJSP工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 前台界面 后台界面 摘要 在当前这个信息爆炸的时代&#xff0c;众多行业正经历着…

Python酷库之旅-第三方库Pandas(114)

目录 一、用法精讲 501、pandas.DataFrame.mode方法 501-1、语法 501-2、参数 501-3、功能 501-4、返回值 501-5、说明 501-6、用法 501-6-1、数据准备 501-6-2、代码示例 501-6-3、结果输出 502、pandas.DataFrame.pct_change方法 502-1、语法 502-2、参数 502…

[知识分享]华为铁三角工作法

在通信技术领域&#xff0c;尤其是无线通信和物联网领域&#xff0c;“华为铁三角”是华为公司内部的一种销售、交付和服务一体化的运作模式。这种模式强调的是以客户为中心&#xff0c;通过市场、销售、交付和服务三个关键环节的紧密协作&#xff0c;快速响应客户需求&#xf…

2.12 滑动条事件

目录 实验原理 实验代码 运行结果 实验原理 在 OpenCV 中&#xff0c;滑动条设计的主要目的是在视频播放帧中选择特定帧&#xff0c;而在调节图像参数时也会经常用到。在使用滑动条前&#xff0c;需要给滑动条赋予一个名字&#xff08;通常是一个字符串&#xff09;&#x…

Java | Leetcode Java题解之第388题文件的最长绝对路径

题目&#xff1a; 题解&#xff1a; class Solution {public int lengthLongestPath(String input) {int n input.length();int pos 0;int ans 0;int[] level new int[n 1];while (pos < n) {/* 检测当前文件的深度 */int depth 1;while (pos < n && inpu…

Mamba:超越Transformer的新一代神经网络架构

在过去的七年里&#xff0c;Transformer一直在语言建模领域占据着主导地位。然而&#xff0c;现在有一个新兴的神经网络架构Mamba&#xff0c;正在挑战Transformer的霸主地位。虽然目前Mamba仅在规模较小的模型上进行了测试&#xff08;参数量达到数十亿&#xff09;&#xff0…

华为OD机试真题 - 构成正方形的数量(Java/Python/JS/C/C++ 2024 B卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;E卷D卷A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加…

MySQL密码策略更改(临时+永久)

目录 1、查看数据库当前密码策略 2、查看密码插件&#xff1a; 3、官方文档策略定义 4、更改密码策略 临时修改 &#xff08;1&#xff09;更改密码策略为LOW&#xff0c;改为LOW或0 &#xff08;2&#xff09;更改密码长度 &#xff08;3&#xff09;设置大小写、数字…

【操作系统】操作系统运行环境——中断与异常

中断与异常 导读一、中断机制1.1 中断机制的重要性 二、中断与异常的基本概念2.1 中断与异常的个人理解2.2 内中断与外中断 三、中断与异常的分类四、中断与异常的处理过程结语 导读 大家好&#xff0c;很高兴又和大家见面啦&#xff01;&#xff01;&#xff01; 在上一篇内…

【C++ | 设计模式】简单工厂模式的详解与实现

1.简单工厂模式概述 简单工厂模式&#xff08;Simple Factory Pattern&#xff09;是一种创建型设计模式&#xff0c;它定义了一个工厂类&#xff0c;由这个类根据提供的参数决定创建哪种具体的产品对象。简单工厂模式将对象的创建逻辑集中到一个工厂类中&#xff0c;从而将对…

认知杂谈32

今天分享 有人说的一段争议性的话 I I 《恋爱中的价值难题》 咱就认识个31岁的哥们&#xff0c;事业有成&#xff0c;一年能挣35 万。他现在正为找对象的事儿犯愁呢。他想找个年轻漂亮的小姑娘谈对象&#xff0c;可又不想在感情上投入太多&#xff0c;就想一边乐呵着&#x…

Linux(CentOS)同步服务器时间之~ntpd

NTP 是 Network Time Protocol&#xff08;网络时间协议&#xff09;的缩写&#xff0c;它是一种用于在计算机系统之间同步时间的协议。NTP 允许网络中的设备通过与一个或多个时间服务器进行通信&#xff0c;来校正自身的系统时钟&#xff0c;确保所有设备上的时间保持高度一致…

演示:基于WPF的DrawingVisual和谷歌地图瓦片开发的地图(完全独立不依赖第三方库)

一、目的&#xff1a;基于WPF的DrawingVisual和谷歌地图瓦片开发的地图 二、预览 三、环境 VS2022&#xff0c;Net7,DrawingVisual&#xff0c;谷歌地图瓦片 四、主要功能 地图缩放&#xff0c;平移&#xff0c;定位 真实经纬度 显示瓦片信息 显示真实经纬度和经纬线 省市县…

[环境配置]Pycharm手动安装汉化插件

在Pycharm-file-setting-Plugins中&#xff0c;搜索chinese&#xff0c;就会出现汉化包 点击install后&#xff0c;在安装时出现这种报错&#xff1a;Plugin "Chinese (Simplified) Language Pack / 中文语言包" was not installed: Invalid filename returned by a …

用 jsPDF 让 PDF 生成触手可及

jsPDF &#xff1a;在浏览器中生成 PDF&#xff0c;从未如此简单- 精选真开源&#xff0c;释放新价值。 概览 jsPDF 是一个开源的 JavaScript 库&#xff0c;专为在浏览器端生成 PDF 文档而设计。它通过提供一个直观且易于使用的 API&#xff0c;使得开发者能够快速地将 PDF 生…

【Kubernetes】持久卷 PV

持久卷 PV 1.什么是持久卷2.创建一个持久卷3.持久卷的访问模式4.持久卷的回收策略 数据卷是在创建 Pod 时通过 挂载目录 来实现数据的共享和持久化的。但是在一个大型系统中&#xff0c;这种方式是非常不利于管理的&#xff0c;因为数据卷把数据的 持久存储 和 供应使用 封装在…

短时傅里叶变换(Short-Time Fourier Transform, STFT),语音识别

高能预警&#xff01;&#xff01;&#xff01; .wav文件为笔者亲自一展歌喉录制的噪声&#xff0c;在家中播放&#xff0c;可驱赶耗子&#xff0c;蟑螂 介绍 短时傅里叶变换&#xff08;Short-Time Fourier Transform, STFT&#xff09;是一种时频分析方法&#xff0c;用于…

智能分拣投递机器人

产品介绍 自研智能分拣投递机器人&#xff0c;专注于物流行业“NC小件”的分拣与投递&#xff0c;机器人运行稳定、分拣效率高&#xff0c;搭配智能分拣投递系统单台机器人最大作业效率可达400件/H&#xff0c;投递效率相较于传统“小黄人“提升了30%-50%&#xff0c;可替代“…

生成艺术,作品鉴赏:物似主人形

2001年&#xff0c;当21岁的我&#xff0c;还在恒基伟业当高级工程师时。我有一个女同事&#xff0c;她有个特别大的杯子用来喝水&#xff0c;不夸张的说&#xff0c;是那种我从来没见过的大杯子&#xff0c;由于她是很大只的那种&#xff0c;她便自嘲说&#xff1a;「物似主人…