贝叶斯定理~~概率分布

news2024/11/24 12:49:25

 还是搬来了基础自己学习用哦 ~~

从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。

第一部分.介绍概率论基础知识。

概率

我们已经拥有十分强大的数学工具了,为什么我们还需要学习概率论?我们用微积分来处理变化无限小的函数,并计算它们的变化。我们使用代数来解方程,我们还有其他几十个数学领域来帮助我们解决几乎任何一种可以想到的难题。

难点在于我们都生活在一个混乱的世界中,多数情况下无法准确地测量事物。当我们研究真实世界的过程时,我们想了解许多影响实验结果的随机事件。不确定性无处不在,我们必须驯服它以满足我们的需要。只有如此,概率论和统计学才会发挥作用。

如今,这些学科处于人工智能,粒子物理学,社会科学,生物信息学以及日常生活中的中心。

如果我们要谈论统计学,最好先确定什么是概率。其实,这个问题没有绝对的答案。我们接下来将阐述概率论的各种观点。

频率

想象一下,我们有一枚硬币,想验证投掷后正反面朝上频率是否相同。我们如何解决这一问题?我们试着进行一些实验,如果硬币正面向上记录 1,如果反面向上记录 0。重复投掷 1000 次并记录 0 和 1 的次数。在我们进行了一些繁琐的时间实验后,我们得到了这些结果:600 个正面(1)和 400 反面(0)。如果我们计算过去正面和反面的频率,我们将分别得到 60%和 40%。这些频率可以被解释为硬币出现正面或者反面的概率。这被称为频率化的概率。

条件概率

通常,我们想知道某些事件发生时其它事件也发生的概率。我们将事件 B 发生时事件 A 也发生的条件概率写为 P(A | B)。以下雨为例:

  • 打雷时下雨的概率有多大?

  • 晴天时下雨的概率有多大?

从这个欧拉图,我们可以看到 P(Rain | Thunder)= 1 :当我们看到雷声时,总会下雨(当然,这不完全正确,但是我们在这个例子中保证它成立)。

P(Rain | Sunny)是多少呢?直觉上这个概率很小,但是我们怎样才能在数学上做出这个准确的计算呢?条件概率定义为:

如果我们从右到左阅读上式,我们会发现 P(A | B) = P(A)。这就意味着事件 A 独立于事件 B!P(B)也是一样,独立事件的解释就是这样。

贝叶斯概率论

贝叶斯可以作为一种理解概率的替代方法。频率统计方法假设存在我们正在寻找的模型参数的一个最佳的具体组合。另一方面,贝叶斯以概率方式处理参数,并将其视为随机变量。在贝叶斯统计中,每个参数都有自己的概率分布,它告诉我们给已有数据的参数有多种可能。数学上可以写成

尽管贝叶斯定理很简单,但它具有巨大的价值,广泛的应用领域,甚至是贝叶斯统计学的特殊分支。有一个关于贝叶斯定理的非常棒的博客文章,如果你对贝叶斯的推导感兴趣---这并不难。

抽样与统计

假设我们正在研究人类的身高分布,并渴望发表一篇令人兴奋的科学论文。我们测量了街上一些陌生人的身高,因此我们的测量数据是独立的。我们从真实人群中随机选择数据子集的过程称为抽样。统计是用来总结采样值数据规律的函数。你可能见过的统计量是样本均值:


这个公式可以得出所有数据点偏离平均值的程度。

分布

什么是概率分布?这是一个定律,它以数学函数的形式告诉我们在一些实验中不同可能结果的概率。对于每个函数,分布可能有一些参数来调整其行为。

当我们计算硬币投掷事件的相对频率时,我们实际上计算了一个所谓经验概率分布。事实证明,世界上许多不确定的过程可以用概率分布来表述。例如,我们的硬币结果是一个伯努利分布,如果我们想计算一个 n 次试验后硬币正面向上的概率,我们可以使用二项式分布。

引入一个类似于概率环境中的变量的概念会方便很多--随机变量。每个随机变量都具有一定的分布。随机变量默认用大写字母表示,我们可以使用 ~ 符号指定一个分布赋给一个变量。

上式表示随机变量 X 服从成功率(正面向上)为 0.6 的伯努利分布。

连续和离散概率分布

概率分布可分为两种:离散分布用于处理具有有限值的随机变量,如投掷硬币和伯努利分布的情形。离散分布是由所谓的概率质量函数(PMF)定义的,连续分布用于处理连续的(理论上)有无限数量的值的随机变量。想想用声音传感器测量的速度和加速度。连续分布是由概率密度函数(PDF)定义的。

这两种分布类型在数学处理上有所不同:通常连续分布使用积分 ∫ 而离散分布使用求和Σ。以期望值为例: 

下面我们将详细介绍各种常见的概率分布类型,正如上所说,概率分布可以分为离散型随机变量分布和连续性随机变量分布。离散型随机变量分布常见的有伯努利分布(Bernoulli Distribution)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常见的连续型随机变量分布包括均匀分布(Uniform Distribution)、指数分布(Exponential Distribution)、正态分布等。

常见的数据类型

在解释各种分布之前,我们先看看常见的数据类型有哪些,数据类型可分为离散型和连续型。

离散型数据:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。

连续型数据:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kgs,54.5 kgs,或 54.5436kgs。

分布的类型

伯努利分布

最简单的离散型随机变量分布是伯努利分布,我们从这里开始讨论。

一个伯努利分布只有两个可能的结果,记作 1(成功)和 0(失败),只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X,取值为 1 即成功的概率为 p,取值为 0 即失败的概率为 q 或者 1-p。

若随机变量 X 服从伯努利分布,则概率函数为:

 

成功和失败的概率不一定要相等。比如当我和一个运动员打架的时候,他的胜算应该更大,在这时候,我的成功概率是 0.15,而失败概率是 0.85。

下图展示了我们的战斗的伯努利分布。 

如上图所示,我的成功概率=0.15,失败概率=0.85。期望值是指一个概率分布的平均值,对于随机变量 X,对应的期望值为:E(X) = 1*p + 0*(1-p) = p,而方差为 V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)

实际上还有很多关于伯努利分布的例子,比如明天是晴天还是雨天,这场比赛中某一队输还是赢,等等。

二项分布

现在回到掷硬币的案例中,当掷完第一次,我们可以再掷一次,也就是存在多个伯努利试验。第一次为正不代表以后也会为正。那么设一个随机变量 X,它表示我们投掷为正面的次数。X 可能会取什么值呢?在投掷硬币的总次数范围内可以是任何非负整数。

如果存在一组相同的随机事件,即一组伯努利试验,在上例中为连续掷硬币多次。那么某随机事件出现的次数即概率服从于二项分布,也称为多重伯努利分布。

任何一次试验都是互相独立的,前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 n 和 p,n 是试验的总次数,p 是每一次试验的成功概率。

根据以上所述,一个二项分布的性质为:

1. 每一次试验都是独立的;

2. 只有两个可能的结果;

3. 进行 n 次相同的试验;

4. 所有试验中成功率都是相同的,失败的概率也是相同的。

二项分布的数学表达式为:

 

成功概率和失败概率不相等的二项分布看起来如下图所示: 

而成功概率和失败概率相等的二项分布看起来如下图所示: 

二项分布的平均值表示为 µ = n*p,而方差可以表示为 Var(X) = n*p*q。

泊松分布

如果你在一个呼叫中心工作,一天内会接到多少次呼叫呢?多少次都可能!在呼叫中心一天能接到多少次呼叫可以用泊松分布建模。这里有几个例子:

1. 一天内医院接到的紧急呼叫次数;

2. 一天内地方接到的偷窃事件报告次数;

3. 一小时内光顾沙龙的人数;

4. 一个特定城市里报告的自杀人数;

5. 书的每一页的印刷错误次数。

现在你可以按相同的方式构造很多其它的例子。泊松分布适用于事件发生的时间和地点随机分布的情况,其中我们只对事件的发生次数感兴趣。泊松分布的主要特点为如下:

1. 任何一个成功事件不能影响其它的成功事件;

2. 经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;

3. 时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零。

在泊松分布中定义的符号有:

  • λ是事件的发生率;

  • t 是事件间隔的长度;

  • X 是在一个时间间隔内的事件发生次数。

设 X 是一个泊松随机变量,那么 X 的概率分布称为泊松分布。以µ表示一个时间间隔 t 内平均事件发生的次数,则 µ=λ*t;

X 的概率分布函数为:

泊松分布的概率分布图示如下,其中µ为泊松分布的参数: 

下图展示了均值增加时的分布曲线的变化情况:

如上所示,当均值增加时,曲线向右移动。泊松分布的均值和方差为:

均值:E(X) = µ

方差:Var(X) = µ

均匀分布

假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 [a,b] 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不同,随机变量的取值都是等概率的,因此概率密度就可以表达为区间长度分之一,如果我们取随机变量一半的可能值,那么其出现的概率就为 1/2。

假定随机变量 X 服从均匀分布,那么概率密度函数为:

均匀分布曲线图如下所示,其中概率密度曲线下面积为随机变量发生的概率: 

 我们可以看到均匀分布的概率分布图呈现为一个矩形,这也就是均匀分布又称为矩形分布的原因。在均匀分布中,a 和 b 都为参数,也即随机变量的取值范围。

服从均匀分布的随机变量 X 也有均值和方差,它的均值为 E(X) = (a+b)/2,方差为 V(X) = (b-a)^2/12

标准均匀分布的密度函数参数 a 取值为 0,b 取值为 1,因此标准均匀分布的概率密度可以表示为:

指数分布

现在我们再次考虑电话中心案例,那么电话间隔的分布是怎么样的呢?这个分布可能就是指数分布,因为指数分布可以对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。

在深度学习中,我们经常会需要一个在 x=0 处取得边界点 (sharp point) 的分布。为了实现这一目的,我们可以使用指数分布(exponential distribution):

 

指数分布使用指示函数 (indicator function)1x≥0,以使当 x 取负值时的概率为零。

其中 λ >0 为概率密度函数的参数。随机变量 X 服从于指数分布,则该变量的均值可表示为 E(X) = 1/λ、方差可以表示为 Var(X) = (1/λ)^2。如下图所示,若λ较大,则指数分布的曲线下降地更大,若λ较小,则曲线越平坦。如下图所示:

以下是由指数分布函数推导而出的简单表达式:

P{X≤x} = 1 – exp(-λx),对应小于 x 的密度函数曲线下面积。

P{X>x} = exp(-λx),代表大于 x 的概率密度函数曲线下面积。

P{x1<X≤ x2} =exp(-λx1)-exp(-λx2),代表 x1 点和 x2 点之间的概率密度函数曲线下面积。

正态分布(高斯分布)

实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。因为该分布的普遍性,尤其是中心极限定理的推广,一般叠加很多较小的随机变量都可以拟合为正态分布。正态分布主要有以下几个特点:

1. 所有的变量服从同一均值、方差和分布模式。

2. 分布曲线为钟型,并且沿 x=μ对称。

3. 曲线下面积的和为 1。

4. 该分布左半边的精确值等于右半边。

正态分布和伯努利分布有很大的不同,然而当伯努利试验的次数接近于无穷大时,他们的分布函数基本上是相等的。

若随机变量 X 服从于正态分布,那么 X 的概率密度可以表示为:

随机变量 X 的均值可表示为 E(X) = µ、方差可以表示为 Var(X) = σ^2。其中均值µ和标准差σ为高斯分布的参数。

随机变量 X 服从于正态分布 N (µ, σ),可以表示为:

标准正态分布可以定义为均值为 0、方差为 1 的分布函数,以下展示了标准正态分布的概率密度函数和分布图: 

分布之间的关系

伯努利分布和二项分布的关系

1. 二项分布是伯努利分布的单次试验的特例,即单词伯努利试验;

2. 二项分布和伯努利分布的每次试验都只有两个可能的结果;

3. 二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。

泊松分布和二项分布的关系

以下条件下,泊松分布是二项分布的极限形式:

1. 试验次数非常大或者趋近无穷,即 n → ∞;

2. 每次试验的成功概率相同且趋近零,即 p →0;

3.np =λ 是有限值。

正态分布和二项分布的关系 & 正态分布和泊松分布的关系

以下条件下,正态分布是二项分布的一种极限形式:

1. 试验次数非常大或者趋近无穷,即 n → ∞;

2.p 和 q 都不是无穷小。

参数 λ →∞的时候,正态分布是泊松分布的极限形式。

指数分布和泊松分布的关系

如果随机事件的时间间隔服从参数为 λ的指数分布,那么在时间周期 t 内事件发生的总次数服从泊松分布,相应的参数为 λt。           whaosoft aiot http://143ai.com

测试

读者可以完成以下简单的测试,检查自己对上述概率分布的理解程度:

1. 服从标准正态分布的随机变量计算公式为:

a. (x+µ) / σ

b. (x-µ) / σ

c. (x-σ) / µ

2. 在伯努利分布中,计算标准差的公式为:

a. p (1 – p)

b. SQRT(p(p – 1))

c. SQRT(p(1 – p))

3. 对于正态分布,均值增大意味着:

a. 曲线向左移

b. 曲线向右移

c. 曲线变平坦

4. 假定电池的生命周期服从 λ = 0.05 指数分布,那么电池的最终使用寿命在 10 小时到 15 小时之间的概率为:

a.0.1341

b.0.1540

c.0.0079

结语

在本文从最基本的随机事件及其概念出发讨论对概率的理解。随后我们讨论了最基本的概率计算方法与概念,比如条件概率和贝叶斯概率等等。文中还讨论了随机变量的独立性和条件独立性。此外,本文更是详细介绍了概率分布,包括离散型随机变量分布和连续型随机变量分布。本文主要讨论了基本的概率定理与概念,其实这些内容在我们大学的概率论与数理统计课程中基本上都有详细的解释。而对于机器学习来说,理解概率和统计学知识对理解机器学习模型十分重要,以它为基础我们也能进一步理解结构化概率等新概念。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/58358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

适应性哈夫曼编码(Adaptive Huffman coding)

适应性哈夫曼编码适应性哈夫曼编码简介算法示例适应性哈夫曼编码 简介 适应性哈夫曼编码&#xff08;Adaptive Huffman coding&#xff09;&#xff0c;又称动态哈夫曼编码&#xff08;Dynamic Huffman coding&#xff09;&#xff0c;是基于哈夫曼编码的适自适应编码技术。它…

深度学习Day07

Recurrent Neural Network 智慧客服——Slot Filling 根据上 下文产生不同的output

Java搭建宝塔部署实战毕设项目WMS仓库管理系统源码

大家好啊&#xff0c;我是测评君&#xff0c;欢迎来到web测评。 本期给大家带来一套Java开发的毕业设计项目WMS仓库管理系统源码。 技术架构 技术框架&#xff1a;SpringMVC Mybatis Ehcache bootstrap jquery mysql5.7运行环境&#xff1a;jdk8 nginx1.20 tomcat9 In…

基于PSO粒子群算法的MPPT最大功率跟踪Simulink仿真,PSO采用S函数实现

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 MPPT控制器的全称是“最大功率点跟踪”&#xff08;Maximum Power Point Tracking&#xff09;太阳能控制器&#xff0c;是传统太阳能充放电控制器的升级换代产品。MPPT控制器能够实时侦测太阳能…

30岁自学Python转行靠谱吗?

前言 30岁自学Python转行靠谱吗&#xff1f;若啃学习任何时候都不晚&#xff0c;关键是学习完用来做什么。提高工作效率&#xff0c;写些脚本实现自动化办公这些完全没问题。如果学python是为了转开发&#xff0c;建议慎重考虑&#xff0c;程序开发转Python相对容易些&#xf…

[附源码]计算机毕业设计血库管理系统Springboot程序

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

计算机网络——运输层【重点】

运输层概述 概念 进程之间的通信 从通信和信息处理的角度看&#xff0c;运输层向它上面的应用层提供通信服务&#xff0c;它属于面向通信部分的最高层&#xff0c;同时也是用户功能中的最低层。当网络的边缘部分中的两个主机使用网络的核心部分的功能进行端到端的通信时&…

【SpingBoot拦截器】实现两个接口,配置拦截路径

文章目录SpingBoot拦截器拦截器与过滤器的区别&#xff1a;1.HandlerInterceptor接口2.WebMvcConfigurer接口3.示例&#xff1a;SpingBoot拦截器 【SpringWeb框架中的拦截器作用类似于过滤器&#xff0c;都可以对一个请求进行拦截处理。】 我们可以用拦截器做很多事情&#xf…

使用HTML制作静态网站作业——我的校园运动会(HTML+CSS)

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

Java项目:SSM企业门户网站

作者主页&#xff1a;源码空间站2022 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目分为前后台&#xff0c;前台主要用于官网展示&#xff0c;后台主要为管理员管理&#xff0c; 管理员角色包含以下功能&#xff1a; 管理员…

Rook Ceph浅谈

storageclass是最省心的&#xff0c;上面三种删除了容器存储还在 下图是管理员定义pv&#xff0c;用户不知道这些细节 PersistentVolume pv会跟后端的存储rbd对接 用户通过PVC调用PV ,根据10G容量去pv里找相匹配的自动关联 上图就叫 pvc-demo StorageClass 更厉害 管理员…

PostgreSQL 内核可观测性体系

文章目录背景Metricspgstat指标展示指标统计相关的guc 参数pgstat 实现pg_stat_statements基本用法及指标内容pg_stat_statements 实现Trace总结背景 PG 作为一个演讲30多年历史的TP 数据库&#xff0c;其复杂度极高&#xff0c;如果帮助DBA 在线上分析复杂查询的问题或者构建…

Nexus私服(二)

(一) SpringBoot配置Maven发布至Nexus私服 Nexus默认会带有四常用个仓库&#xff0c;maven-central、maven-public、maven-releases、maven-snapshotsmaven-central类型是proxy代理类型&#xff0c;地址是指向maven中央仓库地址https://repo1.maven.org/maven2/maven-releases、…

空间复杂度(Space Complexity)

预计阅读时间&#xff1a;10分钟 一、简介 随着计算机空间的发展&#xff0c;空间复杂度逐渐变得不那么重要了&#xff0c;但它在比赛中仍然存在。 推导方法&#xff1a; 用常数1取代运行时间中的所有加法常数。 在修改后的运行次数函数中&#xff0c;只保留最高阶项。…

[附源码]Python计算机毕业设计Django旅游网的设计与实现

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

2013-2020年全国31省数字经济信息化基础数据

2013-2020年全国31省数字经济信息化基础 1、时间&#xff1a;2013-2020年 2、来源&#xff1a;国家统计J和统计NJ 3、范围&#xff1a;31省 4、指标包括&#xff1a; "光缆线路长度(公里)、移动电话基站&#xff08;万个&#xff09;、信息传输、软件和信息技术服务业…

基于模糊BP神经网络轨迹跟踪(Matlab代码实现)

&#x1f468;‍&#x1f393;个人主页&#xff1a;研学社的博客 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜…

【VUE Cli脚手架软件安装篇】

目录 1. 搭建开发环境 1.1. 安装Node.js 1.2. 配置npm源 2. 安装VUE Cli 3. 创建第1个VUE CLI工程 3.1. 创建工程 3.2. 启动服务 3.3. 停止服务 3.4. 重启服务 1. 搭建开发环境 1.1. 安装Node.js 首先需要下载Node.js安装包&#xff0c;下载地址可参考&#xff1a;ht…

【数据结构】顺序表的概念及实现

顺序表1、顺序表概念2、初始化顺序表3、销毁顺序表4、判断顺序表是否为空5、打印顺序表6、检查顺序表的容量&#xff08;同时充当扩容任务&#xff09;7、顺序表的尾插8、顺序表的头插9、顺序表的尾删10、顺序表的头删11、查找顺序表中某个数的位置12、在顺序表pos位置插入数字…

光环:元宇宙概念及生态发展现状与研判——张子良

摘要&#xff1a;文章内容主要来源于光环国际2022年第三届中国科创者大会张子良老师的分享&#xff0c;原分享名称为"元宇宙行业应用实践探索"。讲述了元宇宙的理论知识、元宇宙生态圈及当前发展的情况。提出来看一个概念是否相同可以从引入时间、内容两个方面去界定…