深度学习-第三章概率与信息论

news2025/1/25 7:15:50
  • 前言
    • 概率论学科定义
    • 概率与信息论在人工智能领域的应用
  • 3.1,为什么要使用概率论
  • 3.2,随机变量
  • 3.3,概率分布
    • 3.3.1,离散型变量和概率质量函数
    • 3.3.2,连续型变量和概率密度分布函数
  • 3.4,边缘概率
  • 3.5,条件概率
    • 3.5.1,条件概率的链式法则
    • 3.6,独立性和条件独立性
  • 3.7,条件概率、联合概率和边缘概率总结
  • 3.8,期望、方差和协方差
    • 3.8.1,期望
      • 期望数学定义
      • 期望应用
    • 3.8.2,方差
      • 方差数学定义
      • 总体方差数学定义
    • 3.8.3,期望与方差的运算性质
    • 3.8.4,协方差
      • 协方差数学定义
  • 3.9,常用概率分布
    • 3.9.1,伯努利分布
    • 3.9.2,Multinoulli 分布
    • 3.9.3,高斯分布
    • 3.9.4,指数分布和 Laplace 分布
  • 3.10,常用函数的有用性质
  • 3.11,贝叶斯定理
    • 3.11.1,贝叶斯定理公式
    • 3.11.2,贝叶斯理论与概率密度函数
  • 3.12,连续型变量的技术细节
  • 3.13,信息论-相对熵和交叉熵
  • 3.14,结构化概率模型
  • 参考资料

本文首发于 github。最新版以 github 为主。如果看完文章有所收获,一定要先点赞后收藏。毕竟,赠人玫瑰,手有余香。

本文内容大多来自《深度学习》(花书)第三章概率与信息论。目录的生成是参考此篇 文章。

前言

概率论学科定义

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明statement)的公理。概率论的知识在机器学习和深度学习领域都有广泛应用,是学习这两门学科的基础。

概率与信息论在人工智能领域的应用

在人工智能领域,概率论主要有两种用途。

  • 首先,概率定律告诉我们 AI 系统应该如何推理,基于此我们设计一些算法来计算或者估算由概率论导出的表达式。
  • 其次,我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

虽然概率论允许我们在存在不确定性的情况下做出不确定的陈述和推理,但信息论允许我们量化概率分布中不确定性的数量。

3.1,为什么要使用概率论

这是因为机器学习必须始终处理不确定的量,有时可能还需要处理随机(非确定性)的量,这里的不确定性和随机性可能来自多个方面。而使用使用概率论来量化不确定性的论据,是来源于 20 世纪 80 年代的 Pearl (1988) 的工作。

不确定性有三种可能的来源:

  1. 被建模系统内在的随机性。
  2. 不完全观测。
  3. 不完全建模:使用了一些必须舍弃某些观测信息的模型。

3.2,随机变量

随机变量random variable)是可以随机地取不同值的变量,它可以是离散或者连续的。

离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数; 它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。注意,随机变量只是对可能状态的描述;它必须与指定这些状态中的每一个的可能性的概率分布相结合。

我们通常用无格式字体 (plain typeface) 中的小写字母来表示随机变量本身,而用手写体中的小写字母来表示随机变量能够取到的值。例如, x 1 x_1 x1 x 2 x_2 x2 都是随机变量 x \textrm{x} x 可能的取值。对于向量值变量,我们会将随机变量写成 x \mathbf{x} x,它的一个可能取值为 x \boldsymbol{x} x

中文维基百科用 X X X 表示随机变量,用 f X ( x ) f_{X}(x) fX(x) 表示概率密度函数,本文笔记,不同小节内容两者混用。

3.3,概率分布

概率分布probability distribution)是用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。

如果狭义地讲,它是指随机变量的概率分布函数。具有相同概率分布函数的随机变量一定是相同分布的。连续型和离散型随机变量的概率分布描述方式是不同的。

3.3.1,离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数probability mass function, PMF,也称概率密度函数)来描述。我们通常用大写字母 P P P 来表示概率质量函数,用 x ∼ P ( x ) \textrm{x} \sim P(\textrm{x}) xP(x) 表示随机变量 x \textrm{x} x 遵循的分布

虽然通常每一个随机变量都会有一个不同的概率质量函数,但是概率质量函数也可以同时作用于多个随机变量,这种多个变量的概率分布被称为联合概率分布joint probability distribution)。 P ( x = x , y = y ) P(\textrm{x} = x, \textrm{y} = y) P(x=x,y=y) 表示 x = x \textrm{x} = x x=x y = y \textrm{y} = y y=y 同时发生的概率,有时也可简写为 P ( x , y ) P(x,y) P(xy)

如果一个函数 P P P 是随机变量 x \textrm{x} xPMF,必须满足以下条件:

  • P P P 的定义域必须是 x \textrm{x} x 所有可能状态的集合。
  • ∀ x ∈ x , 0 ≤ P ( x ) ≤ 1 \forall x \in \textrm{x}, 0 \leq P(x)\leq 1 xx,0P(x)1。不可能发生的事件概率为 0,能够确保一定发生的事件概率为 1
  • ∑ x ∈ x P ( x ) = 1 \sum_{x \in \textrm{x}}P(x)=1 xxP(x)=1归一化normalized)。

常见的离散概率分布族有

  • 伯努利分布
  • 二项分布:一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。
  • 几何分布
  • Poisson 分布(泊松分布):Poisson 近似是二项分布的一种极限形式。
  • 离散均匀分布:即对于随机变量 x \textrm{x} x,因为其是均匀分布(uniform distribution),所以它的 PMF P ( x = x i ) = 1 k P(\textrm{x}=x_{i}) = \frac{1}{k} P(x=xi)=k1,同时 ∑ i P ( x = x i ) = ∑ i 1 k = k k = 1 \sum_{i}P(\textrm{x} = x_{i}) = \sum_{i}\frac{1}{k} = \frac{k}{k} = 1 iP(x=xi)=ik1=kk=1

3.3.2,连续型变量和概率密度分布函数

连续型随机变量的概率分布可以用概率密度函数probability desity function, PDF)来描述。

通常用小写字母 p p p 来表示随机变量 x \textrm{x} x 的概率密度函数 PDF,其必须满足以下条件:

  • p p p 的定义域必须是 x \textrm{x} x 所有可能状态的集合。
  • ∀ x ∈ x , p ( x ) ≥ 0 \forall x \in \textrm{x}, p(x)\geq 0 xx,p(x)0。注意,并不要求 p ( x ) ≤ 1 p(x)\leq 1 p(x)1
  • ∫ p ( x ) d x = 1 \int p(x)dx=1 p(x)dx=1

概率密度函数 p ( x ) p(x) p(x) 给出的是落在面积为 δ x \delta x δx 的无限小的区域内的概率为 p ( x ) δ x p(x)\delta x p(x)δx

因此,我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地, x x x 落在集合 S \mathbb{S} S 中的概率可以通过 p ( x ) p(x) p(x) 对这个集合求积分来得到。在单变量的例子中, x x x 落在区间 [ a , b ] [a,b] [a,b] 的概率是 ∫ [ a , b ] p ( x ) d x \int_{[a,b]}p(x)dx [a,b]p(x)dx

常见的连续概率分布族有

  • 均匀分布
  • 正态分布:连续型随机变量的概率密度函数如下所示。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中 μ \mu μ 是平均值, σ \sigma σ 是标准差。正态分布是一种理想分布。 f ( x ) = 1 σ 2 π e ( − 1 2 ( x − μ σ ) 2 ) {f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}} f(x)=σ2π 1e(21(σxμ)2)
  • 伽玛分布
  • 指数分布

3.4,边缘概率

边缘概率好像应用并不多,所以这里理解定义和概念即可。
边缘概率的通俗理解描述,来源于 数学篇 - 概率之联合概率、条件概率、边缘概率和贝叶斯法则(笔记)。

有时候,我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。

对于离散型随机变量 x \textrm{x} x y \textrm{y} y,知道 P ( x , y ) P(\textrm{x}, \textrm{y}) P(x,y),可以依据下面的求和法则sum rule)来计算边缘概率 P ( x ) P(\textrm{x}) P(x)

∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) \forall x \in \textrm{x},P(\textrm{x}=x)=\sum_{y}P(\textrm{x}=x, \textrm{y}=y) xx,P(x=x)=yP(x=x,y=y)

“边缘概率”的名称来源于手算边缘概率的计算过程。当 P ( x , y ) P(x,y) P(x,y) 的每个值被写在由每行表示不同的 x x x 值,每列表示不同的 y y y 值形成的网格中时,对网格中的每行求和是很自然的事情,然后将求和的结果 P ( x ) P(x) P(x) 写在每行右边的纸的边缘处。

连续性变量的边缘概率则用积分代替求和:

p ( x ) = ∫ p ( x , y ) d y p(x) = \int p(x,y)dy p(x)=p(x,y)dy

3.5,条件概率

条件概率(conditional probability)就是事件 A 在事件 B 发生的条件下发生的概率,表示为 P ( A ∣ B ) P(A|B) P(AB)

A A A B B B 为样本空间 Ω 中的两个事件,其中 P ( B ) > 0 P(B) > 0 P(B)>0。那么在事件 B B B 发生的条件下,事件 A A A 发生的条件概率为:

P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)={\frac {P(A\cap B)}{P(B)}} P(AB)=P(B)P(AB)

花书中期望的条件概率定义(表达式不一样,但意义是一样的,维基百科的定义更容易理解名字意义,花书中的公式更多的是从数学中表达):

将给定 x = x \textrm{x} = x x=x 时, y = y \textrm{y} = y y=y 发生的条件概率记为 P ( y = y ∣ x = x ) P(\textrm{y} = y|\textrm{x} = x) P(y=yx=x),这个条件概率的计算公式如下:
P ( y = y ∣ x = x ) = P ( y = y , x = x ) P ( x = x ) P(\textrm{y}=y|\textrm{x}=x)=\frac{P(\textrm{y}=y, \textrm{x}=x)}{P(\textrm{x}=x)} P(y=yx=x)=P(x=x)P(y=y,x=x)
条件概率只在 P ( x = x ) ≥ 0 P(\textrm{x}=x)\geq 0 P(x=x)0 时有定义,即是不能计算以从未发生的事件为条件的条件概率。

3.5.1,条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式,这个规则被称为概率的链式法则chain rule)。条件概率的链式法则如下:

P ( a , b , c ) = P ( a ∣ b , c ) P ( b , c ) P ( b , c ) = P ( b ∣ c ) P ( c ) P ( a , b , c ) = P ( s ∣ b , c ) P ( b ∣ c ) P ( c ) P(a,b,c) = P(a|b,c)P(b,c) \\ P(b,c) = P(b|c)P(c) \\ P(a,b,c) = P(s|b,c)P(b|c)P(c) P(a,b,c)=P(ab,c)P(b,c)P(b,c)=P(bc)P(c)P(a,b,c)=P(sb,c)P(bc)P(c)

3.6,独立性和条件独立性

两个随机变量 x \textrm{x} x y \textrm{y} y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x \textrm{x} x 另一个因子只包含 y \textrm{y} y,我们就称这两个随机变量是相互独立的(independent):

∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) \forall x \in \textrm{x},y \in \textrm{y},p(\textrm{x}=x, \textrm{y}=y)=p(\textrm{x}=x)p(\textrm{y}=y) xx,yy,p(x=x,y=y)=p(x=x)p(y=y)

两个相互独立的随机变量同时发生的概率可以通过各自发生的概率的乘积得到。

如果关于 x x x y y y 的条件概率分布对于 z z z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x x x y y y 在给定随机变量 z z z 时是条件独立的(conditionally independent):

∀ x ∈ , y ∈ y , z ∈ z , p ( x = x , y = y ∣ z ∈ z ) = p ( x = x ∣ z ∈ z ) p ( y = y ∣ z ∈ z ) \forall x \in ,y \in \textrm{y},z \in \textrm{z}, p(\textrm{x}=x, \textrm{y}=y|z \in \textrm{z})= p(\textrm{x}=x|z \in \textrm{z})p(\textrm{y}=y|z \in \textrm{z}) x,yy,zz,p(x=x,y=yzz)=p(x=xzz)p(y=yzz)

采用一种简化形式来表示独立性和条件独立性: x ⊥ y \textrm{x}\perp \textrm{y} xy 表示 x \textrm{x} x y \textrm{y} y 相互独立, x ⊥ y ∣ z \textrm{x}\perp \textrm{y}|\textrm{z} xyz 表示 x \textrm{x} x y \textrm{y} y 在给定 z \textrm{z} z 时条件独立。

3.7,条件概率、联合概率和边缘概率总结

  1. 条件概率(conditional probability)就是事件 A 在事件 B 发生的条件下发生的概率。条件概率表示为 P ( A ∣ B ) P(A|B) P(AB),读作“A 在 B 发生的条件下发生的概率”。
  2. 联合概率表示两个事件共同发生的概率。AB 的联合概率表示为 P ( A ∩ B ) P(A\cap B) P(AB) 或者 P ( A , B ) P(A,B) P(A,B) 或者 P ( A B ) P(AB) P(AB)
  3. 仅与单个随机变量有关的概率称为边缘概率。

3.8,期望、方差和协方差

为了便于理解,本章中的数学公式描述采用中文维基百科中的定义。

在概率分布中,期望值和方差或标准差是一种分布的重要特征,期望、数学期望、均值都是一个意思。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,其意义和概率分布中的方差是不一样的。

3.8.1,期望

在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。换句话说,期望值像是随机试验在同样的机会下重复多次,所有那些可能状态平均的结果,也可理解为该变量输出值的加权平均

期望数学定义

如果 X X X 是在概率空间 ( Ω , F , P ) (\Omega ,F,P) (Ω,F,P) 中的随机变量,那么它的期望值 E ⁡ ( X ) \operatorname{E}(X) E(X) 的定义是:

E ⁡ ( X ) = ∫ Ω X d P \operatorname {E}(X)=\int_{\Omega }X {d}P E(X)=ΩXdP

并不是每一个随机变量都有期望值的,因为有的时候上述积分不存在。如果两个随机变量的分布相同,则它们的期望值也相同

1,如果 X X X离散的随机变量,输出值为 x 1 , x 2 , … x 1 , x 2 , … x_{1},x_{2},\ldots x_{1},x_{2},\ldots x1,x2,x1,x2,,和输出值相应的概率为 p 1 , p 2 , … p 1 , p 2 , … {\displaystyle p_{1},p_{2},\ldots }p_{1},p_{2},\ldots p1,p2,p1,p2,(概率和为 1)。

若级数 ∑ i p i x i \sum_{i}p_{i}x_{i} ipixi 绝对收敛,那么期望值 E ⁡ ( X ) \operatorname {E}(X) E(X) 是一个无限数列的和。

E ⁡ ( X ) = ∑ i p i x i \operatorname {E}(X)=\sum_{i}p_{i}x_{i} E(X)=ipixi

2,如果 X X X连续的随机变量,且存在一个相应的概率密度函数 f ( x ) f(x) f(x),若积分 ∫ − ∞ ∞ x f ( x )   d x \int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x xf(x)dx 绝对收敛,那么 X X X 的期望值可以计算为:

E ⁡ ( X ) = ∫ − ∞ ∞ x f ( x )   d x \operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x E(X)=xf(x)dx

虽然是针对于连续的随机变量的,但与离散随机变量的期望值的计算算法却同出一辙,由于输出值是连续的,所以只是把求和改成了积分

期望值 E E E 是线性函数:

E ⁡ ( a X + b Y ) = a E ⁡ ( X ) + b E ⁡ ( Y ) \operatorname {E}(aX+bY)=a\operatorname {E}(X)+b\operatorname {E}(Y) E(aX+bY)=aE(X)+bE(Y)

X X X Y Y Y在同一概率空间的两个随机变量(可以独立或者非独立), a a a b b b 为任意实数。

花书中期望的数学定义(表达式不一样,但意义是一样的):

1,某个函数 f ( x ) f(x) f(x) 相对于概率分布 P ( x ) P(x) P(x) 的期望或期望值是当从 P P P 中抽取 x x x f f f 所取的平均或平均值。对于离散型随机变量,期望可以通过求和得到:
E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) \mathbb{E}_{\textrm{x}\sim P}[f(x)] = \sum_{x} P(x)f(x) ExP[f(x)]=xP(x)f(x)

2,对于连续型随机变量可以通过求积分得到:
E x ∼ p [ f ( x ) ] = ∫ p ( x ) f ( x ) d x \mathbb {E}_{\textrm{x}\sim p}[f(x)] = \int p(x)f(x)dx Exp[f(x)]=p(x)f(x)dx

期望应用

  1. 统计学中,估算变量的期望值时,经常用到的方法是重复测量此变量的值,再用所得数据的平均值来估计此变量的期望值。
  2. 概率分布中,期望值和方差或标准差是一种分布的重要特征。

3.8.2,方差

在概率论和统计学中,方差(英语:variance)又称变异数、变方,描述的是一个随机变量的离散程度,即该变量离其期望值的距离,是随机变量与其总体均值或样本均值的离差的平方的期望值。

方差差是标准差的平方、分布的二阶矩,以及随机变量与其自身的协方差,其常用的符号表示有 σ 2 \sigma^2 σ2 s 2 s^2 s2 Var ⁡ ( X ) \operatorname {Var} (X) Var(X) V ( X ) \displaystyle V(X) V(X),以及 V ( X ) \displaystyle \mathbb {V} (X) V(X)

方差作为离散度量的优点是,它比其他离散度量(如平均差)更易于代数运算,但缺点是它与随机变量的单位不同,而标准差则单位相同,这就是计算完成后通常采用标准差来衡量离散程度的原因。

方差的正平方根称为该随机变量的标准差。

有两个不同的概念都被称为“方差”。一种如上所述,是理论概率分布的方差。而另一种方差是一组观测值的特征,分别是总体方差(所有可能的观测)和样本方差(总体的一个子集)。

方差数学定义

X X X 为服从分布 F F F 的随机变量,如果 E ⁡ [ X ] \operatorname{E}[X] E[X] 是随机变量 X X X 的期望值(均值 μ = E ⁡ [ X ] \mu=\operatorname{E}[X] μ=E[X]),则随机变量 X X X 或者分布 F F F方差 X X X离差平方的期望值:

E ⁡ ( X ) = E ⁡ [ ( X − μ ) ] 2 = E ⁡ [ X − E ⁡ ( X ) ] 2 \operatorname{E}(X) = \operatorname{E}[(X - \mu)]^2 = \operatorname{E}[X - \operatorname{E}(X)]^2 E(X)=E[(Xμ)]2=E[XE(X)]2

方差的表达式可展开如下:

Var ⁡ ( X ) = E ⁡ [ ( X − E ⁡ [ X ] ) 2 ] = E ⁡ [ X 2 − 2 X E ⁡ [ X ] + E ⁡ [ X ] 2 ] = E ⁡ [ X 2 ] − 2 E ⁡ [ X ] E ⁡ [ X ] + E ⁡ [ X ] 2 = E ⁡ [ X 2 ] − E ⁡ [ X ] 2 {\begin{aligned}\operatorname {Var} (X) &=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt] &=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt] &=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt] &=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}} Var(X)=E[(XE[X])2]=E[X22XE[X]+E[X]2]=E[X2]2E[X]E[X]+E[X]2=E[X2]E[X]2

也就是说, X X X 的方差等于 X X X 平方的均值减去 X X X 均值的平方。

总体方差数学定义

一般而言,一个有限的容量为 N N N、元素的值为 x i x_{i} xi 的总体的总体方差为:

σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 {\displaystyle {\begin{aligned} \sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2} \end{aligned}}} σ2=N1i=1N(xiμ)2

花书中方差的定义: 方差variance)衡量的是当我们对 x x x 依据它的概率分布进行采样时,随机变量 x \textrm{x} x 的函数值会呈现多大的差异,或者说一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。方差定义如下:
V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(f(x)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] Var(f(x))=E[(f(x)E[f(x)])2]

3.8.3,期望与方差的运算性质

期望与方差运算性质如下:
期望的运算性质
方差的运算性质

来源: 知乎文章-【AP统计】期望E(X)与方差Var(X)。

3.8.4,协方差

协方差也叫共变异数(英语:Covariance),在概率论与统计学中用于衡量两个随机变量的联合变化程度

协方差数学定义

期望值分别为 E ⁡ ( X ) = μ \operatorname E(X)=\mu E(X)=μ E ⁡ ( Y ) = ν \operatorname E(Y)=\nu E(Y)=ν 的两个具有有限二阶矩的实数随机变量 X X X Y Y Y 之间的协方差定义为:

cov ⁡ ( X , Y ) = E ⁡ ( ( X − μ ) ( Y − ν ) ) = E ⁡ ( X ⋅ Y ) − μ ν \operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nu cov(X,Y)=E((Xμ)(Yν))=E(XY)μν

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很 远。如果协方差是正的,那么两个变量都倾向于同时取得相对较大的值。如果协方 差是负的,那么其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于 取得相对较小的值,反之亦然。其他的衡量指标如 相关系数(correlation)将每个变 量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响。

3.9,常用概率分布

下表列出了一些常用概率分布的方差。
probability_distributions

3.9.1,伯努利分布

伯努利分布(英语:Bernoulli distribution),又名两点分布或者 0-1 分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。若伯努利试验成功,则伯努利随机变量取值为 1。若伯努利试验失败,则伯努利随机变量取值为 0。记其成功概率为 0 ≤ p ≤ 1 0\leq p\leq 1 0p1,失败概率为 q = 1 − p q = 1-p q=1p。其有如下性质:

  • 概率质量函数为:

    • f X ( x ) = p x ( 1 − p ) 1 − x = { p i f    x = 1 1 − p i f    x = 0 f_{X}(x) = p^{x}(1-p)^{1-x} = \left\{\begin{matrix} p \quad if \;x = 1 \\ 1-p \quad if \; x = 0 \end{matrix}\right. fX(x)=px(1p)1x={pifx=11pifx=0
  • 期望值为:

    • E ⁡ [ X ] = ∑ i = 0 1 x i f X ( x ) = 0 + p = p \operatorname {E} [X] = \sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = p E[X]=i=01xifX(x)=0+p=p
  • 方差为:

    • V a r [ X ] = ∑ i = 0 1 ( x i − E ⁡ [ X ] ) 2 f X ( x ) = ( 0 − P ) 2 ( 1 − P ) + ( 1 − P ) 2 P = p ( 1 − p ) = p q Var[X] = \sum_{i=0}^{1} (x_{i}-\operatorname {E} [X])^2f_{X}(x) = (0-P)^2(1-P) + (1-P)^2P = p(1-p) = pq Var[X]=i=01(xiE[X])2fX(x)=(0P)2(1P)+(1P)2P=p(1p)=pq

3.9.2,Multinoulli 分布

Multinoulli 分布(多项式分布,也叫范畴分布 categorical dis- tribution)是一种离散概率分布,它描述了随机变量的可能结果,该随机变量可以采用 k k k 个可能类别之一,概率为每个类别分别指定,其中 k k k 是一个有限值。

3.9.3,高斯分布

有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数,这种方法能够表示随机变量每个取值有多大的可能性。

高斯分布 Gaussian distribution(也称正态分布 Normal distribution)是一个非常常见的连续概率分布。高斯分布在统计学上十分重要,经常用在自然和社会科学来代表一个不确定的随机变量。

若随机变量 X X X 服从一个位置参数为 μ \mu μ 、尺度参数为 σ \sigma σ 的正态分布,记为:

X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2)

则其概率密度函数 f ( x ; μ , σ ) = 1 σ 2 π    e − ( x − μ ) 2 2 σ 2 f(x;\mu, \sigma) = \frac {1}{\sigma {\sqrt {2\pi }}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}} f(x;μ,σ)=σ2π 1e2σ2(xμ)2

正态分布的数学期望值 μ \mu μ 等于位置参数,决定了分布的位置;其方差 σ 2 \sigma^2 σ2 的开平方或标准差 σ \sigma σ 等于尺度参数,决定了分布的幅度

正态分布概率密度函数曲线呈钟形,也称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准常态分布是位置参数 μ = 0 \mu = 0 μ=0,尺度参数 σ 2 = 1 \sigma ^{2} = 1 σ2=1 的正态分布(见右图中红色曲线)。
四个不同参数集的概率密度函数(红色线代表标准正态分布)
采用正态分布在很多应用中都是一个明智的选择。当我们由于缺乏关于某个实 数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因。

  1. 第一,我们想要建模的很多分布的真实情况是比较接近正态分布的。
  2. 第二,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最 的不确定性。因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布。

3.9.4,指数分布和 Laplace 分布

在概率论和统计学中,指数分布Exponential distribution)是一种连续概率分布,表示一个在 x = 0 x = 0 x=0 点处取得边界点 (sharp point) 的分布,其使用指示函数(indicator function) 1 x ≥ 0 1_{x\geq0} 1x0 来使得当 x x x 取负值时的概率为零。指数分布可以等同于形状母数 α \alpha α 1 1 1伽玛分布

指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、电话打进客服中心的时间间隔等。

若随机变量 X X X 服从母数为 λ \lambda λ β \beta β 的指数分布,则记作

X ∼ Exp ( λ ) X\sim {\text{Exp}}(\lambda ) XExp(λ) X ∼ Exp ( β ) X\sim {\text{Exp}}(\beta ) XExp(β)

两者意义相同,只是 λ \lambda λ β \beta β 互为倒数关系。指数分布的概率密度函数为:

f ( x ; λ ) = { λ e − λ x x ≥ 0 , 0 ,    x < 0. f(x;{\color {Red}\lambda })=\left\{{\begin{matrix}{\color {Red}\lambda }e^{-{\color {Red}\lambda }x}&x\geq 0,\\0&,\;x<0.\end{matrix}}\right. f(x;λ)={λeλx0x0,,x<0.

指数分配概率密度函数曲线如下所示。
指数分配概率密度函数

3.10,常用函数的有用性质

深度学习中的概率分布有一些经常出现的函数,比如 logistic sigmoid 函数:

σ ( x ) = 1 1 + e x p ( − x ) \sigma(x) = \frac{1}{1+exp(-x)} σ(x)=1+exp(x)1

logistic sigmoid 函数通常用来产生伯努利分布的参数 p p p,因为它的范围是 ( 0 , 1 ) (0, 1) (0,1),位于 p p p 参数值的有效范围内。下图 3.3 给出了 sigmoid 函数的图示。从图中可以明显看出,sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和(saturate)现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感
sigmoid函数示意图

sigmoid 函数的一些性质在后续学习 BP 算法等内容时会很有用,我们需要牢记:

σ ( x ) = e x p ( x ) e x p ( x ) + e x p ( 0 ) d d x σ ( x ) = σ ( x ) ( 1 − σ ( x ) ) 1 − σ ( x ) = σ ( − x ) \sigma(x) = \frac{exp(x)}{exp(x)+exp(0)} \\ \frac{d}{dx}\sigma(x) = \sigma(x)(1 - \sigma(x)) \\ 1 - \sigma(x) = \sigma(-x) σ(x)=exp(x)+exp(0)exp(x)dxdσ(x)=σ(x)(1σ(x))1σ(x)=σ(x)

3.11,贝叶斯定理

本小节只是简单介绍基本概念和公式,更全面和深入的理解建议看《机器学习》书籍。

贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。比如,如果已知某种健康问题与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出某人有某种健康问题的概率。

通常,事件 A 在事件 B 已发生的条件下发生的概率,与事件 B 在事件 A 已发生的条件下发生的概率是不一样的。但是,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。

作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断,是推论统计学中的一种推断法。这一定理名称来自于托马斯·贝叶斯。

来源中文维基百科-贝叶斯定理

3.11.1,贝叶斯定理公式

贝叶斯定理是关于随机事件 A 和 B 的条件概率的一则定理。

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}} P(AB)=P(B)P(A)P(BA)

其中 A 以及 B 为随机事件,且 P ( B ) P(B) P(B) 不为零。 P ( A ∣ B ) P(A\mid B) P(AB) 是指在事件 B 发生的情况下事件 A 发生的概率。

在贝叶斯定理中,每个名词都有约定俗成的名称:

  • P ( A ∣ B ) P(A\mid B) P(AB) 是已知 B 发生后,A 的条件概率。也称作 A 的事后概率。
  • P ( A ) P(A) P(A) 是 A 的先验概率(或边缘概率)。其不考虑任何 B 方面的因素。
  • P ( B ∣ A ) P(B\mid A) P(BA) 是已知 A 发生后,B 的条件概率。也可称为 B 的后验概率。某些文献又称其为在特定 B 时,A 的似然性,因为 P ( B ∣ A ) = L ( A ∣ B ) P(B\mid A)=L(A\mid B) P(BA)=L(AB)
  • P ( B ) P(B) P(B)是 B 的先验概率

3.11.2,贝叶斯理论与概率密度函数

贝叶斯理论亦可用于概率分布,贝叶斯理论与概率密度的关系是由求极限的方式建立:

P ( x ∣ y ) = P ( x ) P ( y ∣ x ) P ( y ) P(\textrm{x}|\textrm{y}) = \frac{P(\textrm{x})P(\textrm{y}|\textrm{x})}{P(\textrm{y})} P(xy)=P(y)P(x)P(yx)

注意到 P ( y ) P(y) P(y) 出现在上面的公式中,它通常使用 P ( y ) = ∑ x P ( y ∣ x ) P ( x ) P(\textrm{y}) = \sum_{x} P(\textrm{y}|x)P(x) P(y)=xP(yx)P(x) 来计算所以我们并不需要事先知道 P ( y ) P(\textrm{y}) P(y) 的信息。

中文维基百科中贝叶斯理论与概率密度关系定义:
f ( x ∣ y ) = f ( x , y ) f ( y ) = f ( y ∣ x )   f ( x ) f ( y ) f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}} f(xy)=f(y)f(x,y)=f(y)f(yx)f(x)

3.12,连续型变量的技术细节

连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论(measure theory)的相关内容来扩展概率论,测度论超出了本书范畴。

原书中有测度论的简要介绍,本笔记不做记录和摘抄,感兴趣的可以阅读原书。

3.13,信息论-相对熵和交叉熵

信息论是应用数学、电子学和计算机科学的一个分支,早期备用在无线通信领域。在深度学习中,主要是使用信息论的一些关键思想来表征(characterize)概率分布或者量化概率分布之间的相似性

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。

自信息只处理单个的输出。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:

H ( P ) = H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ] H(P) = H(\textrm{x}) = E_{x∼P}[I(x)] = −E_{x∼P}[log P(x)] H(P)=H(x)=ExP[I(x)]=ExP[logP(x)]

换句话说,一个概率分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。

如果我们对于同一个随机变量 x \textrm{x} x 有两个单独的概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x),则可以用 KL 散度Kullback-Leibler (KL) divergence,也叫相对熵)来衡量这两个概率分布的差异

D K L ( P ∥ Q ) = E x ∼ p [ l o g P ( x ) Q ( x ) ] = E x ∼ p [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P\parallel Q) = \mathbb{E}_{\textrm{x}\sim p}\begin{bmatrix} log \frac{P(x)}{Q(x)} \end{bmatrix} = \mathbb{E}_{\textrm{x}\sim p}[log P(x) - log Q(x)] DKL(PQ)=Exp[logQ(x)P(x)]=Exp[logP(x)logQ(x)]

KL 散度有很多有用的性质,最重要的是它是非负的。KL 散度为 0 当且仅当 P P P Q Q Q 在离散型变量的情况下是相同的概率分布,或者在连续型变量的情况下是 “几乎处处” 相同的。

一个和 KL 散度密切联系的量是交叉熵(cross-entropy) H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) H(P, Q) = H(P) + D_{KL}(P||Q) H(P,Q)=H(P)+DKL(PQ),其计算公式如下:

H ( P , Q ) = − E x ∼ p l o g Q ( x ) H(P, Q) = -\mathbb{E}_{\textrm{x}\sim p}log Q(x) H(P,Q)=ExplogQ(x)

和 KL 散度相比,少了左边一项,即熵 H ( P ) H(P) H(P)。可以看出,最小化 KL 散度(交叉熵)其实就是在最小化分布之间的交叉熵(KL 散度)。

上式的写法是在前面所学内容数学期望的基础上给出的,还有一个写法是《机器学习-周志华》书中附录 C 中给出的公式,更为直观理解:
K L ( P ∥ Q ) = ∫ − ∞ + ∞ p ( x ) l o g p ( x ) q ( x ) d x KL(P\parallel Q) = \int_{-\infty }^{+\infty} p(x)log \frac{p(x)}{q(x)} dx KL(PQ)=+p(x)logq(x)p(x)dx
其中 p ( x ) p(x) p(x) q ( x ) q(x) q(x) 分别为 P P P Q Q Q 的概率密度函数。
这里假设两个分布均为连续型概率分布,对于离散型概率分布,只需要将积分替换为对所有离散值遍历求和。

KL 散度满足非负性和不满足对称性。将上式展开可得:
KL 散度 K L ( P ∥ Q ) = ∫ − ∞ + ∞ p ( x ) l o g p ( x ) d x − ∫ − ∞ + ∞ p ( x ) l o g q ( x ) d x = − H ( P ) + H ( P , Q ) \text{KL 散度} KL(P\parallel Q) = \int_{-\infty }^{+\infty}p(x)logp(x)dx - \int_{-\infty }^{+\infty}p(x) logq(x)dx = -H(P) + H(P,Q) KL 散度KL(PQ)=+p(x)logp(x)dx+p(x)logq(x)dx=H(P)+H(P,Q)
交叉熵 H ( P , Q ) = E x ∼ p l o g Q ( x ) = − ∫ − ∞ + ∞ p ( x ) l o g q ( x ) d x \text{交叉熵} H(P,Q) = \mathbb{E}_{\textrm{x}\sim p} log Q(x) = - \int_{-\infty }^{+\infty} p(x) logq(x)dx 交叉熵H(P,Q)=ExplogQ(x)=+p(x)logq(x)dx

其中, H ( P ) H(P) H(P) 为熵(entropy), H ( P , Q ) H(P,Q) H(P,Q) 为交叉熵(cross entropy)。

在信息论中,熵 H ( P ) H(P) H(P) 表示对来自 P P P 的随机遍历进行编码所需的最小字节数,而交叉熵 H ( P , Q ) H(P,Q) H(P,Q) 表示使用 Q Q Q 的编码对来自 P P P 的变量进行编码所需的字节数。因此 KL 散度可认为是使用基于 Q Q Q 的编码对来自 P P P 的变量进行编码所需的“额外字节数”;显然,额外字节数非负,当且仅当 P = Q P=Q P=Q 时额外字节数为 0

3.14,结构化概率模型

参考资料

  • https://zh.m.wikipedia.org/zh-hans/%E6%96%B9%E5%B7%AE#
  • 《深度学习》
  • 《机器学习》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/51462.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

量子计算新突破!来源于150年前的思想实验

澳大利亚新南威尔士大学的研究表明&#xff0c;使用现代版本的“麦克斯韦妖”&#xff0c;可将量子比特重置为“0”态的错误减少了20倍。 Andrea Morello教授解释了麦克斯韦妖思想实验如何与他的团队通过仅选择冷电子进行量子计算的成就相类比。&#xff08;图片来源&#xff1…

Go-Windows环境的快速搭建

下载 Downloads - The Go Programming Language 或者直接到指定版本下载可以根据个人喜好&#xff0c;下载zip或者执行版 下载后文件夹 查看版本 必须查看版本&#xff0c;通过go version命令进行查看最新版本1.19.3版本 配置的GoPath 已经自动配置进去 需要重新进入一个新的…

HBuilder X 导入git项目以及拉取和推送

1. 首先在 HB中 > 工具 > 插件安装 > Git插件 2. 安装好 Git 插件之后还要安装一个 tortoisegit (小乌龟) tortoisegit : 这里根据电脑下载对应的位数,需要转换成中文的可以下载中文包: 安装 tortoisegit : 1. 双击刚刚下载的msi文件进入安装 2. 连续两次next之后…

[附源码]计算机毕业设计JAVA校园环境保护监督系统

[附源码]计算机毕业设计JAVA校园环境保护监督系统 项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM my…

虚拟机NAL模式连接linux系统

windows虚拟机连外网&#xff0c;相当于设置双网卡&#xff0c;虚拟机编辑网关如下&#xff1a; 在window系统查看设置vmnet8 在linux系统配置ip静态网址 cd /etc/sysconfig/network-scripts/ vim ifcfg-ens33在linux上重启网卡。 在window上添加路由&#xff0c;先查询路由&a…

C语言经典题目之字符串逆序

目录 一、字符串逆序&#xff08;基础题&#xff09; 1.一个经典的错误&#xff0c;标准的零分 2.采用gets函数来修补漏洞 ​编辑 3.非要使用scanf怎么办&#xff1f; 4.使用指针来实现逆序函数 5.将函数修改为&#xff0c;只要传入两个地址&#xff0c;就能逆序这两个地址…

最新 | VDA-ISA5.0.4最新版本发布,汽车企业如何增强信息安全?

汽车行业拥有广泛而复杂的供应链&#xff0c;包括汽车整车制造商、不同层级的零部件厂商、供应商、服务商等众多企业。在这个链条上&#xff0c;其中任何一家企业的网络安全问题不论是数据泄密还是内外部攻击都有可能对整个供应链造成巨大影响。 比如2021年6月&#xff0c;某德…

Apifox很难不爱

一、背景 项目开发我们都知道在一个项目团队中是由很多角色组成&#xff0c;最常见团队的就是前端开发工程师、客户端开发工程师、服务端开发工程师组成一个团队&#xff0c;团队之间进行合作&#xff0c;一般我们都离不开API接口管理和测试&#xff0c;API接口管理可以理解为前…

推荐,文本转图像,图像转图像运营再也不用担心配图了

由 CompVis 领导的 Stable Diffusion V1 改变了开源人工智能模型的性质&#xff0c;并在全球范围内催生了数百个其他模型和创新。Stable Diffusion 如今也是所有软件中最快攀升至 Github 10K Stars 的软件之一&#xff0c;在不到两个月的时间里&#xff0c;它的 Stars 飙升至 3…

【内网安全】——windows信息收集

作者名&#xff1a;Demo不是emo 主页面链接&#xff1a;主页传送门 创作初心&#xff1a;舞台再大&#xff0c;你不上台&#xff0c;永远是观众&#xff0c;没人会关心你努不努力&#xff0c;摔的痛不痛&#xff0c;他们只会看你最后站在什么位置&#xff0c;然后羡慕或鄙夷座…

Nginx安装

目录 1. 安装必要环境 1.1 需要安装gcc环境 1.2 PERE 1.3 zlib 1.4 openssl 2. 安装nginx 2.1 下载和解压 2.2 编译 2.2.1 设定配置 2.2.2 编译 2.2.3 安装 3. 启动nginx 4. 配置环境变量 5. 加入system管理 1. 下载Nginx 1. 安装必要环境 1.1 需要安装gcc环境 y…

基于PHP+MySQL学院信息发布系统的设计与实现

再添加完最新动态后可以点击最新动态管理,对已经添加过的最新动态进行编辑和删除,绑定的主要信息包括用文章标题,发布人,发布时间,文章类型,内容等信息 信息技术学院信息发布系统,是一个为学校提供信息的平台,是完全的,高速的,开放的,其核心思想是提供一个以自然语言为主的用户…

算法竞赛入门【码蹄集进阶塔335题】(MT2276-2280)

算法竞赛入门【码蹄集进阶塔335题】(MT2276-2280&#xff09; 文章目录算法竞赛入门【码蹄集进阶塔335题】(MT2276-2280&#xff09;前言为什么突然想学算法了&#xff1f;为什么选择码蹄集作为刷题软件&#xff1f;目录1. MT2276 数的自我2. MT2277 分数个数3. MT2278 欧拉函数…

[附源码]Python计算机毕业设计Django房屋租赁系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

Web3 来了,让我们展开双手拥抱它吧!

Web3的由来 在介绍Web3概念&#xff0c;有必要阐述下当下的网络世界。而如今的互联网正处于Web2阶段&#xff0c;其已经帮助数以亿计的人融入这个互联网大家庭&#xff0c;可在网络上构建可靠、稳定的基础设施。然而也正是Web2中心化网络成就了极少数互联网巨头&#xff0c;他…

基于STM32的智能家居控制系统设计与实现(带红外遥控控制空调)

1. 前言 智能家居作为家庭信息化的实现方式,已经成为社会信息化发展的重要组成部分,物联网因其巨大的应用前景,将是智能家居产业发展过程中一个比较现实的突破口,对智能家居的产业发展具有重大意义。 本文基于现有智能家居技术设计和实现情况,本着方便操作、增强功能、贴…

Xilinx的TestPattern模块编译错误解决方法

在使用vivado 2018.3编译tpg模块的时候报错&#xff0c;软件提示找不到编译模块&#xff0c;如下&#xff1a; 经过多方咨询后&#xff0c;据说是vivado的版本问题引起的&#xff0c;使用这个版本在2022年之前不会出现问题&#xff0c;因此如果把windows的系统时间修改到2021年…

(论文阅读笔记)Network planning with deep reinforcement learning

[1] ZHU, Hang, et al. Network planning with deep reinforcement learning. In: Proceedings of the 2021 ACM SIGCOMM 2021 Conference. 2021. p. 258-271. Citation: 25文章目录Q1 论文试图解决什么问题&#xff1f;Q2 这是否是一个新的问题&#xff1f;Q4 有哪些相关研究&…

基于GeoPandas的POI人口数赋值方法,按面提取点数据并赋值

基于GeoPandas的POI人口数赋值方法 这个方法是某篇文章中提到的&#xff0c;基于未知兴趣点和街道中心人口点进行的未知兴趣点人口赋值。 我们先来说一下数据&#xff0c;street是街道面数据&#xff0c;里面有一个population字段&#xff0c;用来记录街道总人口值。有一个字…

炫技:拼接列表、破碎二维数组——Python sum()函数隐藏技能花式玩法

【学习的细节是欢悦的历程】Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#xff0c;不仅仅是基础那么简单…… 自学并不是什么神秘的东西&#xff0c;一个人一辈子自学的时间总是比在学校学习的时间长&a…