机器学习数学公式推导之高斯分布

news2025/1/15 13:59:23

文章目录

  • 1、介绍引入
    • 1.1 频率派的观点
    • 1.2 贝叶斯派的观点
    • 1.3 小结
  • 2、数学基础
    • 2.1 二阶中心矩
    • 2.2 样本方差
    • 2.3 高斯分布
      • 2.3.1 一维情况 MLE
      • 2.3.2 多维情况

本文参考 B站UP: shuhuai008 跳转 🌹🌹

1、介绍引入

  • 在统计学和概率论中, P ( x ∣ k ) P(x|k) P(xk) 通常表示在给定条件 k k k 下,事件 x x x 发生的条件概率。条件概率是描述两个或多个事件之间关系的概率,其中一个事件的发生依赖于另一个事件的发生。

  • 具体来说, P ( x ∣ k ) P(x|k) P(xk) 的定义是:在事件 k k k 已经发生的条件下,事件 x x x 发生的概率。这个定义可以用以下公式来表示:

P ( x ∣ k ) = P ( x ∩ k ) P ( k ) P(x|k) = \frac{P(x \cap k)}{P(k)} P(xk)=P(k)P(xk)

其中, P ( x ∩ k ) P(x \cap k) P(xk) 表示事件 x x x 和事件 k k k 同时发生的概率,而 P ( k ) P(k) P(k) 表示事件 k k k 发生的概率。

P1 系列一 绪论-资料介绍

在这里插入图片描述

P2 系列一 绪论-频率派VS贝叶斯派

对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:

频率—> 统计机器学习 优化模型 Loss function

贝叶斯 —> 概率图模型 求积分

X N × p = ( x 1 , x 2 , ⋯   , x N ) T , x i = ( x i 1 , x i 2 , ⋯   , x i p ) T X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T} XN×p=(x1,x2,,xN)T,xi=(xi1,xi2,,xip)T
这个记号表示有 N N N 个样本,每个样本都是 p p p 维向量。其中每个观测都是由 p ( x ∣ θ ) p(x|\theta) p(xθ) 生成的。

1.1 频率派的观点

p ( x ∣ θ ) p(x|\theta) p(xθ)中的 θ \theta θ 是一个常量。对于 N N N 个观测来说观测集的概率为

p ( X ∣ θ ) = i i d ∏ i = 1 N p ( x i ∣ θ ) ) p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta)) p(Xθ)iid=i=1Np(xiθ))
。为了求 θ \theta θ 的大小,我们采用最大对数似然MLE的方法:
θ M L E = a r g m a x θ log ⁡ p ( X ∣ θ ) = i i d a r g m a x θ ∑ i = 1 N log ⁡ p ( x i ∣ θ ) \theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta) θMLE=θargmaxlogp(Xθ)iid=θargmaxi=1Nlogp(xiθ)

1.2 贝叶斯派的观点

在这里插入图片描述

  • 全概率

P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i=1}^{n} P(A_i) P(B|A_i) P(B)=i=1nP(Ai)P(BAi)

  • 贝叶斯

P ( A i ∣ B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P(A_i|B) = \frac{P(A_i) P(B|A_i)}{\sum_{j=1}^{n} P(A_j) P(B|A_j)} P(AiB)=j=1nP(Aj)P(BAj)P(Ai)P(BAi)

这里,P(A_i|B) 表示在事件 $ B $ 已经发生的条件下,事件 $ A_i $ 发生的条件概率。公式的分母是事件 $ B $ 的全概率,即 $ P(B) $,它是通过全概率公式计算得到的。

贝叶斯派认为 p ( x ∣ θ ) p(x|\theta) p(xθ) 中的 θ \theta θ 不是一个常量。这个 θ \theta θ足一个预设的先验的分布 θ ∼ p ( θ ) \theta\sim p(\theta) θp(θ) 。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p ( θ ∣ X ) = p ( X ∣ θ ) ⋅ p ( θ ) p ( X ) = p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta} p(θX)=p(X)p(Xθ)p(θ)=θp(Xθ)p(θ)dθp(Xθ)p(θ)
为了求 θ \theta θ​​ 的值,我们要最大化这个参数后验MAP


📢注意:这里还有个P(X) 省去,因为在关于 θ \theta θ​的函数中,X相当于常量


θ M A P = a r g m a x θ p ( θ ∣ X ) = a r g m a x θ p ( X ∣ θ ) ⋅ p ( θ ) \theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta) θMAP=θargmaxp(θX)=θargmaxp(Xθ)p(θ)
其中第二个等号是由于分母和 θ \theta θ 没有关系。求解这个 θ \theta θ 值后计算
p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ \frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta} θp(Xθ)p(θ)dθp(Xθ)p(θ)

,就得到了参数的后验概率。其中 p ( X ∣ θ ) p(X|\theta) p(Xθ)​ 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测


注意:边缘概率 应为p(x,t|X)=p(x|t,X)p(t|X) 联合概率密度与条件概率的结合


p ( x n e w ∣ X ) = ∫ θ p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) d θ p(x_{new}|X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta p(xnewX)=θp(xnewθ)p(θX)dθ

其中积分中的被乘数是模型,乘数是后验分布。

1.3 小结

频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。

2、数学基础

  • 幂集P®指原集合中所有的子集(包括全集和空集)构成的集族

  • 群:一个集合对二元运算封闭,且有单位元、逆元,满足结合律

  • 阿贝尔群:满足交换律的群

  • 环:阿贝尔群+乘法

  • 域:若逆运算也封闭,则称为域or代数,相当于对除法也封闭了。


  • 在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布(iid)

  • 【概率论与数理统计】一个视频让你明白分布函数,概率密度函数,分布律,联合概率密度,联合分布函数,联合分布律,边缘概率密度,边缘分布函数都是什么意义和概念_哔哩哔哩_bilibili 理解容易

  • 如何通俗地解释协方差|马同学图解数学_哔哩哔哩_bilibili 理解容易

  • 如何用概率论解决真实问题?用随机变量去建模,最大的难题是相关关系_哔哩哔哩_bilibili 理解难度高

  • 卡方分布 (chi-square distribution) - 统计学_哔哩哔哩_bilibili 容易理解

2.1 二阶中心矩

二阶中心矩是数据与其均值之差的平方的平均值。对于一组数据 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \ldots, x_n\} X={x1,x2,,xn},其二阶中心矩 M 2 M_2 M2 的 LaTeX 公式为:

M 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 M_2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 M2=n1i=1n(xiμ)2

其中, μ \mu μ 是数据的均值,即 μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n} \sum_{i=1}^{n} x_i μ=n1i=1nxi。但注意,在二阶中心矩的严格定义中,我们通常使用总体均值 μ \mu μ。然而,在实际应用中,当我们只有样本数据时,我们可能会用样本均值 x ˉ \bar{x} xˉ 来代替 μ \mu μ

2.2 样本方差

样本方差是样本数据与其样本均值之差的平方的平均值,但通常我们会乘以一个因子 n n − 1 \frac{n}{n-1} n1n(称为贝塞尔校正因子)来得到无偏估计。对于一组样本数据 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \ldots, x_n\} X={x1,x2,,xn},其样本方差 s 2 s^2 s2​ 的 LaTeX 公式为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n11i=1n(xixˉ)2

其中, x ˉ \bar{x} xˉ 是样本均值,即 x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1nxi​。

总结

  • 二阶中心矩通常使用总体均值来计算,但在只有样本数据时,也可以用样本均值来近似。
  • 样本方差是二阶中心矩在样本数据上的具体应用,但乘以了一个贝塞尔校正因子 n n − 1 \frac{n}{n-1} n1n 以得到无偏估计。
  • LaTeX 公式清晰地展示了这些统计量的数学表达式。
P3 (系列二) 数学基础-概率-高斯分布1 极大似然估计

2.3 高斯分布

2.3.1 一维情况 MLE

  • 一维情况 最大似然估计

高斯分布(Gaussian distribution)和正态分布(Normal distribution)在统计学和概率论中是同一个概念的不同称呼。

当说一个随机变量 Y Y Y 服从正态分布(或高斯分布),并且其分布的参数是均值(mean) μ \mu μ 和标准差(standard deviation) σ \sigma σ,我们写作 Y ∼ N ( μ , σ 2 ) Y \sim N(\mu, \sigma^2) YN(μ,σ2)。注意,虽然你写的是 Y ∼ N ( μ , σ ) Y \sim N(\mu, \sigma) YN(μ,σ),但通常标准差 σ \sigma σ 是以平方的形式 σ 2 \sigma^2 σ2 出现在正态分布的表示中,以表示方差(variance)。方差是标准差的平方,它衡量了数据分布的离散程度

正态分布的概率密度函数(Probability Density Function, PDF)为:

f ( y ∣ μ , σ 2 ) = 1 2 π σ 2 e − ( y − μ ) 2 2 σ 2 f(y|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(y-\mu)^2}{2\sigma^2}} f(yμ,σ2)=2πσ2 1e2σ2(yμ)2

正态分布之所以重要,是因为很多自然现象和社会现象都近似地服从正态分布,或者可以通过适当的变换(如对数变换)转换为正态分布。此外,中心极限定理也说明了在许多独立同分布的随机变量之和的分布趋向于正态分布。

MLE: maximum liklihood estimation 最大似然估计

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中:

θ = ( μ , Σ ) = ( μ , σ 2 ) , θ M L E = a r g m a x θ log ⁡ p ( X ∣ θ ) = i i d a r g m a x θ ∑ i = 1 N log ⁡ p ( x i ∣ θ ) \theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta) θ=(μ,Σ)=(μ,σ2),θMLE=θargmaxlogp(Xθ)iid=θargmaxi=1Nlogp(xiθ)
一般地,高斯分布的概率密度函数PDF写为:

p ( x ∣ μ , Σ ) = 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} p(xμ,Σ)=(2π)p/2∣Σ1/21e21(xμ)TΣ1(xμ)
带入 MLE 中我们考虑一维的情况

log ⁡ p ( X ∣ θ ) = ∑ i = 1 N log ⁡ p ( x i ∣ θ ) = ∑ i = 1 N log ⁡ 1 2 π σ exp ⁡ ( − ( x i − μ ) 2 / 2 σ 2 ) \log p(X|\theta)=\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)=\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x_{i}-\mu)^{2}/2\sigma^{2}) logp(Xθ)=i=1Nlogp(xiθ)=i=1Nlog2π σ1exp((xiμ)2/2σ2)
首先对 μ \mu μ 的极值可以得到 :
μ M L E = a r g m a x μ log ⁡ p ( X ∣ θ ) = a r g m a x μ ∑ i = 1 N ( x i − μ ) 2 \mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits _{\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2} μMLE=μargmaxlogp(Xθ)=μargmaxi=1N(xiμ)2
于是:
∂ ∂ μ ∑ i = 1 N ( x i − μ ) 2 = 0 ⟶ μ M L E = 1 N ∑ i = 1 N x i \frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i} μi=1N(xiμ)2=0μMLE=N1i=1Nxi


μ M L E = 1 N ∑ i = 1 N x i \mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i} μMLE=N1i=1Nxi

σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2} σMLE2=N1i=1N(xiμ)2


其次对 θ \theta θ 中的另一个参数 σ \sigma σ​ ,有:
σ M L E = a r g m a x σ log ⁡ p ( X ∣ θ ) = a r g m a x σ ∑ i = 1 N [ − log ⁡ σ − 1 2 σ 2 ( x i − μ ) 2 ] = a r g m i n σ ∑ i = 1 N [ log ⁡ σ + 1 2 σ 2 ( x i − μ ) 2 ] \begin{align} \sigma_{MLE}=\mathop{argmax}\limits _{\sigma}\log p(X|\theta)&=\mathop{argmax}\limits _{\sigma}\sum\limits _{i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]\nonumber\\ &=\mathop{argmin}\limits _{\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}] \end{align} σMLE=σargmaxlogp(Xθ)=σargmaxi=1N[logσ2σ21(xiμ)2]=σargmini=1N[logσ+2σ21(xiμ)2]
于是:
∂ ∂ σ ∑ i = 1 N [ log ⁡ σ + 1 2 σ 2 ( x i − μ ) 2 ] = 0 ⟶ σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2} σi=1N[logσ+2σ21(xiμ)2]=0σMLE2=N1i=1N(xiμ)2
值得注意的是,上面的推导中,首先对 μ \mu μ 求 MLE, 然后利用这个结果求 σ M L E \sigma_{MLE} σMLE ,因此可以预期的是对数据集求期望时 E D [ μ M L E ] \mathbb{E}_{\mathcal{D}}[\mu_{MLE}] ED[μMLE] 是无偏差的:
E D [ μ M L E ] = E D [ 1 N ∑ i = 1 N x i ] = 1 N ∑ i = 1 N E D [ x i ] = μ \mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu ED[μMLE]=ED[N1i=1Nxi]=N1i=1NED[xi]=μ
但是当对 σ M L E \sigma_{MLE} σMLE 求 期望的时候由于使用了单个数据集的 μ M L E \mu_{MLE} μMLE,因此对所有数据集求期望的时候我们会发现 σ M L E \sigma_{MLE} σMLE​ 是 有偏的:


📢 下面公式推导

σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ M L E ) 2 \sigma_{MLE}^{2} =\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2} σMLE2=N1i=1N(xiμMLE)2

  • 有偏的原因是因为用样本均值代替总体均值,假如本身系统设计时均值是已知的。只用mle算方差的话,除以n也还是无偏估计

E D [ σ M L E 2 ] = E D [ 1 N ∑ i = 1 N ( x i − μ M L E ) 2 ] = E D [ 1 N ∑ i = 1 N ( x i 2 − 2 x i μ M L E + μ M L E 2 ) = E D [ 1 N ∑ i = 1 N x i 2 − μ M L E 2 ] = E D [ 1 N ∑ i = 1 N x i 2 − μ 2 + μ 2 − μ M L E 2 ] = E D [ 1 N ∑ i = 1 N x i 2 − μ 2 ] − E D [ μ M L E 2 − μ 2 ] = σ 2 − ( E D [ μ M L E 2 ] − μ 2 ) = σ 2 − ( E D [ μ M L E 2 ] − E D 2 [ μ M L E ] ) = σ 2 − V a r [ μ M L E ] = σ 2 − V a r [ 1 N ∑ i = 1 N x i ] = σ 2 − 1 N 2 ∑ i = 1 N V a r [ x i ] = N − 1 N σ 2 \begin{align} \mathbb{E}_{\mathcal{D}}[\sigma_{MLE}^{2}]&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{MLE}+\mu_{MLE}^{2})\nonumber \\&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{MLE}^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{MLE}^{2}]\nonumber\\ &= \mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}]-\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}-\mu^{2}]=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mu^{2})\nonumber\\&=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mathbb{E}_{\mathcal{D}}^{2}[\mu_{MLE}])=\sigma^{2}-Var[\mu_{MLE}]\nonumber\\&=\sigma^{2}-Var[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\sigma^{2}-\frac{1}{N^{2}}\sum\limits _{i=1}^{N}Var[x_{i}]=\frac{N-1}{N}\sigma^{2} \end{align} ED[σMLE2]=ED[N1i=1N(xiμMLE)2]=ED[N1i=1N(xi22xiμMLE+μMLE2)=ED[N1i=1Nxi2μMLE2]=ED[N1i=1Nxi2μ2+μ2μMLE2]=ED[N1i=1Nxi2μ2]ED[μMLE2μ2]=σ2(ED[μMLE2]μ2)=σ2(ED[μMLE2]ED2[μMLE])=σ2Var[μMLE]=σ2Var[N1i=1Nxi]=σ2N21i=1NVar[xi]=NN1σ2

所以:
σ ^ 2 = 1 N − 1 ∑ i = 1 N ( x i − μ ) 2 \hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2} σ^2=N11i=1N(xiμ)2

在这里插入图片描述

P4 (系列二) 数学基础-概率-高斯分布2 极大似然估计 有偏vs无偏

在这里插入图片描述

2.3.2 多维情况

P5 (系列二) 数学基础-概率-高斯分布3 从概率密度角度观察
  • 多维高斯分布(Multivariate Gaussian Distribution,MGD)的采样过程是什么样的?-CSDN博客

  • pdf: probability density function 即为概率密度函数

多维高斯分布表达式为:
p ( x ∣ μ , Σ ) = 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} p(xμ,Σ)=(2π)p/2∣Σ1/21e21(xμ)TΣ1(xμ)
其中 x , μ ∈ R p , Σ ∈ R p × p x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p} x,μRp,ΣRp×p Σ \Sigma Σ 为协方差矩阵,一般而言也是半正定矩阵。这里我们只考虑正定矩阵。首先我们处理指数上的数字,指数上的数字可以记为 x x x μ \mu μ 之间的马氏距离。对于对称的协方差矩阵可进行特征值分解,

  • 这里二次型U当作是正交矩阵,那么u的逆等于u的转置

Σ = U Λ U T = ( u 1 , u 2 , ⋯   , u p ) d i a g ( λ i ) ( u 1 , u 2 , ⋯   , u p ) T = ∑ i = 1 p u i λ i u i T \Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits _{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T} Σ=UΛUT=(u1,u2,,up)diag(λi)(u1,u2,,up)T=i=1puiλiuiT​ ,于是:
Σ − 1 = ∑ i = 1 p u i 1 λ i u i T \Sigma^{-1}=\sum\limits _{i=1}^{p}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T} Σ1=i=1puiλi1uiT

Δ = ( x − μ ) T Σ − 1 ( x − μ ) = ∑ i = 1 p ( x − μ ) T u i 1 λ i u i T ( x − μ ) = ∑ i = 1 p y i 2 λ i \Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits _{i=1}^{p}(x-\mu)^{T}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits _{i=1}^{p}\frac{y_{i}^{2}}{\lambda_{i}} Δ=(xμ)TΣ1(xμ)=i=1p(xμ)Tuiλi1uiT(xμ)=i=1pλiyi2

我们注意到 y i y_{i} yi x − μ x-\mu xμ 在特征向量 u i u_{i} ui 上的投影长度,因此上式子就是 Δ \Delta Δ 取不同值时的同心椭圆。

( x − μ ) T Σ − 1 ( x − μ ) 即为 x 与 μ 马式距离 (x-\mu)^{T}\Sigma^{-1}(x-\mu) 即为x与\mu马式距离 (xμ)TΣ1(xμ)即为xμ马式距离

在这里插入图片描述

P6 (系列二) 数学基础-概率-高斯分布4 局限性

下面我们看多维高斯模型在实际应用时的两个问题 高斯定理的局限性

  1. 参数 Σ , μ \Sigma,\mu Σ,μ 的自由度为 O ( p 2 ) O(p^{2}) O(p2) 对于维度很高的数据其自由度太高。解决方案:高自由度的来源是 Σ \Sigma Σ p ( p + 1 ) 2 \frac{p(p+1)}{2} 2p(p+1) 个自由参数 —> 由于是 PxP 对称矩阵, 首先 (PxP-P) /2 将矩阵对称轴挖去,且将对称的部分除以2,然后加上对称轴。

    可以假设其是对角矩阵,甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。

  2. 第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型(多个高斯进行混合)。

P7 系列二 数学基础-概率-高斯分布5- 求边缘概率及条件概率

下面对多维高斯分布的常用定理进行介绍。

我们记 x = ( x 1 , x 2 , ⋯   , x p ) T = ( x a , m × 1 , x b , n × 1 ) T , μ = ( μ a , m × 1 , μ b , n × 1 ) , Σ = ( Σ a a Σ a b Σ b a Σ b b ) x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix} x=(x1,x2,,xp)T=(xa,m×1,xb,n×1)T,μ=(μa,m×1,μb,n×1),Σ=(ΣaaΣbaΣabΣbb),已知 x ∼ N ( μ , Σ ) x\sim\mathcal{N}(\mu,\Sigma) xN(μ,Σ)​。

首先是一个高斯分布的定理:

定理:已知 x ∼ N ( μ , Σ ) , y ∼ A x + b x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b xN(μ,Σ),yAx+b那么 y ∼ N ( A μ + b , A Σ A T ) y\sim\mathcal{N}(A\mu+b, A\Sigma A^T) yN(Aμ+b,AΣAT)

证明: E [ y ] = E [ A x + b ] = A E [ x ] + b = A μ + b \mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b E[y]=E[Ax+b]=AE[x]+b=Aμ+b V a r [ y ] = V a r [ A x + b ] = V a r [ A x ] = A ⋅ V a r [ x ] ⋅ A T Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T Var[y]=Var[Ax+b]=Var[Ax]=AVar[x]AT

下面利用这个定理得到 p ( x a ) , p ( x b ) , p ( x a ∣ x b ) , p ( x b ∣ x a ) p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a) p(xa),p(xb),p(xaxb),p(xbxa) 这四个量。

  1. x a = ( I m × m O m × n ) ) ( x a x b ) x_a=\begin{pmatrix}\mathbb{I}_{m\times m}&\mathbb{O}_{m\times n})\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix} xa=(Im×mOm×n))(xaxb),代入定理中得到: 其中 I m × m {I}_{m\times m} Im×m为单位矩阵

    E [ x a ] = ( I O ) ( μ a μ b ) = μ a V a r [ x a ] = ( I O ) ( Σ a a Σ a b Σ b a Σ b b ) ( I O ) = Σ a a \mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_a\\ Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\\mathbb{O}\end{pmatrix}=\Sigma_{aa} E[xa]=(IO)(μaμb)=μaVar[xa]=(IO)(ΣaaΣbaΣabΣbb)(IO)=Σaa
    所以 x a ∼ N ( μ a , Σ a a ) x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa}) xaN(μa,Σaa)

  2. 同样的, x b ∼ N ( μ b , Σ b b ) x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb}) xbN(μb,Σbb)​。


下面开始条件概率

  1. 对于两个条件概率,我们引入三个量:(下面三个都是构造性变量)
    x b ⋅ a = x b − Σ b a Σ a a − 1 x a μ b ⋅ a = μ b − Σ b a Σ a a − 1 μ a Σ b b ⋅ a = Σ b b − Σ b a Σ a a − 1 Σ a b x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\\ \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} xba=xbΣbaΣaa1xaμba=μbΣbaΣaa1μaΣbba=ΣbbΣbaΣaa1Σab
    特别的,最后一个式子叫做 Σ b b \Sigma_{bb} Σbb 的 Schur Complementary。可以看到:
    x b ⋅ a = ( − Σ b a Σ a a − 1 I n × n ) ( x a x b ) x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix} xba=(ΣbaΣaa1In×n)(xaxb)
    所以: 下面都是套公式
    E [ x b ⋅ a ] = ( − Σ b a Σ a a − 1 I n × n ) ( μ a μ b ) = μ b ⋅ a V a r [ x b ⋅ a ] = ( − Σ b a Σ a a − 1 I n × n ) ( Σ a a Σ a b Σ b a Σ b b ) ( − Σ a a − 1 Σ b a T I n × n ) = Σ b b ⋅ a − − > 由( 32 )可知 \mathbb{E}[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_{b\cdot a}\\ Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\\mathbb{I}_{n\times n}\end{pmatrix}=\Sigma_{bb\cdot a} --> 由(32)可知 E[xba]=(ΣbaΣaa1In×n)(μaμb)=μbaVar[xba]=(ΣbaΣaa1In×n)(ΣaaΣbaΣabΣbb)(Σaa1ΣbaTIn×n)=Σbba>由(32)可知
    利用这三个量可以得到 x b = x b ⋅ a + Σ b a Σ a a − 1 x a x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a xb=xba+ΣbaΣaa1xa。因此:
    E [ x b ∣ x a ] = μ b ⋅ a + Σ b a Σ a a − 1 x a \mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a E[xbxa]=μba+ΣbaΣaa1xa

    V a r [ x b ∣ x a ] = Σ b b ⋅ a Var[x_b|x_a]=\Sigma_{bb\cdot a} Var[xbxa]=Σbba

    这里同样用到了定理。

    在这里插入图片描述

  2. 同样:
    x a ⋅ b = x a − Σ a b Σ b b − 1 x b μ a ⋅ b = μ a − Σ a b Σ b b − 1 μ b Σ a a ⋅ b = Σ a a − Σ a b Σ b b − 1 Σ b a x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b\\ \mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b\\ \Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} xab=xaΣabΣbb1xbμab=μaΣabΣbb1μbΣaab=ΣaaΣabΣbb1Σba
    所以:

    E [ x a ∣ x b ] = μ a ⋅ b + Σ a b Σ b b − 1 x b \mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b E[xaxb]=μab+ΣabΣbb1xb

    V a r [ x a ∣ x b ] = Σ a a ⋅ b Var[x_a|x_b]=\Sigma_{aa\cdot b} Var[xaxb]=Σaab


  • 注意,此时求的是Xb关于Xa的条件概率分布,因此这里认为Xa已知
  • Xb跟Xa关系的那个式子,就算是体现了Xa与Xb的一个条件关系,对给定的Xa,有固定映射的Xb,所以此时E(Xb)为给定条件Xa下的E(Xb),亦即E(Xb|Xa)了。

在这里插入图片描述

P8 系列二 数学基础-概率-高斯分布6 求联合概率分布

下面利用上边四个量,求解线性模型:

定理 已知 x ∼ N ( μ , Σ ) , y ∼ A x + b x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b xN(μ,Σ),yAx+b那么 y ∼ N ( A μ + b , A Σ A T ) y\sim\mathcal{N}(A\mu+b, A\Sigma A^T) yN(Aμ+b,AΣAT)

已知: p ( x ) = N ( μ , Λ − 1 ) , p ( y ∣ x ) = N ( A x + b , L − 1 ) p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1}) p(x)=N(μ,Λ1),p(yx)=N(Ax+b,L1),求解: p ( y ) , p ( x ∣ y ) p(y),p(x|y) p(y),p(xy)

解:==令 y = A x + b + ϵ , ϵ ∼ N ( 0 , L − 1 ) y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1}) y=Ax+b+ϵ,ϵN(0,L1),==所以 E [ y ] = E [ A x + b + ϵ ] = A μ + b \mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b E[y]=E[Ax+b+ϵ]=Aμ+b V a r [ y ] = A Λ − 1 A T + L − 1 Var[y]=A \Lambda^{-1}A^T+L^{-1} Var[y]=AΛ1AT+L1,因此:
p ( y ) = N ( A μ + b , L − 1 + A Λ − 1 A T ) p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T) p(y)=N(Aμ+b,L1+AΛ1AT)
引入 z = ( x y ) z=\begin{pmatrix}x\\y\end{pmatrix} z=(xy),我们可以得到 C o v [ x , y ] = E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T] Cov[x,y]=E[(xE[x])(yE[y])T]。对于这个协方差可以直接计算:
C o v ( x , y ) = E [ ( x − μ ) ( A x − A μ + ϵ ) T ] = E [ ( x − μ ) ( x − μ ) T A T ] = V a r [ x ] A T = Λ − 1 A T \begin{align} Cov(x,y)&=\mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T]=\mathbb{E}[(x-\mu)(x-\mu)^TA^T]=Var[x]A^T=\Lambda^{-1}A^T \end{align} Cov(x,y)=E[(xμ)(AxAμ+ϵ)T]=E[(xμ)(xμ)TAT]=Var[x]AT=Λ1AT
注意到协方差矩阵的对称性,所以 p ( z ) = N ( μ A μ + b ) , ( Λ − 1 Λ − 1 A T A Λ − 1 L − 1 + A Λ − 1 A T ) ) p(z)=\mathcal{N}\begin{pmatrix}\mu\\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix}) p(z)=N(μAμ+b),(Λ1AΛ1Λ1ATL1+AΛ1AT))。根据之前的公式,我们可以得到:
E [ x ∣ y ] = μ + Λ − 1 A T ( L − 1 + A Λ − 1 A T ) − 1 ( y − A μ − b ) \mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b) E[xy]=μ+Λ1AT(L1+AΛ1AT)1(yAμb)

V a r [ x ∣ y ] = Λ − 1 − Λ − 1 A T ( L − 1 + A Λ − 1 A T ) − 1 A Λ − 1 Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1} Var[xy]=Λ1Λ1AT(L1+AΛ1AT)1AΛ1

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

史上最全的MybatisPlus学习教程从入门到精通

一、MybatisPlus是什么 1.1 MyBatis-Plus简介 MyBatis-Plus(简称MP)是一个MyBatis的增强工具,它在MyBatis的基础上进行了增强,但并没有改变原有的MyBatis框架。MyBatis-Plus的主要目标是简化开发和提高开发效率。它提供了诸如分…

源码阅读-SpirngBoot Mybatis 自动配置

MybatisPlusAutoConfiguration ObjectProvider#getIfAvailable ObjectProvider为我们提供了拓展,我们可以自定义一些插件或者类型转换器,同时也可以定义一些Customizer用来配置SqlSessionFactoryBean,MybatisPlusProperties等。 通过源码我们可以看到最…

Redis从入门到入门(上)

1.Redis概述 文章目录 1.Redis概述1.1 什么是Redis1.2 Redis的应用场景 2.Linux下Redis的安装与使用2.1 Redis下载2.2 Redis的启动2.3 Redis配置2.4 连接Redis 1.1 什么是Redis Redis是用C语言开发的一个开源的高性能键值对(key-value)数据库&#xff0…

数学建模--K-Means聚类分析

目录 1.聚类分析步骤 1.1简单介绍 1.2两个概念 1.3几种距离 1.4更新质心 1.5终止条件 2.归一化处理 3.肘部法则 4.搭建K-Means分析模型 5.选择最佳K值 6.绘制3D图形 1.聚类分析步骤 1.1简单介绍 K-Means聚类分析是属于聚类分析的一种,这个数据机器学习的…

YOLOv8改进 | Neck篇 | YOLOv8引入Slim-Neck(超轻量)

1. Slim-Neck介绍 摘要:目标检测是计算机视觉中重要的下游任务。 对于车载边缘计算平台来说,巨大的模型很难达到实时检测的要求。 而且,由大量深度可分离卷积层构建的轻量级模型无法达到足够的精度。 我们引入了一种新的轻量级卷积技术 GSConv,以减轻模型重量但保持准确性。…

《软件工程导论》(第6版)第4章 形式化说明技术 复习笔记

第4章 形式化说明技术 一、概述 按照形式化的程度,可以把软件工程使用的方法划分成非形式化、半形式化和形式化3类。用自然语言描述需求规格说明,是典型的非形式化方法。用数据流图或实体联系图建立模型,是典型的半形式化方法。所谓形式化…

idea的springboot里面的resources是什么

在IDEA(IntelliJ IDEA)中的Spring Boot项目中,resources目录扮演着非常重要的角色。这个目录主要用于存放项目的非代码资源,包括但不限于配置文件、静态资源文件(如图片、CSS、JavaScript等)、模板文件&…

YOLO缺陷检测学习笔记(2)

YOLO缺陷检测学习笔记(2) 残差连接1. **YOLO 的残差连接结构**2. **YOLO 使用残差连接的目的**3. **YOLO 中的残差块**4. **YOLOv3 和 YOLOv4 的残差连接架构** YOLO网络架构概述1. 特征提取网络2. 预测头(Detection Head)3. 后处…

Android CCodec Codec2 (五)C2Param - Ⅲ

这一节我们来看看简单参数的定义方式 1、C2SimpleValueStruct Codec2框架提供了模板类C2SimpleValueStruct来帮助我们定义非灵活数组的简单参数。C2SimpleValueStruct的定义如下&#xff1a; template<typename T> struct C2SimpleValueStruct {T value; ///< simpl…

阿里 “通义灵码” 真的 “灵吗”,全保姆级实操

最近很多朋友&#xff0c;都在关注阿里公测的“通义灵码”&#xff0c;我索性也安装了&#xff0c;准备看看它真的有说的那么“灵吗”&#xff1f; 一、安装 官网&#xff1a;https://tongyi.aliyun.com/lingma/ 安装方式&#xff1a;https://tongyi.aliyun.com/lingma/downl…

Redis 集群:引领企业级 NoSQL 数据库新潮流

一 、关系型数据库和 NoSQL 数据库 在当今的数据库领域&#xff0c;关系型数据库和非关系型数据库都占据着重要的地位。 关系型数据库 关系型数据库是建立在关系模型基础上的数据库&#xff0c;它通过表与表之间的关系来存储和管理数据。 特点 数据结构清晰&#xff1a;以二…

“微服务革命”之后...

曾几何时&#xff0c;我记得我的手指疯狂地敲打键盘&#xff0c;与庞大而杂乱的代码库搏斗。那是巨石的时代&#xff0c;代码就像古老的城堡一样&#xff0c;由一块块石头砌成一个令人印象深刻的庞然大物。 几年过去了&#xff0c;时代变了。开发人员口中的流行语变成了“微服…

基于STM32校车安全监控系统的设计(论文+源码+实物)

1 方案设计 根据设计要求&#xff0c;本设计校车安全监控系统的设计以STM32F103单片机作为主控制器&#xff0c;通过MQ传感器实现异常气体的检测&#xff0c;当异常气体浓度异常时会通过继电器打开车窗进行通风&#xff0c;以保证舒适的环境&#xff0c;通过红外传感器用于监…

EXO:StandardNode _process_tensor

目录 EXO:StandardNode _process_tensor EXO:StandardNode _process_tensor 这段代码是在处理某种分片(sharding)逻辑时使用的,特别是在处理大型模型或数据处理任务时,这些任务被分割成多个较小的部分(即分片)来并行处理。这里,代码片段关注于根据特定的调试级别(DEBU…

大数据处理从零开始————1.Hadoop介绍

1. 大数据时代背景 1.1 大数据时代到来 在微信上&#xff0c;随手点的一个赞&#xff1b;在百度上&#xff0c;随手输入的搜素关键词&#xff1b;在健康记录应用上&#xff0c;每天所产生的微信步数这些都是数据。我们每人每天都在产生大量数据。人类近些年所产生的数据比过去…

【设计模式】创建型模式——简单工厂模式

文章目录 一、创建型模式1. 包含模式1.1 工厂模式1.2 建造者模式1.3 原型模式1.4 单例模式 二、工厂模式1. 概要1.1 意图1.2 主要解决问题1.3 何时使用1.4 如何解决1.5 关键代码1.6 使用场景1.7 优点1.8 缺点1.9 简单工厂实现 2. 简单工厂模式2.1 模式结构2.2 实例2.3 模式定义…

Charles激活

简介 Charles激活码计算 激活 Help -> Register Charles 添加 Registered Name 和计算出的 License key 点击 Register Java import java.nio.ByteBuffer; import java.nio.ByteOrder; import java.util.Random; import java.util.Scanner;/*** program: ZK* descriptio…

开关二极管损坏如何判断

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划 文章目录 前言1. 外观检查2. 测量正向压降3. 反向电阻测量4. 电路功能测试5. 高压测试6. 加热测试 前言 送给大学毕业后找不到奋…

【Java】 为什么是split 方法按点号分割是用 “ \\. “ ?

前言&#xff1a; 小知识&#xff0c;记录自用and分享。 原因分析&#xff1a; 字符串的很多方法是可以使用正则表达式的&#xff0c;这里就包括了split这个方法。 . 在正则表达式里的意思是通配符&#xff0c;表示&#xff1a;匹配任意单个字符。那么&#xff0c;当使用split…

参加 帆软 BI 上海城市 课堂(08-30培训)

参加 帆软 BI 城市 课堂&#xff08;0830&#xff09;&#xff1a; 由于目前是自由职业&#xff0c;也想学习一下新的知识 。所以参加本次的培训&#xff0c;总的来说还是比较专业。 培训在 上海 帆软的总部 环球港进行。时间是 13:30~17&#xff1a;00 老师很专业。学习中 课…