【LinearAlgebra】Chapter 12 - Linear Algebra in Probability Statistics

news2026/2/19 16:33:19

在这里插入图片描述

文章目录

Chapter 12 - Linear Algebra in Probability & Statistics
- - Variance (around athe mean) 方差（接近均值）
  - Continuous Probability Distributions 连续概率分布
  - Mean and Variance of $p (x)$ $p (x)$ 的均值和方差
  - Normal Distribution: Bell-shaped Curve
  - N Coin Flips and $\rightarrow \infty$
  - Monte Carlo Estimation Methods
  - Review: Three Formulas for the Mean and the Variance
- 12.2 Covariance Matrices and Joint Probabilities
- 12.3 Multivariate Gaussian and Weighted Least Squares
Ref

Chapter 12 - Linear Algebra in Probability & Statistics

我们从本章的三个基本词汇开始：均值（mean）、方差（variance）和概率（probability）。在写公式之前，让我先粗略地解释一下它们的含义：

平均值指平均值或期望值
方差 $\sigma^2$ 衡量与平均值 $m$ 的平均平方距离
$n$ 种不同结果的概率都是正数 $p_1, \cdots, p_n$ 相加为 $1$ 。

当然，平均数很容易理解。我们从这里开始。但是现在我们有两种不同的情况，你们必须弄清楚。一方面，我们可以从完成的试验中得到结果（样本值）。另一方面，我们可能从未来的试验中得到预期的结果（期望值）。让我举几个例子：

样本值 随机抽取 $5$ 名新生，年龄分别为 $18 、 17 、 18 、 19 、 17$
样本均值 $\frac{1}{5}(18 + 17 + 18 + 19 + 17) = 17.8$
概率大一新生的年龄分别是 $17$ 岁（ $20\%$ ）、 $18$ 岁（ $50\%$ ）、 $19$ 岁（ $30\%$ ）。
随机选择一个大一新生的预期年龄 $\text{E}[x] = (0.2) 17 + (0.5) 18 + (0.3) 19 = 18.1$

$17.8$ 和 $18.1$ 都是正确的平均值。样本均值 $N$ 个采样点 $x_1, \cdots, x_N$ 从一个完成的试验开始。它们的平均值是 $N$ 个观测样本的平均值：

样本均值 $\mu = \frac{1}{N} (x_1 + x_2 + \cdots + x_N) \tag{1}$

$x$ 的期望值开始于年龄 $x_1, \cdots, x_n$ 的概率 $p_1, \cdots, x_n$ ：

期望值 $\text{E}[x] = p_1 x_1 + p_2 x_2 + \cdots + p_n x_n \tag{2}$

这就是 $\cdot x$ 。注意 $\text{E}[x]$ 告诉了我们期望什么， $m = μ$ 告诉我们得到什么。

通过取很多样本（比如说一个很大的 $N$ ），样本结果将接近概率。“大数定律（Law of Large Numbers）”认为，随着样本量 $N$ 的增加，样本均值以 $1$ 的概率收敛于其期望值 $\text{E}[x]$ 。一枚均匀硬币出现背面的概率为 $p_0=\frac{1}{2}$ ，出现正面的概率为 $p_1=\frac{1}{2}$ 。然后 $\text{E} [x] = (\frac{1}{2}) 0 + (\frac{1}{2}) 1$ 。 $N$ 次抛硬币中正面出现的比例是样本均值，接近期望 $\text{E}[x] =\frac{1}{2}$ 。

这并不意味着如果我们看到的反面多于正面，那么下一个样本很可能是正面。几率仍然是 $50\%$ 。前 $100$ 次或 $1000$ 次投掷确实会影响样本均值。但是 $1000$ 次抛硬币不会影响它的极限——因为你要除以 $\rightarrow \infty$ 。

Variance (around athe mean) 方差（接近均值）

方差 $\sigma^2$ 表示到期望均值 $\text{E}[x]$ 的期望距离（平方）。样本方差 $S^2$ 表示离样本均值的实际距离（平方）。平方根是标准差 $σ$ 或 $S$ 。

样本方差 $S^2 = \frac{1}{N-1} [(x_1-m)^2 + \cdots + (x_N-m)^2] \tag{3}$

样本年龄 $x = 18, 17, 18, 19, 17$ 有均值 $m = 17.8$ 。样本有方差 $0.7$ ：

$S^2 = \frac{1}{5-1} [(.2)^2 + (-.8)^2 + (.2)^2 + (1.2)^2 + (-.8)^2] = \frac{1}{4}(2.8) = 0.7$

当我们计算平方时，负号消失了。请注意！统计学家除以 $N - 1 = 4$ （而不是 $N = 5$ ），因此 $S^2$ 是 $\sigma^2$ 的无偏估计。样本均值中已经包含了一个自由度。

一个重要的恒等式来自于将每个 $x-m)^2$ 分成 $x^2- 2mx + m^2$ ：

$\begin{aligned} \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) + 2m(\text{sum of } x_i) + (\text{sum of } m^2) \\ &= (\text{sum of } x_i^2) + 2m(Nm) + N m^2 \\ \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) - N m^2 \end{aligned} \tag{4}$

这是一个通过添加 $x_1^2 + \cdots + x_N^2$ 来找寻 $(x_1-m)^2+\cdots+(x_N-m)$ 的等价方式。

现在从概率 $p_i$ （绝不会是负值）开始，而不再是样本。我们找到期望值而不是样本值。方差 $\sigma^2$ 是统计学中的关键数字。

方差 $\sigma^2 = \text{E} [(x-m)^2] = p_1 (x_1-m)^2 + \cdots + p_n (x_n-m)^2 \tag{5}$

我们对期望值 $\text{E}[x]$ 的距离进行平方。我们没有样本，只期望。我们知道概率，但我们不知道实验结果。

Continuous Probability Distributions 连续概率分布

到目前为止，我们有 $n$ 种可能的结果 $x_1,\cdots,x_n$ 。如果样本年龄为 $17 、 18 、 19$ 岁时，只有 $n = 3$ 。如果我们用天而不是年来衡量年龄，那么就会有一千种可能的年龄（太多了）。最好允许 $17$ 到 $20$ 岁之间的每个数字——一个可能年龄的连续体。那么年龄 $x_1, x_2, x_3$ 岁的概率 $p_1, p_2, p_3$ 必须移动到概率分布（probability distribution） $p (x)$ 在 $\le x \le 20$ 的连续范围内。

解释概率分布的最好方法是举两个例子。它们是均匀分布（uniform distribution）和正态分布（normal distribution）。均匀分布很容易。正态分布非常重要。

均匀分布

假设年龄均匀分布在 $17.0$ 到 $20.0$ 之间。这些数字之间的所有年龄都是“同等可能的”。当然，任何一个确切的年龄都没有机会。你得到 $x = 17.1$ 或 $\sqrt{2}$ 的概率为零。你可以真实地提供（假设我们的均匀分布）一个新生年龄小于 $x$ 的概率 $F (x)$ ：

年龄小于 $x = 17$ 的概率为 $F (17) = 0$ ， $x\le 17$ 永远不会发生
年龄小于 $x = 20$ 的概率为 $F (20) = 1$ ， $x\le 20$ 会发生
年龄小于 $x$ 的概率为 $F(x)=\frac{1}{3}(x-17)$ ， $F$ 从 $0$ 到 $1$

公式 $\frac{1}{3}(x-17)$ 给出在 $x = 17$ 处 $F = 0$ ；那么 $x < 17$ 就不会发生。它给出在 $x = 20$ 处 $F (x) = 1$ ；那么 $\le 20$ 是肯定的。在 $17$ 和 $20$ 之间，这个均匀模型的累积分布（cumulative distribution） $F (x)$ 的图呈线性增长。