文章目录
- Chapter 12 - Linear Algebra in Probability & Statistics
- Variance (around athe mean) 方差(接近均值)
- Continuous Probability Distributions 连续概率分布
- Mean and Variance of p ( x ) p(x) p(x) p ( x ) p(x) p(x) 的均值和方差
- Normal Distribution: Bell-shaped Curve
- N Coin Flips and N → ∞ N \rightarrow \infty N→∞
- Monte Carlo Estimation Methods
- Review: Three Formulas for the Mean and the Variance
- 12.2 Covariance Matrices and Joint Probabilities
- 12.3 Multivariate Gaussian and Weighted Least Squares
- Ref
Chapter 12 - Linear Algebra in Probability & Statistics
我们从本章的三个基本词汇开始:均值(mean)、方差(variance)和概率(probability)。在写公式之前,让我先粗略地解释一下它们的含义:
平均值指平均值或期望值
方差
σ
2
\sigma^2
σ2 衡量与平均值
m
m
m 的平均平方距离
n
n
n 种不同结果的概率都是正数
p
1
,
⋯
,
p
n
p_1, \cdots, p_n
p1,⋯,pn 相加为
1
1
1。
当然,平均数很容易理解。我们从这里开始。但是现在我们有两种不同的情况,你们必须弄清楚。一方面,我们可以从完成的试验中得到结果(样本值)。另一方面,我们可能从未来的试验中得到预期的结果(期望值)。让我举几个例子:
样本值 随机抽取
5
5
5 名新生,年龄分别为
18
、
17
、
18
、
19
、
17
18、17、18、19、17
18、17、18、19、17
样本均值
1
5
(
18
+
17
+
18
+
19
+
17
)
=
17.8
\frac{1}{5}(18 + 17 + 18 + 19 + 17) = 17.8
51(18+17+18+19+17)=17.8
概率 大一新生的年龄分别是
17
17
17 岁(
20
%
20\%
20%)、
18
18
18 岁(
50
%
50\%
50%)、
19
19
19 岁(
30
%
30\%
30%)。
随机选择一个大一新生的预期年龄
E
[
x
]
=
(
0.2
)
17
+
(
0.5
)
18
+
(
0.3
)
19
=
18.1
\text{E}[x] = (0.2) 17 + (0.5) 18 + (0.3) 19 = 18.1
E[x]=(0.2)17+(0.5)18+(0.3)19=18.1
17.8 17.8 17.8 和 18.1 18.1 18.1 都是正确的平均值。样本均值 N N N 个采样点 x 1 , ⋯ , x N x_1, \cdots, x_N x1,⋯,xN 从一个完成的试验开始。它们的平均值是 N N N 个观测样本的平均值:
样本均值 m = μ = 1 N ( x 1 + x 2 + ⋯ + x N ) (1) m = \mu = \frac{1}{N} (x_1 + x_2 + \cdots + x_N) \tag{1} m=μ=N1(x1+x2+⋯+xN)(1)
x x x 的期望值开始于年龄 x 1 , ⋯ , x n x_1, \cdots, x_n x1,⋯,xn 的概率 p 1 , ⋯ , x n p_1, \cdots, x_n p1,⋯,xn:
期望值 m = E [ x ] = p 1 x 1 + p 2 x 2 + ⋯ + p n x n (2) m = \text{E}[x] = p_1 x_1 + p_2 x_2 + \cdots + p_n x_n \tag{2} m=E[x]=p1x1+p2x2+⋯+pnxn(2)
这就是 p ⋅ x p \cdot x p⋅x。注意 m = E [ x ] m = \text{E}[x] m=E[x] 告诉了我们期望什么, m = μ m= μ m=μ 告诉我们得到什么。
通过取很多样本(比如说一个很大的 N N N),样本结果将接近概率。“大数定律(Law of Large Numbers)”认为,随着样本量 N N N 的增加,样本均值以 1 1 1 的概率收敛于其期望值 E [ x ] \text{E}[x] E[x]。一枚均匀硬币出现背面的概率为 p 0 = 1 2 p_0=\frac{1}{2} p0=21,出现正面的概率为 p 1 = 1 2 p_1=\frac{1}{2} p1=21。然后 E [ x ] = ( 1 2 ) 0 + ( 1 2 ) 1 \text{E} [x] = (\frac{1}{2}) 0 + (\frac{1}{2}) 1 E[x]=(21)0+(21)1。 N N N 次抛硬币中正面出现的比例是样本均值,接近期望 E [ x ] = 1 2 \text{E}[x] =\frac{1}{2} E[x]=21。
这并不意味着如果我们看到的反面多于正面,那么下一个样本很可能是正面。几率仍然是 50 % 50\% 50%。前 100 100 100 次或 1000 1000 1000 次投掷确实会影响样本均值。但是 1000 1000 1000 次抛硬币不会影响它的极限——因为你要除以 N → ∞ N \rightarrow \infty N→∞。
Variance (around athe mean) 方差(接近均值)
方差 σ 2 \sigma^2 σ2 表示到期望均值 E [ x ] \text{E}[x] E[x] 的期望距离(平方)。样本方差 S 2 S^2 S2 表示离样本均值的实际距离(平方)。平方根是标准差 σ σ σ 或 S S S。
样本方差 S 2 = 1 N − 1 [ ( x 1 − m ) 2 + ⋯ + ( x N − m ) 2 ] (3) S^2 = \frac{1}{N-1} [(x_1-m)^2 + \cdots + (x_N-m)^2] \tag{3} S2=N−11[(x1−m)2+⋯+(xN−m)2](3)
样本年龄 x = 18 , 17 , 18 , 19 , 17 x=18,17,18,19,17 x=18,17,18,19,17 有均值 m = 17.8 m = 17.8 m=17.8。样本有方差 0.7 0.7 0.7:
S 2 = 1 5 − 1 [ ( . 2 ) 2 + ( − . 8 ) 2 + ( . 2 ) 2 + ( 1.2 ) 2 + ( − . 8 ) 2 ] = 1 4 ( 2.8 ) = 0.7 S^2 = \frac{1}{5-1} [(.2)^2 + (-.8)^2 + (.2)^2 + (1.2)^2 + (-.8)^2] = \frac{1}{4}(2.8) = 0.7 S2=5−11[(.2)2+(−.8)2+(.2)2+(1.2)2+(−.8)2]=41(2.8)=0.7
当我们计算平方时,负号消失了。请注意!统计学家除以 N − 1 = 4 N - 1 = 4 N−1=4(而不是 N = 5 N = 5 N=5),因此 S 2 S^2 S2 是 σ 2 \sigma^2 σ2 的无偏估计。样本均值中已经包含了一个自由度。
一个重要的恒等式来自于将每个 ( x − m ) 2 (x-m)^2 (x−m)2 分成 x 2 − 2 m x + m 2 x^2- 2mx + m^2 x2−2mx+m2:
sum of ( x i − m ) 2 = ( sum of x i 2 ) + 2 m ( sum of x i ) + ( sum of m 2 ) = ( sum of x i 2 ) + 2 m ( N m ) + N m 2 sum of ( x i − m ) 2 = ( sum of x i 2 ) − N m 2 (4) \begin{aligned} \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) + 2m(\text{sum of } x_i) + (\text{sum of } m^2) \\ &= (\text{sum of } x_i^2) + 2m(Nm) + N m^2 \\ \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) - N m^2 \end{aligned} \tag{4} sum of (xi−m)2sum of (xi−m)2=(sum of xi2)+2m(sum of xi)+(sum of m2)=(sum of xi2)+2m(Nm)+Nm2=(sum of xi2)−Nm2(4)
这是一个通过添加 x 1 2 + ⋯ + x N 2 x_1^2 + \cdots + x_N^2 x12+⋯+xN2 来找寻 ( x 1 − m ) 2 + ⋯ + ( x N − m ) (x_1-m)^2+\cdots+(x_N-m) (x1−m)2+⋯+(xN−m) 的等价方式。
现在从概率 p i p_i pi (绝不会是负值)开始,而不再是样本。我们找到期望值而不是样本值。方差 σ 2 \sigma^2 σ2 是统计学中的关键数字。
方差 σ 2 = E [ ( x − m ) 2 ] = p 1 ( x 1 − m ) 2 + ⋯ + p n ( x n − m ) 2 (5) \sigma^2 = \text{E} [(x-m)^2] = p_1 (x_1-m)^2 + \cdots + p_n (x_n-m)^2 \tag{5} σ2=E[(x−m)2]=p1(x1−m)2+⋯+pn(xn−m)2(5)
我们对期望值 m = E [ x ] m = \text{E}[x] m=E[x] 的距离进行平方。我们没有样本,只期望。我们知道概率,但我们不知道实验结果。
Continuous Probability Distributions 连续概率分布
到目前为止,我们有 n n n 种可能的结果 x 1 , ⋯ , x n x_1,\cdots,x_n x1,⋯,xn。如果样本年龄为 17 、 18 、 19 17、18、19 17、18、19 岁时,只有 n = 3 n = 3 n=3。如果我们用天而不是年来衡量年龄,那么就会有一千种可能的年龄(太多了)。最好允许 17 17 17 到 20 20 20 岁之间的每个数字——一个可能年龄的连续体。那么年龄 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3 岁的概率 p 1 , p 2 , p 3 p_1, p_2, p_3 p1,p2,p3 必须移动到概率分布(probability distribution) p ( x ) p(x) p(x) 在 17 ≤ x ≤ 20 17 \le x \le 20 17≤x≤20 的连续范围内。
解释概率分布的最好方法是举两个例子。它们是均匀分布(uniform distribution)和正态分布(normal distribution)。均匀分布很容易。正态分布非常重要。
均匀分布
假设年龄均匀分布在 17.0 17.0 17.0 到 20.0 20.0 20.0 之间。这些数字之间的所有年龄都是“同等可能的”。当然,任何一个确切的年龄都没有机会。你得到 x = 17.1 x = 17.1 x=17.1 或 x = 17 + 2 x=17+ \sqrt{2} x=17+2 的概率为零。你可以真实地提供(假设我们的均匀分布)一个新生年龄小于 x x x 的概率 F ( x ) F(x) F(x):
年龄小于
x
=
17
x=17
x=17 的概率为
F
(
17
)
=
0
F(17)=0
F(17)=0,
x
≤
17
x\le 17
x≤17 永远不会发生
年龄小于
x
=
20
x=20
x=20 的概率为
F
(
20
)
=
1
F(20)=1
F(20)=1,
x
≤
20
x\le 20
x≤20 会发生
年龄小于
x
x
x 的概率为
F
(
x
)
=
1
3
(
x
−
17
)
F(x)=\frac{1}{3}(x-17)
F(x)=31(x−17),
F
F
F 从
0
0
0 到
1
1
1
公式 F ( x ) = 1 3 ( x − 17 ) F(x) = \frac{1}{3}(x-17) F(x)=31(x−17) 给出在 x = 17 x= 17 x=17 处 F = 0 F = 0 F=0;那么 x < 17 x < 17 x<17 就不会发生。它给出在 x = 20 x= 20 x=20 处 F ( x ) = 1 F(x)=1 F(x)=1;那么 x ≤ 20 x \le 20 x≤20 是肯定的。在 17 17 17 和 20 20 20 之间,这个均匀模型的累积分布(cumulative distribution) F ( x ) F(x) F(x) 的图呈线性增长。
画出 F ( x ) F(x) F(x) 的图和它的导数 p ( x ) = p(x) = p(x)= 概率密度函数(probability density function)。
你可以说 p ( x ) d x p(x) \text{d}x p(x)dx 是样本落在 x x x 和 x + d x x+\text{d}x x+dx 之间的概率。这是极其真实的(infinitesimally true): p ( x ) d x p(x) \text{d}x p(x)dx 等于 F ( x + d x ) − F ( x ) F(x+\text{d}x) - F(x) F(x+dx)−F(x)。以下是完整描述:
F = integral of p Probability of a ≤ x ≤ b = ∫ a b p ( x ) d x = F ( b ) − F ( a ) (6) F = \text{integral of } p \quad \text{ Probability of} a \le x \le b = \int_{a}^{b} p(x) \text{d}x = F(b) - F(a) \tag{6} F=integral of p Probability ofa≤x≤b=∫abp(x)dx=F(b)−F(a)(6)
F ( b ) F(b) F(b) 是 x ≤ b x \le b x≤b 的概率。我减去 F ( a ) F(a) F(a) 使 x ≥ a x \ge a x≥a 保持不变。这样有 a ≤ x ≤ b a \le x \le b a≤x≤b。
Mean and Variance of p ( x ) p(x) p(x) p ( x ) p(x) p(x) 的均值和方差
一个概率分布的均值 m m m 和方差 σ 2 \sigma^2 σ2 是多少?之前我们添加了 p i x i p_i x_i pixi 来获得均值(期望均值)。对于一个连续分布我们对 x p ( x ) x p(x) xp(x) 积分:
均值 m = E [ x ] = ∫ x p ( x ) d x = ∫ x = 17 20 ( x ) ( 1 3 ) d x = 18.5 m = \text{E}[x] = \int x p(x) \text{d} x = \int_{x=17}^{20} (x) (\frac{1}{3}) \text{d}x = 18.5 m=E[x]=∫xp(x)dx=∫x=1720(x)(31)dx=18.5
对于均匀分布,均值 m m m 介于 17 17 17 和 20 20 20 之间。那么随机值 x x x 低于中点 m = 18.5 m = 18.5 m=18.5 的概率为 F ( m ) = 1 2 F(m) = \frac{1}{2} F(m)=21。
Normal Distribution: Bell-shaped Curve
N Coin Flips and N → ∞ N \rightarrow \infty N→∞
Monte Carlo Estimation Methods
Review: Three Formulas for the Mean and the Variance
12.2 Covariance Matrices and Joint Probabilities
12.3 Multivariate Gaussian and Weighted Least Squares
\begin{aligned} \end{aligned}
Ref
- Introduction to Linear Algebra - GILBERT STRANG
- 为什么分母从n变成n-1之后,就从【有偏估计】变成了【无偏估计】?