文章目录
- 简介
- 正态分布与卡方分布
- 用scipy来验证三者关系
简介
1908年,戈塞特在酿酒厂工作,由于酒厂禁止员工发表酿酒相关的研究成果,所以他以Student
为笔名发表了有关t分布的研究,故而这个著名的分布被命名为学生分布。
如果有两个独立的随机变量 X , Y X,Y X,Y,二者分别服从标准正态分布和自由度为 ν \nu ν的卡方分布,则 X Y / ν \frac{X}{\sqrt{Y/\nu}} Y/νX服从t分布,其概率密度函数为
f ( x , ν ) = Γ ( ν + 1 2 ) π ν Γ ( ν 2 ) ( 1 + x 2 ν ) − ν + 1 2 f(x,\nu)=\frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\pi\nu}\Gamma(\frac{\nu}{2})}(1+\frac{x^2}{\nu})^{-\frac{\nu+1}{2}} f(x,ν)=πνΓ(2ν)Γ(2ν+1)(1+νx2)−2ν+1
正态分布与卡方分布
正态分布,最早由棣莫弗在二项分布的渐近公式中得到,而真正奠定其地位的,应是高斯对测量误差的研究,故而又称Gauss分布。测量是人类定量认识自然界的基础,测量误差的普遍性,使得正态分布拥有广泛的应用场景,或许正因如此,正太分布在分布族谱图中居于核心的位置。
正态分布 N ( μ , σ ) N(\mu, \sigma) N(μ,σ)受到期望 μ \mu μ和方差 σ 2 \sigma^2 σ2的调控,其概率密度函数为
1 2 π σ 2 exp [ − ( x − μ ) 2 2 σ 2 ] \frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{(x-\mu)^2}{2\sigma^2}] 2πσ21exp[−2σ2(x−μ)2]
当 μ = 0 \mu=0 μ=0而 σ = 1 \sigma=1 σ=1时,为标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1),对应概率分布函数为 Φ ( x ) = 1 2 π exp [ − x 2 2 ] \Phi(x)=\frac{1}{\sqrt{2\pi}}\exp[-\frac{x^2}{2}] Φ(x)=2π1exp[−2x2]。
若 k k k个互相独立的随机变量 ξ 1 , ξ 2 , ⋯ , ξ k \xi_1, \xi_2,\cdots,\xi_k ξ1,ξ2,⋯,ξk,均服从标准正态分布,则这k个随机变量的平方和构成一个新变量,新变量服从 χ 2 \chi^2 χ2分布。其概率密度函数为
ρ ( x ) = ( 1 / 2 ) k / 2 Γ ( k / 2 ) x k / 2 − 1 e − x / 2 \rho(x)=\frac{(1/2)^{k/2}}{\Gamma(k/2)}x^{k/2-1}e^{-x/2} ρ(x)=Γ(k/2)(1/2)k/2xk/2−1e−x/2
用scipy来验证三者关系
下面通过正态分布来构造学生分布,并进行验证
import numpy as np
from scipy.stats import norm, chi2, t
import matplotlib.pyplot as plt
k = 200
X = norm.rvs(size=10000)
Y = chi2(k).rvs(size=10000)
xs = X/(Y/k)
plt.hist(xs, density=True, bins=100, alpha=0.8)
rv = t(k)
st, ed = rv.interval(0.995)
xs = np.linspace(st, ed, 200)
plt.plot(xs, rv.pdf(xs))
plt.show()
结果如下
从其分布特点来看,t分布与正态分布十分相似,都是关于原点对称的单峰偶函数,当
ν
→
∞
\nu\to\infty
ν→∞时,根据斯特林公式可以得出,
t
t
t分布趋近于正态分布。
下面测试一下,对于不同 ν \nu ν值,
fig = plt.figure()
xs = np.linspace(-5,5,1000)
for i,nu in enumerate([3,10,50,200]):
ax = fig.add_subplot(2, 2, i+1)
ax.plot(xs, norm.pdf(xs), label="norm")
ax.plot(xs, t(nu).pdf(xs), lw=0.5, label="t")
plt.legend()
plt.show()
结果如图所示