统计-参数估计-假设检验-总结二

- 参数估计—区间估计
- - 三大分布
  - - 卡方分布(Gamma分布的特例)
    - t分布
    - F分布
  - 求估计区间
- 假设检验
- - 参数检验
  - 拟合优度检验

通往统计-参数估计-假设检验-总结一

参数估计—区间估计

以某一范围提供对参数 $\theta$ 的估计。寻找统计量 $\theta_1^*(x_1,x_2,...,x_n)$ 和 $\theta_2^*(x_1,x_2,...,x_n)$ 满足 $\theta_1^*<\theta_2^*$ ；确定样本 $x_1,x_2,...,x_n$ 之后，就将 $\theta$ 估计在区间 $[\theta_1^*(x_1,x_2,...,x_n),\theta_2^*(x_1,x_2,...,x_n)]$

满足上述要求的区间有很多，但具体估计的时候有优良性要求。

$\theta$ 应尽可能大的在区间 $[\theta_1^*(x_1,x_2,...,x_n),\theta_2^*(x_1,x_2,...,x_n)]$ 内，也即： $p(\theta_1^*(x_1,x_2,...,x_n)\leq\theta\leq\theta_2^*(x_1,x_2,...,x_n))$ 尽可能大
估计精度要尽可能高，即： $\theta_2^*(x_1,x_2,...,x_n)-\theta_1^*(x_1,x_2,...,x_n)$ 尽可能小。

实际上两者是冲突的，因此要引入置信区间的概念。
置信系数：给定一个很小的数 $\alpha>0$ 若对 $\theta$ 的任意值均有 $p(\theta_1^*(x_1,x_2,...,x_n)\leq\theta\leq\theta_2^*(x_1,x_2,...,x_n))=1-\alpha$ 称区间估计 $[\theta_1^*,\theta_2^*]$ 的置信系数为 $1-\alpha$

置信水平：如果 $p(\theta_1^*(x_1,x_2,...,x_n)\leq\theta\leq\theta_2^*(x_1,x_2,...,x_n))=1-\alpha$ ，而 $\beta<1-\alpha$ ；则 $\beta$ 均可称为 $[\theta_1^*,\theta_2^*]$ 的置信水平。

例如 $1-\alpha=0.95$ ，说明 $\theta$ 落在区间 $[\theta_1^*,\theta_2^*]$ 的概率等于0.95，置信水平为95%，或者比95%小的数，比如90%，当置信水平达到了95%，自然也达到了90%，置信水平越高，估计的区间也越大，如果区间是正无穷至负无穷，那置信水平也达到了100%，但此时是没有意义的。

三大分布

在学习三大分布之前，需要知道 $\Gamma$ 函数（Gamma函数），区分Gamma函数和Gamma分布。
Gamma分布的背景来自于对泊松分布的推导。

例如一个站台的呼叫数，它只与时间间隔有关，而与时间（刻）本身无关，设 $\xi(t)$ 为 $t_0,t_0+t)$ 内到达的呼叫数，则t时间间隔内到达k个呼叫数的概率 $p(\xi(t)=k)=\frac{(\lambda t)^k}{k!}e^{-\lambda t}$ ，服从泊松分布。记 $\tau_r$ 为第r个呼叫达到的时刻，根据泊松分布函数推导可以得到该自变量服从Gamma分布。
Gamma分布的密度函数：
$g(r,\lambda,t)=\frac{\lambda^rt^{r-1}e^{-\lambda t}}{\Gamma(r)}$

其中，r取整数时， $\Gamma(r)=(r-1)!$
$\Gamma(r)=\int_0^\infty t^{r-1}e^{-t}dt$
为gamma函数（ $\lambda=1$ , 对 t 进行了积分）

卡方分布(Gamma分布的特例)

自由度为n卡方分布： $\chi_n^2=\Gamma(\frac{n}{2},\frac{1}{2})=\frac{(1/2)^{n/2}y^{n/2}e^{-\frac{1}{2}y}}{\sqrt{\pi}}$

他的期望为n，方差为2n

Gamma分布的特例，其中 $r=\frac{n}{2}$ ， $\lambda=\frac{1}{2}$

补充：若 $\xi ~ N(\mu, \sigma^2)$ ，则 $\eta=\xi^2$ 服从自由度为1的卡方分布。

t分布

$f(x;n)=\frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\Gamma(n/2)}(1+\frac{x^2}{n})^{-(n+1)/2}$

他的期望为0，方差为 $n / (n - 2)$

对应抽样分布：设总体服从正态分布， $x_1,x_2,...,x_n$ 为样本， $\bar X$ 记为样本均值， $S$ 记为方差，则：随机变量 $\frac{\sqrt n(\bar X-\mu)}{S}$ 服从自由度为n的t分布

F分布

$f(x;m,n)=\frac{n^{\frac n2}n^{\frac n2}\Gamma{(n/2+m/2)}}{\Gamma{(n/2)}\Gamma{(n/2)}}(m+nt)^{-\frac{m+n}{2}}t^{n/2-1}$

他的期望为 $n / (m - 2) (m > 2)$ 方差为: $\frac{2m^2(n+m-2)}{n(m-2)^2(m-4)}$

对应抽样分布：两个总体X和Y，分别服从正态分布，所抽样本量分别为n和m。则随机变量 $\frac{S_X^2}{S_Y^2}/\frac{\sigma_1^2}{\sigma_2^2}$ 服从自由度为n-1,m-1的F分布

求估计区间

求置信区间的方法：枢轴变量法。

寻找一个与要估计参数 $g(\theta)$ 有关的统计量 $T=T(x_1,x_2,...,x_n)$ ，一般是其优良点估计量。
设法寻找包含统计量 $T$ 以及待估参数 $g(\theta)$ 的随机变量 $S(T,g(\theta))$ 。要求 $S(T,g(\theta))$ 的分布与 $\theta$ 无关， $S$ 为枢轴变量。这个变量是服从某种已知分布的，如正态分布、t分布或者F分布等等
对于给定的 $1-\alpha$ ，按照 $p(a\le S(T,g(\theta))\le b)=1-\alpha$ ，求出a和b，这里求a和b实际上就是看分布的上下分位数
再由 $a\le S(T,g(\theta))\le b$ 解出来 $\theta_1^*(T)\le g(\theta)\le \theta_2^*(T)$ 。则 $[\theta_1^*(T),\theta_2^*(T)]$ 即为估计量的一个置信系数 $1-\alpha$ 的区间估计。

常见的枢轴变量：

构造标准正态变量——某一变量服从正态分布（实际上自然界很多现象都服从正态分布），且其方差已知，对 $\mu$ 估计，他的优良估计连为 $\bar X$ ，可以构造随机变量 $\frac{\sqrt n(\bar X-\mu)}{\sigma}$ ，该变量服从标准正态分布，上下分位易求
t分布变量——还是上例，如果方差未知的情况呢？ $\frac{\sqrt n(\bar X-\mu)}{\sigma}$ 的分布无从可知，因为分母含有未知变量。此时构造变量 $\frac{\sqrt n(\bar X-\mu)}{S}$ ，S为样本标准差；那这个变量服从 $t_{n-1}$ 分布，上下分位也易求得
卡方分布变量——举个非正态分布的例子。对于指数总体参数 $1/\lambda$ 的区间估计，以 $2n\lambda\bar X$ 作为枢轴变量。这个变量是服从 $\chi_{2n}^2$ 的分布，也易求上下分位
……

区间估计达到预先设定的置信系数要求，就需要把关注点转移到精度要求之上，无穷大的估计区间，再准也是没有意义的。

以正态分布方差已知，估计均值的例子为例:

$p(\theta_1^*(x_1,x_2,...,x_n)\leq\theta\leq\theta_2^*(x_1,x_2,...,x_n))=1-\alpha$

$p(\theta_1^*(x_1,x_2,...,x_n)\leq\frac{\sqrt n(\bar X-\mu)}{\sigma}\leq\theta_2^*(x_1,x_2,...,x_n))=1-\alpha$

$u_{1-\alpha/2}\leq\frac{\sqrt n(\bar X-\mu)}{\sigma}\leq u_{\alpha/2}$

$\frac{\sigma u_{1-\alpha/2}}{\sqrt n}-\bar X\leq-\mu\leq \frac{\sigma u_{\alpha/2}}{\sqrt n}-\bar X$

$\bar X-\frac{\sigma u_{\alpha/2}}{\sqrt n}\leq\mu\leq \bar X-\frac{\sigma u_{1-\alpha/2}}{\sqrt n}$

$\bar X-\frac{\sigma u_{\alpha/2}}{\sqrt n}\leq\mu\leq \bar X+\frac{\sigma u_{\alpha/2}}{\sqrt n}$
估计精度：
$\beta=\frac{2\sigma u_{\alpha/2}}{\sqrt n}$

如果要求估计精度达到 $\beta$ ，那相应样本容量n就要增大，大于多少也易求。

假设检验

参数检验

例如，在元件寿命服从指数分布的假定下，要通过对抽出若干个元件进行测试所得到的数据去判定“元件平均寿命不小于5000小时”是否成立问题。

原假设： $H_0:1/\lambda\geq5000$
对立假设： $H_1:1/\lambda<5000$

任何一个假设的检验都需要用到样本，如上例中服从指数分布，用样本去判断这个假设，首先要表达出平均，也就是对这个指数分布的均值进行估计。在这个检验中，只要样本的均值满足： $\bar X\ge C$ （C为一个适当的数），就可以接受原假设.

则，能让原假设被接受的样本符合：
$A=\{(x_1,x_2,...,x_n):x_1+x_2+...+x_n\ge nC\}$
这是一个样本集，也称 接受域；
同样，A的互补集为 拒绝域

给定的常数C是临界值，但无论给出什么临界值，都避免不了犯错误。（1）在原假设为真情况下，样本落在了拒绝域内，拒绝了原假设，出现第一类错误：弃真错误。（2）原假设非真，但样本落在了接受域内，从而接受原假设，出现第二类错误：取伪错误。由于样本的随机性，错误总是不可避免，只能尽可能降低犯错概率。

对于上例中，原假设被否定概率用 $\beta_\phi(\lambda)$ 表示：
$\beta_\phi(\lambda)=P_\lambda(\bar X<C)$

表示的是样本落在拒绝域内的概率。

上例中，由于 $2n\lambda\bar X$ ~ $\chi_{2n}^2$ ，则有：
$\beta_\phi(\lambda)=P_\lambda(\bar X<C)=K_{2n}(2n\lambda C)$

可见，这个概率（样本落在拒绝域，也即均值小于5000小时）随 $\lambda$ 增大而增加， $\lambda$ 越大， $1/\lambda$ 越小，越小于5000小时，样本落在小于5000小时的概率就越大。作为一个合理的假设， $\lambda$ 越大，就应该用更大的概率否定原假设。

功效函数 是假设检验的重要概念：

$\beta_\phi(\theta_1,\theta_2,...,\theta_k)=P_{\theta_1,\theta_2,...,\theta_k}(deny-H_0)$
功效函数是未知参数的函数。当 $\theta_1,\theta_2,...,\theta_k$ 属于对立假设时，我们希望 $\beta_\phi(\theta_1,\theta_2,...,\theta_k)$ 尽可能大（拒绝原假设的概率尽可能大）

发生两类错误的概率：
（1）原假设正确但被否了。用 $\alpha_{1\phi}(\theta_1,\theta_2,...,\theta_k)$ 表示。
如果 $\theta_1,\theta_2,...,\theta_k\in H_0$
$\alpha_{1\phi}(\theta_1,\theta_2,...,\theta_k)=\beta_\phi(\theta_1,\theta_2,...,\theta_k)$
如果 $\theta_1,\theta_2,...,\theta_k\notin H_0$
$\alpha_{1\phi}(\theta_1,\theta_2,...,\theta_k)=0$

（2）原假设错误，但被接受。用 $\alpha_{2\phi}(\theta_1,\theta_2,...,\theta_k)$ 表示。
如果 $\theta_1,\theta_2,...,\theta_k\in H_0$
$\alpha_{2\phi}(\theta_1,\theta_2,...,\theta_k)=0$
如果 $\theta_1,\theta_2,...,\theta_k\notin H_0$

$\alpha_{2\phi}(\theta_1,\theta_2,...,\theta_k)=1-\beta_\phi(\theta_1,\theta_2,...,\theta_k)$
检验水平 ：一个常数 $\alpha$ （ $0\le\alpha\le1$ ），对任何的 $\theta_1,\theta_2,...,\theta_k\in H_0$ ，都有 $\beta_\phi(\theta_1,\theta_2,...,\theta_k)\le\alpha$ ，称该检验为原假设在水平 $\alpha$ 的检验。

原假设认为 $\theta_1,\theta_2,...,\theta_k\in H_0$ ，如果对任意的参数取值 $\theta_1,\theta_2,...,\theta_k\in H_0$ ，都能保证犯错误的概率小于某个数 $\alpha$ ，那我们接受它的意愿就更有说服力了， $\alpha$ 取得小，犯第一类错误的概率很小。也即原假设正确下，所有可能的样本组合，能拒绝原假设的概率很小。反过来看，如果样本的所有可能组合，拒绝原假设的概率很小，设定某一水平，如果概率小于这个水平，是可以认为原假设正确的。

重要的假设检验：
（1）正态均值检验
$x_1,x_2,...,x_n$ 为正态总体抽取的样本，讨论 $\theta$ 的假设检验问题：
$H_0:\theta\ge\theta_0;H_1:\theta<\theta_0$
$\sigma^2$ 已知时
选择 $\bar X$ 作为参数 $\theta$ 的估计量，设定检验 $\phi$ ：当 $\bar X\ge C$ 时，接受原假设，当 $\bar X< C$ 时，否定原假设。
要给定常数C使之具有水平 $\alpha$ ，按照功效函数定义，在此检验下拒绝原假设的概率为：

$\beta_\phi(\theta)=P_{\theta}(\bar X<C)=P_{\theta}(\frac{\sqrt n(\bar X-\theta)}{\sigma}<\frac{\sqrt n(C-\theta)}{\sigma})=\phi(\frac{\sqrt n(C-\theta)}{\sigma})=\alpha$
如果要检验水平为 $\alpha$ ，即要 $\beta_\phi(\theta)\le\alpha$ ，
仅需取： $\frac{\sqrt n(C-\theta)}{\sigma}=u_{1-\alpha}=-u_\alpha$
可得： $C=\theta_0-\sigma u_\alpha/\sqrt n$

将C带入功效函数：
$\beta_\phi(\theta)=\phi(\frac{\sqrt n(\theta_0-\theta)}{\sigma}-u_\alpha)$

从上式知， $\beta_\phi$ 与参数 $\theta$ 、水平 $\alpha$ 以及标准差 $\theta$ 均有关：

拟合优度检验

理论分布已知，对分布检验
对分布的假设：
$H_0$ ： $p(X=a_i)=p_i$ , i=1,2,…,k

从总体中抽出容量n的样本或进行n次观察，得到样本 $X_1,X_2,...,X_n$ ，根据样本检验 $H_0$ ， $np_i$ 为 $a_i$ 的理论样本数量，统计 $a_i$ 出现的次数为 $v_i$ （实际统计的样本数量），为观察值。

显然，差异越小越乐于接受它。
皮尔逊的拟合优度 $\chi^2$ 统计量：

$Z=\sum\frac{np_i-v_i}{np_i}$

假设成立，在样本量很大时， $Z$ 服从自由度 $k - 1$ 的 $\chi^2$ 的分布。

拟合优度 对这个检验，计算得到一定水平下的临界值为 $Z_0$ ，显然当统计量Z满足 $Z>Z_0$ 时否定原假设。在原假设为真时， $P(Z>Z_0)$ 的概率就是犯错误的概率。定义拟合优度：
$P(Z_0)=P(Z>Z_0|H_0)=1-K_{k-1}(Z_0)$
拟合优度越大， $Z_0$ 越小，犯错误的概率越低，表示理论与实际符合的越好。

例一家工厂早中晚三班，每班8小时，发生一些事故，早班6次，中班3次，晚班6次，怀疑事故发生与班次有关。
$H_0$ （事故与班次无关） $p_i=1/3$ ，i =1，2，3

试验15次，可计算拟合优度统计量：
$Z_0=((5-6)^2+(3-6)^2+(5-6)^2)/5=1.2$
$\chi_{2}(1.2)=0.451$ ，拟合优度 $p(Z_0)=0.549$
在一定准则下考虑是否拒绝原假设。

理论分布未知

总体X只取有限个值，其概率： $p(X=a_i)=p_i(\theta_1,\theta_2,...,\theta_r)$ ，其中， $\theta_1,\theta_2,...,\theta_r$ 为未知参数。
设对X进行n次观察，以 $v_i$ 记为X出现的次数。
假设： $H_0: p(X=a_i)=p_i(\theta_1,\theta_2,...,\theta_r)$ ，对参数 $\theta_1,\theta_2,...,\theta_r$ 的某一组值 $\theta_1^0,\theta_2^0,...,\theta_r^0$ 成立。

首先，要确定参数 $\theta_1,\theta_2,...,\theta_r$ ，确定参数后才能进行拟合优度的检验。这一步为参数估计部分，利用样本数据对参数进行估计：采用极大似然法。（离散分布极大似然估计公式） $L=\frac{n!}{v_1!\cdot v_2!... \cdot v_k!}P_1^{v_1}\cdot P_2^{v_2}\cdot...\cdot P_k^{v_k}$ 解方程求取极大似然估计值
以估计值为参数真值，计算理论概率。在一定条件下，若原假设成立，当样本很大时， $Z$ 统计量分布趋向于 $\chi_{k-1-r}^2$ .
若以 $Z_0$ 记为算出来的具体统计量，算出 $Z_0$ 的拟合优度 $Z_0>\chi_{k-1-r}^2(\alpha)$ 时，否定原假设

列联表检验统计量

记 $u_i$ =p(属性A在水平i); $v_j$ =p(属性B在水平j); $p_{ij}$ =p(属性A在水平i且属性B在水平j)。假设： $H_0$ ： $p_{ij}=u_iv_j$ , i=1,2,…a; j = 1,2,…,b.
根据极大似然法，求得 $\hat u_i=\frac{n_{i\cdot}}{n}$ ; $\hat v_j=\frac{n_{j\cdot}}{n}$
由此可得 $\hat p_{ij}=\frac{n_{i\cdot}n_{j\cdot}}{n^2}$