统计学第4天

学前知识点

方差 $s^2 =\frac{ \sum_1^n(x-\bar{x})^2 }{n}$ ：反映一组数据离散程度，除n是为了缩小数据量对结果的影响。

标准差： $s =\sqrt\frac{ \sum_1^n(x-\bar{x})^2 }{n}$

多个统计量推断

使用z统计量和t统计量可对两个总体参数进行推断，如果需要对更多的参数进行推断需要研究多个变量之间的关系，需要用到方差分析的思想和内容。

统计数据的分类有分类数据、顺序数据和数值型数据，在实际运用中主要研究分类数据和数值型数据。数据类型的改变会导致研究方法的改变，本节介绍总体参数的推断方法，分别是研究分类自变量对数值型变量影响的方差分析，和研究分类型自变量对分类型因变量影响的卡方检验。

自变量对因变量的效益称为自变量效益，影响效益的大小体现为因变量的误差，这个误差里面多少是由于因变量造成的？方差分析是通过取误差的分析来检验这种效益是否显著。（方差分析是用来分析数据的误差）

什么是方差分析

1、检验多个总体均值是否相等，通过分析数据的误差判断各总体均值是否相等。

2、研究分类型自变量对数值型因变量的影响。

3、单因素方差分析：涉及一个分类的自变量。

例1、某咨询公司为了研究不同类目的电商公司的服务质量，在服装类目抽取了7家公司，电子产品类目抽取了6家公司，医药类目抽取了5家公司，彩妆类目抽取了5家公司作为样本进行研究。假定他们在服务对象、服务内容、企业规模等方面基本是相同的。然后统计出近一年中消费者对这23家公司的投诉次数，结果如下：

（一般而言，受到的投诉次数越多，说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异。）

解：分析思路：

分析四个类目之间的服务质量是否有显著差异，也就是要判断类目对投诉次数是否有显著影响；

做出这种判断最终被归结为检验这四个类目被投诉的次数的均值是否相等；

若他们的均值相等，就意味着类目对投诉次数是没有影响的，他们之间的服务质量没有显著性差异；若均值不全相等，则意味着类目对投诉次数是有影响的，他们之间的服务质量有显著性差异；

若它们之间的均值不全相等，则意味着行业对投诉次数是由影响的，它们之间的服务质量有显著性差异。

$H_0:\mu_1=\mu_2=\mu_3=\mu_4$

$H _1:\mu_1,\mu_2,\mu_3,\mu_4$ 不全相等

方差分析中的相关术语

1、因素或因子：所要检验的对象（分析类目对投诉次数的影响，类目是要检验的因素或因子）；

2、水平或处理：因子的不同表现（服装、电子产品、彩妆、医药就是因子的水平）；

3、观察值：每个因素下得到的样本数据（每个行业被投诉的次数就是观察值）；

4、实验：这里只涉及一个因素，因此称为单因素四水平的实验；

5、总体：因素的每一个水平可以看作是一个总体（比如服装、电子、医药、彩妆可以看作四个总体）；

6、样本数据：被投诉次数可以看作是从这个总体中抽取的样本数据。

图像描述

1、以上述案例为例，从散点图上可以看出

不同类目被投诉的次数有明显差异的；
用一个类目，不同公司被投诉的次数也明显不同；
彩妆类目被投诉的次数较高，医药类目被投诉的次数较低；

2、类目与被投诉次数是有一定的关系

如果类目与被投诉之间没有关系，那么它们被投诉的次数应该差不多，在散点图上所呈现的模式也就应该很接近。

3、仅从散点图还不能提供确信的证据证明不同行业被投诉的次数之间有显著差异；

这种差异也有可能是由于抽样的随机性造成的；

4、需要有更准确的方法来检验这种差异是否显著，这是就需要对数据进行方差分析

之所以叫方差分析，是因为虽然我们感兴趣的是均值，但是在判断均值之间是否有差异时则需要借助方差

方差分析的思想和原理

误差分解

1、随机误差和系统误差

（1）随机误差：因素同一水平下，样本各观察值之间的差异。

比如同一类目下不同公司被投诉的次数是不同的（这种差异可以看作随机因素的影响）

（2）系统误差：因素的不同水平下，各观察值之间的差异。不同类目之间的被投诉次数之间的差异。这种差异可能是由于抽样的随机性造成的，也可能是由于行业本身所造成的，后者所形成的误差是由系统因素造成的称为系统误差。

2、组内方差和组间方差

（1）组内方差：因素的同一水平下样本数据的方差（组内方差只包含随机误差）

（2）组间方差：因素的不同水平下样本数据的方差（组间方差既包含随机误差，也包含系统误差）

误差分析

1、若不同类目对投诉次数没有影响，则组间误差只包含随机误差，没有系统误差。这时，组间误差与组内误差经过平均后的数值就会很接近，它们（组间/组内）比值就会接近1。

2、若不同类目对投诉次数有影响，则组间误差中除了包含随机误差外，还会包含系统误差，这时组间误差平均后的数字就会大于组内误差平均后的数值，它们（组间/组内）的比值就会大大于1。

3、当这个比值大到某种程度时，就可以说不同水平之间存在着显著差异，也就是自变量对因变量有影响。

方差分析中的基本假定

1、每个总体都应该服从正态分布；

对于因素的每一个水平，其观察值都是来自服从正态分布总体的简单随机样本，比如，每个类目被投诉的次数必须服从正态分布。

2、各个总体的方差必须相同；

各组观察使从具有相同方差的总体中抽取的，比如，四个类目被投诉次数的方差都相等。

3、观察值使独立的。

比如，每个类目被投诉的次数与其他行业被投诉的次数独立。

在上述假定条件下，判断类目对投诉次数是否有显著影响，实际上就是检验具有同方差的四个正态总体的均值是否相等；

如果四个总体的均值相等，可以期望四个样本的均值也会很接近。

四个样本的均值越接近，判断四个总体均值相等的理由越充分，样本均值越不同，判断总体均值不同的证据越充分。

在上述案例中：

如果原假设成立，即 $H_0:\mu_1=\mu_2=\mu_3=\mu_4$

四个类目被投诉的次数的均值都相等，意味着每个样本都来自均值 $\mu$ 方差 $\sigma^2$ 的统一正态总体

如果备择假设成立 $H _1:\mu_1,\mu_2,\mu_3,\mu_4$ 不全相等

至少有一个总体的均值是不同的，四个样本分别来自均值不同的四个正态总体。

问题的一般提法

1、设因素有k个水平，每个水平的均值分别用 $\mu_1,\mu_2,\mu_3...\mu_k$ 表示

2、要检k个水平（总体）的均值是否相等，需要提出如下假设：

$H_0:\mu_1=\mu_2=\mu_3=...=\mu_k$
$H_1:\mu_1,\mu_2,\mu_3...\mu_k$ 不全相等

3、设 $\mu_1$ 为服装被投诉次数的均值， $\mu_2$ 为电子产品被投诉次数的均值， $\mu_3$ 为医药被投诉次数的均值， $\mu_4$ 为被彩妆被投诉次数的均值，需要提出如下假设：

$H_0:\mu_1=\mu_2=\mu_3=...=\mu_k$
$H_1:\mu_1,\mu_2,\mu_3...\mu_k$ 不全相等

数据结构

进行单因素方差分析时，需要得到下面数据结构：

分析步骤

1、提出假设

2、构造检验统计量

3、统计决策

4、方差分析表

构造检验统计量

d、计算统计量

a）计算均方MS

各误差平方和的大小与观察值的多少有关，为了消除观察值多少对误差平方和大小的影响，需要将其平均，这就是均方，也称为方差；
计算方法时用误差平方和除以相应的自由度；
三个平方和的自由度分别为：

SST的自由度为n-1，其中n为全部观察值的个数；
SSA的自由度为k-1，其中k为因素水平（总体）的个数；
SSE的自由度为n-k。

SST总离差平方和：所有水平的平均值和所有元素的平均值的差平方和；

SSA组间离差平方和：n倍每组均值和总体均值的离差平方和；

SSE组内离差平方和：每组组内方差之和。

组间方差MSA：SSA的均方，记作MSA，计算公式为： $MSA = \frac{SSA}{k-1}$

前例的计算结果 $MSA = \frac{SSA}{k-1}=\frac{1456.608696}{4-1}=485.536232$

组内方差MSE：SSE的均方，记作MSE，计算公式为 $MSE=\frac{SSE}{n-k}$

前例的计算结果为 $MSE=\frac{SSE}{n-k}=\frac{2708}{23-4}=142.526316$

b）计算检验统计量F

将MSA和MSE进行对比，即得到所需要的检验统计量F

当 $H_0$ 为真时，二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布，即

$F=\frac{MSA}{MSE} \sim F(k-1,n-k)$

前例的计算结果为： $F=\frac{MSA}{MSE} = \frac{485.536232}{142.526316}=3.406643$

e、构造检验统计量

统计决策

将统计量的值F与给定的显著性水平 $\alpha$ 的临界值 $F_{\alpha}$ 进行比较。做出接收或拒绝原假设 $H_0$ 的决策。

根据给定的显著性水平 $\alpha$ ，在F分布中查找与分子 $df_1=k-1$ 、分母自由度 $df_2=n-k$ 的相应临界值 $F_{\alpha}$ ；

若 $F>F_{\alpha}$ ，则拒绝原假设 $H_0$ ，表名均值之间的差异是显著的，所检验的因素（A）对观察值有显著影响；

若 $F\leq F_{\alpha}$ ，则不能拒绝原假设 $H_0$ ，表名所检验的因素（A）对观察值没有显著影响

单因素方差分析表

1、拒绝原假设表明因素（自变量）与观察值之间有关系

组间平方和SSA度量了自变量（类目）对因变量（投诉次数）的影响效应

只要组间平方和SSA，就表名两个变量之间有关系（只是是否显著的问题）
当组间平方和比组内平方和SSE大，且大到一定程度时，就意味着两个变量之间的关系越显著，大的越多，表名它们之间的关系就越强。反之，就意味着两个变量之间的关系不显著，小的越多就表明它们之间的关系就越弱。

2、变量的关系强弱用组间平方和（SSA）占总平方和（SST）的比例大小来反映，将这一比例记为 $R^2$ ： $R^2=\frac{SSA}{SST}$ ，其中平方根R就可以用来测量两个变量之间的关系强弱。

上述案例中： $R^2=\frac{SSA}{SST}=\frac{1456.608696}{4146.609696}=0.349759=34.9757\%,R=0.591494$

结论：

类目（自变量）对投诉次数（因变量）的影响效应占总效应的34.9759%，而残差效应则占65.0241%。即行业对投诉次数差异解释的比例达到35%,而其他因素（残差变量）所揭示的比例近为65%以上；
R=0.591494，表明类目与投诉次数之间有中等以上的关系。

方差中的多重比较

作用

多重比较时通过对总体均值之间的匹配比较来进一步检查到底哪些均值之间存在差异；
多重比较方法有很多种，这里费尔希提出的最小显著差异方法，简写LSD。该方法用于判读到底哪些均值之间有差异。

步骤

1、提出假设

$H_0:\mu_i=\mu_j$ （第i个总体的均值等于第j个总体的均值）

$H_1:\mu_i\neq \mu_j$ （第i个总体的均值不等于第j个总体的均值）

2、计算检验统计量： $\bar{x_1}-\bar{x_j}$

4、计算LSD，其公式为： $LSD = t_{\alpha/2}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}$

4、根据显著性水平做出决策，如果 $|\bar{x_i}-\bar{x_j}|\geq LSD$ ，拒绝 $H_0$ ，若 $|\bar{x_i}-\bar{x_j}|< LSD$ 不能拒绝 $H_0$
5、对前例四个类目的均值做多重比较（ $\alpha=0.05$ ）

第一步提出假设。

检验1：H0：μ1=μ2，H1：μ1≠μ2

检验2：H0：μ1=μ3，H1：μ1≠μ3

检验3：H0：μ1=μ4，H1：μ1≠μ4

检验4：H0：μ2=μ3，H1：μ2≠μ3

检验5：H0：μ2=μ4，H1：μ2≠μ4

检验6：H0：μ3=μ4，H1：μ3≠μ4

第二步：计算检验统计量

第三步：计算LSD。由之前计算结果可知，MSE=142.526316.由于四个类目的样本量不同，需要分别计算LSD。根据自由度=n-k=23-4=19，查t分布表得 $t_{\alpha/2}=t_{0.0025}=$ 2.093。各检验得LSD如下：

检验1： $LSD_1 = 2.093\times\sqrt{142.526316\times(1/7+1/6)}=13.90$

检验2： $LSD_2 = 2.093\times\sqrt{142.526316\times(1/7+1/5)}=14.63$

检验3： $LSD_3 =2.093\times\sqrt{142.526316\times(1/7+1/5)}=14.63$

检验4： $LSD_4 = 2.093\times\sqrt{142.526316\times(1/6+1/5)}=15.13$

检验5： $LSD_5 = 2.093\times\sqrt{142.526316\times(1/6+1/5)}=15.13$

检验6： $LSD_6 = 2.093\times\sqrt{142.526316\times(1/5+1/5)}=15.80$

第四步：做出决策。

F分布