第7章-使用统计方法进行变量有效性测试-7.4.1-简单线性回归

news2024/10/5 16:27:17

目录

基本概念

变量之间的关系

相关分析

回归分析

相关分析和回归分析的关系

一元线性回归模型

总体回归函数

样本回归函数

线性回归模型的假定

普通最小二乘法(Ordinary Least Squares,OLS)

拟合优度指标

回归系数估计量的性质

回归系数估计量的线性性

回归系数估计量的无偏性

回归系数估计量的有效性

回归系数估计量检验(t检验)

参考文献


基本概念

变量之间的关系

        变量之间的关系,一般可以分成两类,确定性关系和非确定性的依存关系。

(1)确定性关系

        如果一个变量的值Y能被一个或若干个其他变量值X_1,X_2,...,X_k按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。可以写成如下形式:

Y=f(X_1,X_2,..,X_k)

这里f就是“按某一规律唯一的确定”中的那个唯一的规律。确定性关系通常也称为函数关系。事实上,上式就是我们熟悉的多元函数。其中X_1,X_2,...,X_k为自变量,Y为因变量。

       例如:假设每吨水的价格为10元时,居民应缴纳水费Y(元),与用水量X(吨)之间的关系就是一个确定性关系,确定性关系如下:

Y=10X

(2)非确定性关系

        如果一个变量的值Y与一个或若干个其他变量值X_1,X_2,...,X_k之间存在着密切的数量关系,却无法由X_1,X_2,...,X_k的值精确求出。在基于大量统计数据的基础之上,可以判别这类变量之间的数量关系具有一定的规律性,称为统计相关关系。

        例如:居民消费支出Y,与可支配收入X之间存在着密切的数量关系。在一定范围内,可支配收入增加,居民的消费支出也会相应增加。但是,根据可支配收入并不能精确求出消费支出。也就是它们之间的关系是非确定性的。


相关分析

        相关分析是通过对变量之间依存关系的分析,找出变量之间依存关系的形式和相关程度,以及依存关系的变动规律。

        从依存关系的形式来看,可分为线性相关和非线性相关。线性相关反映变量之间的依存关系近似表示为一条直线。而非线性相关无法近似的表示为一条直线。

        变量之间的相关程度,可以通过相关系数来度量。例如可以使用Pearson相关系数来度量两个连续型变量之间的相关程度(线性相关,Pearson相关系数为0只能说明变量之间不存在线性关系,但无法说明变量之间不存在关系)。

        关于Pearson相关系数可以参见皮尔逊相关系数(百度百科)。


回归分析

        回归分析是研究某一被解释变量(因变量),与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值来估计和预测被解释变量的总体平均值

        在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量。它是分析的对象,把引起这一现象变化的因素称为解释变量。它是引起这一现象变化的原因。

        按照回归分析模型中自变量的个数,分为一元回归分析多元回归分析。一元回归分析是指分析模型中只有一个自变量,多元回归分析是指回归分析模型中有两个或两个以上的自变量。

        按照回归分析模型中参数被解释变量(因变量)之间是否线性,分为线性回归分析非线性回归分析。注意这里是针对参数,而不是自变量。

        本文将重点研究一元线性回归分析,也就是文章标题所写的“简单线性回归”。


相关分析和回归分析的关系

        相关分析是回归分析的前提和基础,回归分析是相关分析的深入和继续。

        相关分析需要依靠回归分析来表现变量之间数量关系的具体形式。而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。

        相关分析只研究变量之间相关的方向(正相关、负相关)和相关的程度(使用相关系数来度量),不能推断变量之间的相关关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。


一元线性回归模型

总体回归函数

        假若我们要研究的问题是:某市城镇居民家庭的可支配收入X和消费支出Y之间的关系。则全市城镇居民家庭构成了研究的总体。某市全部城镇居民家庭可支配收入和消费支出统计数据如下:

可支配收入X消费支出Y户数平均消费支出
X_1Y_{11},Y_{12},...,Y_{1n_1}n_1E(Y|X_1)
X_2Y_{21},Y_{122},...,Y_{2n_2}n_2E(Y|X_2)
........................
X_iY_{i1},Y_{i2},...,Y_{in_i}n_iE(Y|X_i)
........................
X_kY_{k1},Y_{k2},...,Y_{kn_k}n_kE(Y|X_k)

第1列是可支配收入X,分为k个不同的收入水平X_1,X_2,...,X_k

第2列是消费支出,对于某一个收入水平X_i,总共有n_i户家庭的消费支出数据与之对应,反映了在给定某一收入水平下,有关消费支出的条件分布。根据条件分布可以计算出在某一收入水平下的平均消费支出E(Y|X_i),即条件均值。

        可以看出,对于每一个收入水平X_i,仅有唯一的一个条件均值E(Y|X_i)与之对应。这种一一对应关系,可以表示成如下函数关系:

E(Y|X_i)=f(X_i)              (1)

该函数被称为总体回归函数(Population Regression Function, PRF),总体回归函数反映了在给定自变量X_i下,因变量Y的分布的总体均值随自变量X_i的变化关系。

        总体回归函数f若是线性函数,有:

E(Y|X_i)=\beta_0+\beta_1X_i                 (2)

其中\beta_0,\beta_1未知而固定的参数,称为回归系数(Regression Coefficients),特别地,\beta_0称为截距系数,\beta_1称为斜率系数。这里所谓的未知而固定,指的是通常研究的总体变量之间的关系是无法知道的,但又是客观存在的,只能根据样本数据来进行近似估计。(2)式也被称为一元线性总体回归函数

        事实上,E(Y|X_i)仅仅反映了在某一收入水平X_i下,平均消费支出水平。但是对于某一居民的家庭消费支出Y_i不一定与该水平一致。或多或少存在一些偏差。该偏差用\varepsilon_i表示。即:

\varepsilon_i=Y_i-E(Y|X_i)

则有

Y_i=E(Y|X_i)+\varepsilon_i

总体回归函数f若是线性函数,则

Y_i=\beta_0+\beta_1X_i+\varepsilon_i       (3)

\varepsilon_i是除可支配收入外,其他一个或多个影响消费支出的因素的综合影响,是一个不可观测的随机变量,称为随机误差项。注意到上式中下标i仅仅表达的是第i个收入水平,是一个随机变量,并不是第i个样本,所以,可以写成如下更一般的形式:

Y=\beta_0+\beta_1X+\varepsilon  

该式就是本文要讨论的一元线性回归函数。式中的各个项都是真实值,不是预测值或估计值。注意到求解总体回归函数就是求解出回归系数\beta_0,\beta_1。下面介绍样本回归函数。


样本回归函数

        根据总体可以建立总体回归函数,揭示被解释变量(因变量)随解释变量的变化而变化的规律。但在大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X值相对应的Y值样本,需要根据已知的样本信息去估计总体回归函数。

        假设现在不知道建立总体回归函数的统计数据,仅仅掌握了来自总体的一组样本数据,例如:

根据以上样本数据拟合如下线性函数:

\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i

该式称为样本回归函数。比较该式与总体回归函数

E(Y|X_i)=\beta_0+\beta_1X_i

假如\hat{\beta_0}无限接近\beta_0\hat{\beta1}无限接近\beta_1,就可以用样本回归函数值\hat{Y_i}去估计总体回归函数E(Y|X_i)的值,即E(Y|X_i)\approx \hat{Y_i}

        估计值\hat{Y_i}与真实值Y_i存在一定的误差,该偏差用e_i表示。如下:

e_i=Y_i-\hat{Y_i}

Y_i=\hat{Y_i}+e_i

得到如下一元线性样本回归函数

Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i

e_i称为样本剩余项,或残差。


线性回归模型的假定

(1)线性于参数

即讨论的模型是关于参数\beta_0,\beta_1的线性函数。即:

Y=\beta_0+\beta_1X+\varepsilon

当然这里是一元情形,可以写成多元形式。

(2)扰动项与自变量不相关,期望值为0

Cov(X_i,\varepsilon_i)=0, E(\varepsilon_i)=0

 (3)扰动项之间相互独立且服从方差相等的同一个正态分布

Cov(\varepsilon_i,\varepsilon_j)=0(i\neq j), \varepsilon_i\sim N(0,\sigma^2)


普通最小二乘法(Ordinary Least Squares,OLS)

         如何根据样本数据信息估计回归系数呢?直觉告诉我们,预测值或估计值\hat{Y_i}尽可能接近观测值Y_i。OLS的原理就是让残差平方和达到最小,来确定回归分析模型中的参数,也就是回归系数。即:

min\sum_{i=1}^{n} e_i^2

下面来估计和推导。由

e_i=Y_i-\hat{Y_i}=Y_i-\hat{\beta_0}-\hat{\beta_1}X_i

得到残差平方和:

\sum_{i=1}^{n} e_i^2=\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2

对于给定的样本,\sum_{i=1}^{n} e_i^2是关于\hat{\beta_0},\hat{\beta_1}的二元函数。即:

f(\hat{\beta_0},\hat{\beta_1})=\sum (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)^2    

根据最小二乘法原理,要求\hat{\beta_0},\hat{\beta_1}使得\sum_{i=1}^{n} e_i^2最小。借助微积分求极值方法。上式两边分别对\hat{\beta_0},\hat{\beta_1}求偏导数,如下:

\frac{\partial f}{\partial \hat{\beta_0}}=0\frac{\partial f}{\partial \hat{\beta_1}}=0

求偏导数,得到:

-2\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)=0

-2\sum_{i=1}^{n} (Y_i-\hat{\beta_0}-\hat{\beta_1}X_i)X_i=0

化简后得到:

\sum_{i=1}^{n}Y_i-n\hat{\beta_0}-\hat{\beta_1}\sum_{i=1}^{n}X_i=0                               (1)

\sum_{i=1}^{n}X_iY_i-\hat{\beta_0}\sum_{i=1}^{n}X_i-\hat{\beta_1}\sum_{i=1}^{n}X_i^2=0           (2)

(1)式两边除以n,

\hat{\beta_0}=\frac{1}{n}\sum_{i=1}^{n}Y_i-\hat{\beta_1}\frac{1}{n}{}\sum_{i=1}^{n}X_i,即:\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

将其代入(2)式,求得:

\hat{\beta_1}=\frac{n\sum_{i=1}^{n}X_iY_i-\sum_{i=1}^{n}X_i\sum_{i=1}^{n}Y_i}{n\sum_{i=1}^{n}X_i^2-(\sum_{i=1}^{n}X_i)^2}

化简后得到:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

我们以如下样本为例: 


拟合优度指标

        根据最小二乘法原理,已经估计出回归系数\hat{\beta_0},\hat{\beta_1},从而可以得到样本回归函数:Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i

那么,如何判断拟合的效果怎么样呢?这就要使用拟合优度指标R^2了,在介绍拟合优度指标之前。我们先证明一个恒等式。

SST=SSE+SSR

其中,SST为总离差平方和,或者总平方和(Total Sum of Squares),如下计算:

SST=\sum_{i=1}^n(Y_i-\bar{Y})^2

SSE为回归平方和,或者解释平方和(Explained Sum of Squares),如下计算:

SSE=\sum_{i=1}^n(\hat{Y_i}-\bar{Y})^2

SSR为残差平方和,或者剩余平方和(Residual Sum of Squares),如下计算:

SSR=\sum_{i=1}^n(\hat{Y_i}-Y_i)^2

这个等式表明:因为引入模型,SST被分解成了两部分SSE和SSR。证明思路也是如此。

SST=\sum_{i=1}^n(Y_i-\bar{Y})^2

=\sum_{i=1}^n[(Y_i-\hat{Y_i})+(\hat{Y_i}-\bar{Y})]^2

=\sum_{i=1}^n(Y_i-\hat{Y_i})^2+\sum_{i=1}^n(\hat{Y_i}-\bar{Y})^2+2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})

=SSR+SSE+2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})

现在只需要证明最后一项为0即可,根据线性回归分析模型中的如下三个结论:

\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i

\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

有:

\hat{Y_i}-\bar{Y}=\hat{\beta_1}(X_i-\bar{X})

Y_i-\hat{Y_i}=(Y_i-\bar{Y})-(\hat{Y_i}-\bar{Y})=(Y_i-\bar{Y})-\hat{\beta_1}(X_i-\bar{X})

因此

2\sum_{i=1}^n(Y_i-\hat{Y_i})(\hat{Y_i}-\bar{Y})

=2\sum_{i=1}^n[\hat{\beta_1}(X_i-\bar{X})][(Y_i-\bar{Y})-\hat{\beta_1}(X_i-\bar{X})]

=2\hat{\beta_1}[\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})-\hat{\beta_1}\sum_{i=1}^n(X_i-\bar{X})^2]

=2\hat{\beta_1}*0=0

所以,SST=SSE+SSR

因为在样本给定的情况下,SST不会变,而最小二乘法原理是使得残差平方和最小,即SSR最小,也就是SSE最大。我们如下定义线性回归拟合优度指标R^2

R^2=\frac{SSE}{SST}=1-\frac{SSR}{SST}

显然R^2\in[0,1]R^2越大,拟合效果越好。一般来说,如果R^2大于0.8,则说明拟合效果非常好。


回归系数估计量的性质

回归系数估计量的线性性

        回归系数\beta_0,\beta_1的估计量\hat{\beta_0},\hat{\beta_1}是随机变量Y_i的线性函数,这就是所谓的回归系数估计量的线性性。先给出结论:

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i,其中k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i,其中h_i=\frac{1}{n}-k_i\bar{X}

下面一一证明。

(1)先证明估计量\hat{\beta_1}的线性性。根据OLS得到的\hat{\beta_1}如下:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

将上式分子拆开,得到:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})Y_i-\sum_{i=1}^{n}(X_i-\bar{X})\bar{Y}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

注意到:\sum_{i=1}^{n}(X_i-\bar{X})\bar{Y}=\bar{Y}\sum_{i=1}^{n}(X_i-\bar{X})=\bar{Y}(\sum_{i=1}^{n}X_i-n\bar{X})=0

所以得到:

\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})Y_i}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=\sum_{i=1}^{n}\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}Y_i

如果令k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2},则k_i只与自变量有关,与Y_i无关,最终得到:

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i

可以看出回归系数估计量\hat{\beta_1}是随机变量Y_i的线性函数。

(2)证明估计量\hat{\beta_0}的线性性。根据OLS得到的\hat{\beta_0}如下:

\hat{\beta_0}=\bar{Y}-\hat{\beta_1}\bar{X}

\bar{Y}=\frac{1}{n}\sum_{i=1}^{n}Y_i(平均值的定义)

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i(估计量\hat{\beta_1}的线性性)

代入上式,得到:

\hat{\beta_0}=\frac{1}{n}\sum_{i=1}^{n}Y_i-\bar{X}\sum_{i=1}^{n}k_iY_i

=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})Y_i

如果令h_i=\frac{1}{n}-k_i\bar{X},则h_i只与自变量有关,与Y_i无关,得到

\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i

可以看出回归系数估计量\hat{\beta_0}是随机变量Y_i的线性函数。


回归系数估计量的无偏性

        如果估计量的均值等于总体参数,则称估计量就是无偏估计量,对于回归系数估计量来说,就是

E(\hat{\beta_0})=\beta_0

E(\hat{\beta_1})=\beta_1

        怎么理解无偏性呢。我们以\hat{\beta_1}为例,\hat{\beta_1}是使用样本数据估计得到的一个估计值,它可能比真实的总体参数\beta_0要大,如果换一组样本数据,\hat{\beta_1}的估计值可能就比真实的总体参数\beta_0要小,当然,也可能是相等的,如果通过换更多组的样本数据,得到很多个\hat{\beta_1},虽然大小不一,但是它们的均值是真实值的总体参数。也就是无论你怎么更换样本数据,\hat{\beta_1}的值在真实值左右摆动。

(1)先证明估计量\hat{\beta_1}的无偏性

由回归系数估计量的线性性

\hat{\beta_1}=\sum_{i=1}^{n}k_iY_i,其中k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

以及

Y_i=\beta_0+\beta_1X_i+\varepsilon_i

得到

\hat{\beta_1}=\sum_{i=1}^{n}k_i(\beta_0+\beta_1X_i+\varepsilon_i)

=\beta_0\sum_{i=1}^{n}k_i+\beta_1\sum_{i=1}^{n}k_iX_i+\sum_{i=1}^{n}k_i\varepsilon_i

因为

k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

容易验证:

\sum_{i=1}^{n}k_i=\sum_{i=1}^{n}\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}=0\sum_{i=1}^{n}k_iX_i=1

所以得到:

\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i(该式表明了估计量与真实值之间的关系)

上式两边取期望,根据期望性质,得到:

E(\hat{\beta_1})=E(\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i)=E(\beta_1)+E(\sum_{i=1}^{n}k_i\varepsilon_i)

=\beta_1+\sum_{i=1}^{n}E(k_i\varepsilon_i)=\beta_1+\sum_{i=1}^{n}k_iE(\varepsilon_i)

根据模型假定\varepsilon_i\sim N(0,\sigma^2)E(\varepsilon_i)=0,得到

E(\hat{\beta_1})=\beta_1

(2)证明估计量\hat{\beta_0}的无偏性

由回归系数估计量的线性性

\hat{\beta_0}=\sum_{i=1}^{n}h_iY_i,其中h_i=\frac{1}{n}-k_i\bar{X}

以及

Y_i=\beta_0+\beta_1X_i+\varepsilon_i

得到:

\hat{\beta_0}=\sum_{i=1}^{n}h_i(\beta_0+\beta_1X_i+\varepsilon_i)

=\beta_0\sum_{i=1}^{n}h_i+\beta_1\sum_{i=1}^{n}h_iX_i+\sum_{i=1}^{n}h_i\varepsilon_i

容易验证:

\sum_{i=1}^{n}h_i=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})=1

\sum_{i=1}^{n}h_iX_i=\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})X_i=\frac{1}{n}\sum_{i=1}^{n}X_i-\bar{X}\sum_{i=1}^{n}k_iX_i=0

得到:

\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i(该式表明了估计量与真实值之间的关系)

上式两边取期望,所以

E(\hat{\beta_0})=E(\beta_0)+E(\sum_{i=1}^{n}h_i\varepsilon_i)

所以

E(\hat{\beta_0})=\beta_0


回归系数估计量的有效性

        所谓回归系数估计量的有效性是指,在所有关于总体参数真实值\beta_0\beta_1的无偏估计\hat{\beta_0}\hat{\beta_1}中,\hat{\beta_0}\hat{\beta_1}的方差Var(\hat{\beta_0})Var(\hat{\beta_1})最小。我们先给出使用OLS得到的回归系数估计量的方差。

Var(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

Var(\hat{\beta_0})=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

(1)\hat{\beta_1}的方差Var(\hat{\beta_1})

因为估计量\hat{\beta_1}与真实值\beta_1有如下关系

\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i

两边取方差,得到

Var(\hat{\beta_1})=Var(\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i)=Var(\beta_1)+Var(\sum_{i=1}^{n}k_i\varepsilon_i)

=\sum_{i=1}^{n}Var(k_i\varepsilon_i)=\sum_{i=1}^{n}k_i^2Var(\varepsilon_i)

根据模型假定Var(\varepsilon_i)=\sigma^2,所以

Var(\hat{\beta_1})=\sigma^2\sum_{i=1}^{n}k_i^2

因为

k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

得到:

\sum_{i=1}^{n}k_i^2=\sum_{i=1}^{n}[\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}]^2=\frac{1}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

最终

Var(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

(2)\hat{\beta_0}的方差Var(\hat{\beta_0})

因为估计量\hat{\beta_0}与真实值\beta_0有如下关系

\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i,其中h_i=\frac{1}{n}-k_i\bar{X}k_i=\frac{X_i-\bar{X}}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

两边取方差,有

Var(\hat{\beta_0})=Var(\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i)=Var(\beta_0)+Var(\sum_{i=1}^{n}h_i\varepsilon_i)

=\sum_{i=1}^{n}h_i^2Var(\varepsilon_i)

=\sigma^2\sum_{i=1}^{n}h_i^2=\sigma^2\sum_{i=1}^{n}(\frac{1}{n}-k_i\bar{X})^2=\sigma^2\sum_{i=1}^{n}(\frac{1}{n^2}-\frac{2k_i\bar{X}}{n}+k_i^2\bar{X}^2)

=\sigma^2(\frac{1}{n}-\sum_{i=1}^{n}\frac{2k_i\bar{X}}{n}+\sum_{i=1}^{n}k_i^2\bar{X}^2)

=\sigma^2(\frac{1}{n}+\bar{X}^2\sum_{i=1}^{n}k_i^2)

=\sigma^2(\frac{1}{n}+\frac{\bar{X}^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})

=\sigma^2\frac{n\bar{X}^2+\sum_{i=1}^{n}(X_i-\bar{X})^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

即:

Var(\hat{\beta_0})=\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2}

(3)\hat{\beta_1}有效性

\hat{\beta_1}^*是使用其他方法得到的\beta_1的线性无偏估计量。由线性性可知:\hat{\beta_1}^*=\sum_{i=1}^nw_iY_i,该式两边取方差,得到

Var(\hat{\beta_1}^*)=Var(\sum_{i=1}^nw_iY_i)=Var(\sum_{i=1}^n[(w_i-k_i)+k_i]Y_i)

=\sum_{i=1}^n[(w_i-k_i)^2Var(Y_i)+Var(k_iY_i)]

=\sum_{i=1}^n(w_i-k_i)^2Var(Y_i)+Var(\hat{\beta_1})

\geq Var(\hat{\beta_1})

(4)\hat{\beta_0}有效性

可类似证明。

由上面的推导知道:

\hat{\beta_1}=\beta_1+\sum_{i=1}^{n}k_i\varepsilon_i

\hat{\beta_0}=\beta_0+\sum_{i=1}^{n}h_i\varepsilon_i

可以看出\hat{\beta_0}\hat{\beta_1}都是干扰项\varepsilon_i的线性函数。而\varepsilon_i\sim N(0,\sigma^2),由正态分布的性质,得到回归系数估计量\hat{\beta_0}\hat{\beta_1}均服从如下正态分布:

\hat{\beta_0}\sim N(\beta_0,\frac{\sigma^2\sum_{i=1}^{n}X_i^2}{n\sum_{i=1}^{n}(X_i-\bar{X})^2})

\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})

这里遗憾的是,回归系数估计量\hat{\beta_0}\hat{\beta_1}的方差中的扰动项方差\sigma^2是未知的。


回归系数估计量检验(t检验)

        估计出一元回归分析的回归系数后,需要对其进行检验。假设问题如下:

(1)原假设H_0\beta_1=0

(2)备择假设H_1\beta_1\neq 0

\beta_0类似,这里不再累述。

构造如下统计量:

t=\frac{\hat{\beta_1}}{S_{\hat{\beta_1}}}=\frac{\hat{\beta_1}}{\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}}

其中\hat{\beta_1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}S_{\hat{\beta_1}}=\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}

下面我们来证明该统计量在原假设下服从自由度为n-2的t分布。

参见《一些常见分布-正态分布、对数正态分布、伽马分布、卡方分布、t分布、F分布等》

根据t分布的如下定义: 

 只需要分子构造一个标准正态分布G\sim N(0,1),分母构造一个自由度为n-2的卡方分布H\sim \chi (n-2),则如下Z分布

Z=\frac{G}{\sqrt{H/(n-2)}}\sim t(n-2)

就是一个自由度为n-2的t分布。

因为

\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2})

则如下构造的G分布服从标准正态分布

G=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}}}\sim N(0,1)

构造如下H分布:

H=\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2

则Z分布如下:

Z=\frac{G}{\sqrt{H/(n-2)}}=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}}}\frac{1}{\sqrt{\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2/(n-2)}}

=\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sum_{i=1}^ne_i^2}{(n-2)\sum_{i=1}^{n}(X_i-\bar{X})^2}}}=\frac{\hat{\beta_1}-\beta_1}{S_{\hat{\beta_1}}}

因为原假设成立\beta_1=0,即

Z=\frac{\hat{\beta_1}}{S_{\hat{\beta_1}}}

所以现在只需要证明H=\frac{1}{\sigma^2}\sum_{i=1}^ne_i^2\sim \chi (n-2)

这里参照《多元线性回归参数检验服从t分布的证明》证明。

参考文献

线性回归R2-F-t检验 - 360文档中心

多元线性回归参数检验服从t分布的证明 - 知乎线性回归的四个假设 The Four Assumptions of Linear Regression - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1233670.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

主播-产品痛点话术

—、用户体验差我们的产品在用户体验方面存在一些问题。首先,产品的操作流程不够顺畅,导致用户在使用过程中经常遇到困扰。另外,我们的产品界面设计不够美观,无法给用户带来愉悦的使用体验。针对这些问题,我们将对产品…

2015-2020年全国地区生产总值及一二三产构成数据总览,shp/excel格式

今天我们来整理了2015-2020全国地区生产总值及一二三产构成数据,数据格式为shpexcel格式,数据精度可达各区县。 另外,需要说明的是:由于统计年鉴指标调整,每一年的数据并非字段相同,字段详情请参考已下载数…

KT142C语音芯片客户反馈电脑端的配置文件,打开都正常,但是拷贝到KT142C内部就乱码

KT142C语音芯片客户反馈电脑端的配置文件,打开都正常,但是拷贝到KT142C内部就乱码 首先解释一下原理,KT142C内置的330Kbyte空间可供用户下载,实际上拿出程序部分的空间 作为声音存储介质的,也就是说,代码空…

SDWAN厂家排名

随着网络技术的不断发展,SDWAN(软件定义广域网)作为一种新兴的网络架构,正在受到越来 越多企业的关注和采用。选择一家可靠的SDWAN厂家成为企业成功部署和管理SDWAN的关键。本文将从技术实力、客户口碑以及市场占有率三个方面&…

数据仓库模式之详解 Inmon 和 Kimball

目录 一、前言 二、企业信息工厂(Inmon) 2.1 概念 2.2 主要组件 2.3 流程 三、多维数据仓库(Kimball) 3.1 概念 3.2 核心组件 3.3 流程 四、异同及用途对比 4.1 异同对比 4.2 特征比较 一、前言 大部分关于数据仓库构建…

数据智能引擎:企业模糊搜索API精准获取企业列表信息

引言 随着信息时代的迅速发展,数据变得愈加庞大和复杂。在这个大数据的时代,企业面临着海量信息的管理和利用挑战。为了更有效地获取并利用数据,企业信息模糊搜索API成为了企业数据智能引擎的一部分,为企业提供了精准的企业列表检…

系列十四、异步回调

一、概述 二、案例代码 /*** Author : 一叶浮萍归大海* Date: 2023/11/21 10:45* Description: 异步任务案例代码*/ public class CompletableFutureMainApp {public static void main(String[] args) throws ExecutionException, InterruptedException {CompletableFuture<…

缓存穿透、缓存雪崩、缓存击穿问题的解决思路

一、缓存穿透 缓存穿透 &#xff1a;缓存穿透是指客户端请求的数据在缓存中和数据库中都不存在&#xff0c;这样缓存永远不会生效&#xff0c;这些请求都会打到数据库。 常见的解决方案有两种&#xff1a; 缓存空对象 优点&#xff1a;实现简单&#xff0c;维护方便 缺点&am…

工作记录---淘宝双11,亿级流量高并发是怎么抗住?(站在巨人的肩膀上学习,超开心~)--------脚踏实地,持续学习(看完这一篇获益匪浅)

什么是分布式&#xff1f; 系统中的多个模块在不同服务器上部署&#xff0c;即可称为分布式系统。 如Tomcat和数据库分别部署在不同的服务器上&#xff0c;或两个相同功能的Tomcat分别部署在不同服务器上。 什么是高可用&#xff1f; 系统中部分节点失效时&#xff0c;其他节…

MatrixOne完成与麒麟信安、欧拉的兼容互认

近日&#xff0c;超融合异构云原生数据库MatrixOne企业版软件V1.0完成了与欧拉开源操作系统&#xff08;openEuler简称“欧拉”&#xff09;、麒麟信安操作系统系列产品和虚拟化平台的相互兼容认证&#xff0c;通过了欧拉兼容性测评&#xff0c;获得了《openEuler技术测评证书》…

打造完美照片,尽在PhotoFoundry for Mac

想要给你的照片加上绚丽的滤镜、调整色彩和对比度&#xff0c;甚至进行精确的修图吗&#xff1f;PhotoFoundry for Mac将成为你的绝佳选择&#xff01; PhotoFoundry for Mac是一款功能强大的照片编辑软件&#xff0c;它为你提供了丰富多样的工具和特效&#xff0c;让你能够轻…

蓝桥杯每日一题2023.11.21

题目描述 “蓝桥杯”练习系统 (lanqiao.cn) 题目分析 思路&#xff1a; 1.去重排序将其进行预处理 2.用gcd得到最简比值 3.用gcd_sub分别计算分子、分母的指数最大公约数 #include<bits/stdc.h> using namespace std; const int N 110; typedef long long ll; ll…

VirtualBox7安装Ubuntu20及全屏、共享、粘贴板等设置

VirtualBox7安装Ubuntu20及全屏、共享、粘贴板等设置 1. 安装VirtualBox2. 安装Ubuntu202.1 获得x.vdi2.2 新建虚拟电脑 3. 增强设置3.1 增强功能3.2 全屏3.2 共享文件夹3.4 粘贴板 1. 安装VirtualBox 官网https://www.virtualbox.org/wiki/Downloads下载&#xff0c;笔者选择…

软考必须得从初级开始考吗?

软考是指软件技术专业资格考试&#xff0c;是由中国计算机技术职业资格认证中心&#xff08;NCTC&#xff09;主办的一项国家级考试。软考考试内容涵盖了软件工程、数据库、网络与信息安全、嵌入式系统等多个方面的知识&#xff0c;是评价软件技术人员专业水平的重要标准。 对于…

Python3.11+Pyside6开发电影下载程序

VideoSave是一款使用Python3.11Pyside6编写的提供下载电影/电视剧的软件&#xff0c;支持注册、登录、搜索、下载、查看日志等功能&#xff0c;提供了Window、Mac系统安装包。 先上效果图 提供功能 节省寻找资源的时间 ⌚️模糊搜索指定影片 &#x1f434;查看影片下载日志 &…

Idea2023 Springboot web项目正常启动,页面展示404解决办法

Idea2023 Springboot web项目正常启动,页面展示404解决办法 问题&#xff1a; 项目启动成功&#xff0c;但是访问网页&#xff0c;提示一直提示重定向次数过多&#xff0c;404 解决方法 在IDEA的Run/Debug Configurations窗口下当前的Application模块的Working directory中添…

甲方需求被公司明确指示不能做,身为公司项目经理,怎么处理?

作为公司的实施或项目经理&#xff0c;当甲方提出一个合同外的需求并且态度强硬时&#xff0c;我的回复将基于以下几个原则&#xff1a;尊重合同约定、明确沟通、提供解决方案和风险评估。 首先&#xff0c;我会强调合同的约定和范围。合同是双方达成的法律文件&#xff0c;其中…

物流实时数仓:采集通道搭建

系列文章目录 物流实时数仓&#xff1a;环境搭建 文章目录 系列文章目录前言一、环境准备1.前置环境2.hbase安装1.上传并解压2.配置环境变量3.拷贝jar包4.编写配置文件5.分发配置文件 3.Redis安装1.安装需要的编译环境2.上传并解压文件3.编译安装4.后台访问 4.ClickHouse安装5…

LeetCode | 19. 删除链表的倒数第 N 个结点

LeetCode | 19. 删除链表的倒数第 N 个结点 OJ链接 思路&#xff1a; 定义虚拟头节点dummy并初始化使其指向head然后定义快慢指针让快指针先走n步然后一起走最后删除倒数第n个节点然后释放虚拟节点dummy struct ListNode* removeNthFromEnd(struct ListNode* head, int n) {…

零代码编程:用ChatGPT根据视频标题来批量重命名字幕文件

现在有很多视频文件&#xff1a; 还有视频相对应的字幕文件&#xff1a; F:\儿童学习教育\Abadas.适合2岁以上.BBC儿童学习单词的动画\abadas字幕 两者的文件标题不一样&#xff0c;现在要将字幕文件的标题全部根据视频文件来重命名。 在chatGPT中输入提示词&#xff1a; 你…