应用广义线性模型一|线性模型

文章目录

一、统计学及思维模式
二、未知现象的数学描述
三、线性模型
- （一）线性模型的定义
- （二）线性模型的参数估计
- （三）线性模型的应用
- （四）离散解释变量的设计向量构建方法
四、线性模型的推广

一、统计学及思维模式

现象可以分为未知现象和必然现象两类，但是分类的结果因人而异。

任何未知现象（问题）都可以从各种角度来研究。如定积分的值：

①数学方法：定积分的定义，分割[0,1]区间，以直代曲逼近曲边梯形的面积。数学研究以公理和假设为前提，研究结果只有对错之分。
②统计方法：收集均匀分布随机变量的观测数据，通过被积函数在观测数据处值的算术平均值来认识积分值。

统计学是通过收集数据和分析数据来认识未知现象的一门科学。统计学思维模式：对未知现象(问题)，通过阶段研究流程得到新知识(认识结果);通过实践检验发现新认识的不足，确认下一步研究问题。
在这里插入图片描述
如果忽略实践检验而坚信已有研究结果完美无缺，就是统计学中的迷信。

二、未知现象的数学描述

理想模型： $Y=f(X_1,...,X_m)+\epsilon$
- $f(X_1,...,X_m)=E(Y|X_1,...X_m)$ 是在已知所有确定因素下 $Y$ 的条件数学期望
- $f$ 为回归函数
- $\epsilon$ 为模型误差
理想预报公式： $Y=E(Y|X_1,...,X_m)$
- 直接用 $f(X_1,...,X_m)=E(Y|X_1,...X_m)$ 估计 $Y$
- 用该公式估计 $Y$ 的误差为 $\epsilon$
数学模型： $Y=f(X_1,...,X_m)$
现实模型： $Y=\hat{f}(X_1,...,X_k|\theta_0)+\eta$
- 实际应用时无法知道 $E(Y|X_1,...X_m)$ 的数学表达式，因此选择依据所掌握知识确定一个k元函数族 $\{\hat{f}(\cdot|\theta_0):\theta\in\Theta\}$ 中的某一个函数 $\hat{f}(\cdot|\theta_0)$ 最接近 $E(Y|X_1,...X_m)$
- $\eta$ 为模型误差
经验预报公式： $Y=\hat{f}(X_1,...,X_k|\theta)$
- 用 $\hat{\theta}\in\Theta$ 估计 $\theta_0$

理想模型是在已知所有相关的解释变量情况下对响应变量Y的估计。而现实情况下，我们没有办法知道所有的解释变量，只能尽可能的通过已知知识去确定尽可能多的解释变量，使得通过现实模型回归得到的相应变量Y的估计值的均方误差尽可能的小。在现实情况下，取得最小均方误差的模型就叫做最优模型。

由于统计模型和理想模型之间的差异，意味着所关心的未知现象Y在不同的研究阶段会有不同的表征。

三、线性模型

（一）线性模型的定义

线性模型的定义：
对于响应变量 $Y$ 和解释变量 $X_1,...X_q$ ，如果存在 $q$ 元函数 $Z_1,...,Z_p$ ，以及实数 $\beta_1,...,\beta_p$ 使得：
$Y=Z_1(X)\beta_1+...+Z_p(X)\beta_p+\epsilon$
并且 $\epsilon$ 为随机变量，满足条件 $E(\epsilon|X)\equiv 0$ ，则称其为线性回归模型或线性模型。

线性模型的理想预报公式：
$Y=Z_1(X)\beta_1+...+Z_p(X)\beta_p$

$X$ 为解释向量，简称解释变量
$Z=(Z_1,...,Z_p)$ 为设计向量

不同的设计向量对应于不同的线性模型，应用线性模型解决应用问题的关键在于构造设计向量

（二）线性模型的参数估计

线性模型的参数估计：

样本： $Y_1,X_1),...,(Y_n,X_n)$
样本观测数据： $y_1,x_1),...(y_n,x_n)$

样本代表抽象的观测结果，用于理论研究；样本观测数据是具体的确定的观测结果向量，包含了总体的结构信息，样本观测过程结束后永不改变。

线性模型的样本表达形式为：
$Y=Z\beta+\epsilon$
其中， $Y=(Y_1,...Y_n)^T,Z=(Z(X_1)^T,...,Z(X_n)^T)^T,\epsilon=(\epsilon_1,...,\epsilon_n)^T,E(\epsilon|X)=0$ ，进一步当各个样本点相互独立时， $Var(\epsilon)=\sigma^2I_n$ 。

最小二乘估计：

估计的目标：最小化 $Q(\beta)=(Y-Z\beta)^T(Y-Z\beta)$
参数的最小二乘估计： $\hat{\beta}=(Z^TZ)^{-1}Z^TY$
响应变量的经验预报公式： $Y=Z\hat{\beta}$
模型误差的方差估计： $\sigma^2=\frac{(Y-Z\hat{\beta})^T(Y-Z\hat{\beta})}{n-p}$

（三）线性模型的应用

线性模型的应用：
$Y=Z(X)\beta+\eta$
在假设 $\eta$ 为随机变量的情况下，可以证明Y和X满足线性模型，在假设 $\eta$ 不具备频率稳定性的情况下，Y和X不满足线性模型。 $\eta$ 是用 $Z(X)\beta$ 估计 $Y$ 的误差，如果已知这个模型误差的分布密度，就可以用极大似然估计方法来估计模型参数。当模型误差服从均值为0的正态分布时，线性模型参数的最小二乘估计和极大似然估计相等。

线性模型适用条件： 响应变量 $Y$ 的值域是 $R$ （全体实数）

（四）离散解释变量的设计向量构建方法

考虑1连续型响应变量 $Y$ 和1维解释变量 $X$ ，其中 $X$ 的值域为 ${0,1,2\}$ ，建立用于拟合 $(Y, X)$ 的样本观测数据的线性模型。

方法一：构建设计向量 $Z (x) = (1, x)$ 得到线性模型 $Y=Z(X)\alpha+\eta$ ，模型参数为 $\alpha=(\alpha_0,\alpha_1)^T$
方法二：构建设计向量 $Z(x)=(1,1_{\{0\}}(x),1_{\{1\}}(x),1_{\{2\}}(x))$ 得到线性模型 $Y=Z(X)\beta+\eta$ ，模型参数为 $\beta=(\beta_0,\beta_1,\beta_2,\beta_3)^T$
方法三：构建设计向量 $Z(x)=(1,1_{\{0\}}(x),1_{\{1\}}(x))$ 得到线性模型 $Y=Z(X)\gamma+\eta$ ，模型参数 $\gamma=(\gamma_0,\gamma_1,\gamma_2)^T$
方法四：构建设计向量 $Z(x)=(1,1_{\{0\}}(x)-1_{\{2\}}(x),1_{\{1\}}(x)-1_{\{2\}}(x))$ 得到线性模型 $Y=Z(X)\delta+\eta$ ，模型参数 $\delta=(\delta_0,\delta_1,\delta_2)^T$

离散值变量的哑变量编码：
当解释变量的某一分量 $X$ 为k分类变量时，需要将其量化才能建模。

X的哑变量编码：
$X=\left(1_{\{1\}}(X),...,1_{\{k-1\}}(X)\right)$
设计向量的构建：
$W = (1, X)$
用哑变量编码的线性回归模型：
$H=W\beta+\epsilon$

离散变量的哑变量编码会随着参考值的改变有着不同的表现形式，但是他们的剩余标准误差值、多重决定系数值、调整R方值和F-统计量值都完全相同，不同的是模型参数估计结果。事实上，不同模型之间的参数也存在着一一对应的关系，其最小二乘经验预报公式的预报结论是相同的。

在这里插入图片描述在哑变量编码线性模型中，模型参数估计值的实际含义和构建的变量编码的参考值(类)有关。进一步在哑变量编码线性模型中，离散变量的参考值(类)对于响应变量的作用合并到截距项参数中，因此不能直接用该模型分析参考值(类)对于响应变量的影响。

离散变量的效应编码：
效应编码将 $q$ 分类变量表示为 $q = k - 1$ 维向量，并称 $k$ 为效应编码的参考值或参考类，可用效应编码构建线性模型的设计向量。
$X=\left(1_{\{1\}}(X)-1_{\{k\}}(X),...,1_{\{q\}}(X)-1_{\{k\}}(X)\right)$

设计向量的构建：
$\tilde{W}=(1,X)$
用哑变量编码的线性回归模型：
$H=\tilde W\gamma+\epsilon$
效应编码和哑变量编码：
从预报的角度，用哑变量建模和用效用编码建模的效果相同：得到的模型的剩余标准误差值、多重决定系数值、调整R方值和F-统计量值都完全相同，不同的是模型参数估计结果。
差别在于参考类的表示：
- 哑变量编码中，参考类由各个分量都是0的编码向量表示，参考类对于响应变量的影响隐含在常数项中
- 效应编码中，参考类用各个分量都是-1的编码向量表示，此时该变量的参考类对于响应变量的贡献为其他类的贡献之和乘以-1，常数项是各个解释变量对于响应变量的平均影响之和
哑变量编码更适合直接比较某个类别与参考类别的差异，解释简单明了；效应编码更适合分析所有类别相对于整体的影响，能够揭示更复杂的关系和模式。

离散变量的独热编码：
若一维变量 $X$ 的值域 ${x_1,...,x_q\}$ ， $q$ 为正整数，就可以用独热编码将 $X$ 量化为 :
$X=\left(1_{\{x_1\}}(X),...,1_{\{x_q\}}(X)\right)$
在深度学习等IT领域，独热编码深受欢迎。独热编码中仅有一个分量为1，其余分量为0，且各个分量之和为1。在应用线性模型解决实际问题中，可以借助独热编码构建设计向量。

独热编码的设计向量中的第一分量不是1。

考虑婴儿身高H（cm）与年龄X（月）之间的关系：

对于哑变量编码构造的设计向量： $H=W\beta+\epsilon$ 。 $\beta_0$ 表示参考月（0月）男婴平均身高信息， $\beta_k$ 表示k月男婴的平均身高和参考月男婴平均身高之差
对于效应编码构造的设计向量： $H=\tilde W\gamma+\epsilon$ 。 $\gamma_i$ 的值的大小并无实际意义，但是否等于0有实际意义： $\gamma_i=0$ 表示男婴的身高与他的年龄是否为i月没有关系， $\sum_{i=1}^{12}\gamma_i=0$ 表示男婴的身高与他是否为初生婴儿没有关系。
对于独热编码构造的设计向量： $H=T\delta+\epsilon$ 。 $\delta_k$ 表示k月男婴的平均身高，系数表示当分类变量取该类别时（即对应哑变量为1），预测值相对于截距项的增加或减少量。

四、线性模型的推广

线性模型的适用条件是响应变量的值域为实数空间，当此条件不满足时如何建立现实模型和经验预报公式？

考虑线性模型的等价表达式： $E(Y|X)=Z(X)\beta$ ，其中 $Z(X)=(Z_1(X),...,Z_p(X))$
与线性模型相比，这个表达式隐藏了模型误差，从而可以通过复合函数的思想来拓展线性模型。线性模型的适用条件期望条件转变为 $E (Y ∣ X)$ 的所有可能取值为全体实数。

广义线性模型：
当 $E (Y ∣ X)$ 的值域 $D\neq R$ 时，若存在函数 $h:R\rightarrow D$ ，以及向量值函数 $Z = Z (X)$ ，使得
$E(Y|X)=h(Z(X)\beta)$
就称其为广义线性回归模型或广义线性模型，称 $h$ 为响应函数，称 $Z$ 为设计向量，称 $\beta$ 为模型参数。

要证明可以用广义线性模型描述响应变量 $Y$ 和解释变量 $X$ 的关系，需要确定广义线性模型的三个主要组成部分：随机分布、线性预测子和连接函数。

响应变量 $Y$ 的条件分布属于指数分布族。
存在一个线性预测子 $\eta=\beta_0+\beta_1X$
存在一个合适的联系函数 $g (\cdot)$ 将期望值 $E (Y ∣ X)$ 和线性预测子 $\eta$ 联系起来

考虑 $E (Y ∣ X)$ 没有任何实际意义的情况：（鸢尾花分类问题）

在已知解释变量 $X$ 的情况下，分类变量 $Y$ 的变化规律由条件密度 $p_k(X)=P(Y=k|X),k=1,2,3$ 刻画，而这一条件密度又可以表示为条件数学期望：
$p_1(X),p_2(X))=(E(1_{\{1\}}(Y)|X),E(1_{\{2\}}(Y)|X))=E(Y|X)$
其中 $Y=(1_{\{1\}}(Y),1_{\{2\}}(Y))$ 是响应变量 $Y$ 的哑变量编码。从而就可以选择合适的2维向量函数 $h(u)=(h_1(u),h_2(u))$ 构建合适的设计矩阵：
$Z=\begin{pmatrix} Z_{11}(X) &...& Z_{1p}(X) \\ Z_{21}(X) &...& Z_{2p}(X) \\ \end{pmatrix}$
进而用
$E(Y|X)=h(Z\beta)$
拟合鸢尾花分类样本观测数据。

q维广义线性模型：
q维响应变量 $Y$ 和解释变量 $X$ 满足：
$E(Y|X)=h(Z\beta)$
就称 $Y$ 和 $X$ 满足q维广义线性模型，其中 $h:R^q\rightarrow R^q$ 为可逆q维向量值响应函数，设计矩阵为：
$Z=\begin{pmatrix} Z_{11}(X) &...& Z_{1p}(X) \\ \vdots & \vdots & \vdots \\ Z_{q1}(X) &...& Z_{qp}(X) \\ \end{pmatrix}$

一般地，如果一维响应变量 $Y$ 的值域为 $D=\{v_1,...v_k\}$ ，其中k为大于1的正整数，那么其哑变量编码的条件期望是其密度的等价刻画，因此可基于哑变量编码的条件期望建立模型。特别的，称q=k-1维广义线性模型 $E(Y|X)=h(Z\beta)$ 为k响应模型。其中Y是Y的哑变量编码。