文章目录
- 一、统计学及思维模式
- 二、未知现象的数学描述
- 三、线性模型
- (一)线性模型的定义
- (二)线性模型的参数估计
- (三)线性模型的应用
- (四)离散解释变量的设计向量构建方法
- 四、线性模型的推广
一、统计学及思维模式
现象可以分为未知现象和必然现象两类,但是分类的结果因人而异。
任何未知现象(问题)都可以从各种角度来研究。如定积分的值:
- ①数学方法:定积分的定义,分割[0,1]区间,以直代曲逼近曲边梯形的面积。数学研究以公理和假设为前提,研究结果只有对错之分。
- ②统计方法:收集均匀分布随机变量的观测数据,通过被积函数在观测数据处值的算术平均值来认识积分值。
统计学是通过收集数据和分析数据来认识未知现象的一门科学。统计学思维模式:对未知现象(问题),通过阶段研究流程得到新知识(认识结果);通过实践检验发现新认识的不足,确认下一步研究问题。
如果忽略实践检验而坚信已有研究结果完美无缺,就是统计学中的迷信。
二、未知现象的数学描述
- 理想模型:
Y
=
f
(
X
1
,
.
.
.
,
X
m
)
+
ϵ
Y=f(X_1,...,X_m)+\epsilon
Y=f(X1,...,Xm)+ϵ
- f ( X 1 , . . . , X m ) = E ( Y ∣ X 1 , . . . X m ) f(X_1,...,X_m)=E(Y|X_1,...X_m) f(X1,...,Xm)=E(Y∣X1,...Xm)是在已知所有确定因素下 Y Y Y的条件数学期望
- f f f为回归函数
- ϵ \epsilon ϵ为模型误差
- 理想预报公式:
Y
=
E
(
Y
∣
X
1
,
.
.
.
,
X
m
)
Y=E(Y|X_1,...,X_m)
Y=E(Y∣X1,...,Xm)
- 直接用 f ( X 1 , . . . , X m ) = E ( Y ∣ X 1 , . . . X m ) f(X_1,...,X_m)=E(Y|X_1,...X_m) f(X1,...,Xm)=E(Y∣X1,...Xm)估计 Y Y Y
- 用该公式估计 Y Y Y的误差为 ϵ \epsilon ϵ
- 数学模型: Y = f ( X 1 , . . . , X m ) Y=f(X_1,...,X_m) Y=f(X1,...,Xm)
- 现实模型:
Y
=
f
^
(
X
1
,
.
.
.
,
X
k
∣
θ
0
)
+
η
Y=\hat{f}(X_1,...,X_k|\theta_0)+\eta
Y=f^(X1,...,Xk∣θ0)+η
- 实际应用时无法知道 E ( Y ∣ X 1 , . . . X m ) E(Y|X_1,...X_m) E(Y∣X1,...Xm)的数学表达式,因此选择依据所掌握知识确定一个k元函数族 { f ^ ( ⋅ ∣ θ 0 ) : θ ∈ Θ } \{\hat{f}(\cdot|\theta_0):\theta\in\Theta\} {f^(⋅∣θ0):θ∈Θ}中的某一个函数 f ^ ( ⋅ ∣ θ 0 ) \hat{f}(\cdot|\theta_0) f^(⋅∣θ0)最接近 E ( Y ∣ X 1 , . . . X m ) E(Y|X_1,...X_m) E(Y∣X1,...Xm)
- η \eta η为模型误差
- 经验预报公式:
Y
=
f
^
(
X
1
,
.
.
.
,
X
k
∣
θ
)
Y=\hat{f}(X_1,...,X_k|\theta)
Y=f^(X1,...,Xk∣θ)
- 用 θ ^ ∈ Θ \hat{\theta}\in\Theta θ^∈Θ估计 θ 0 \theta_0 θ0
理想模型是在已知所有相关的解释变量情况下对响应变量Y的估计。而现实情况下,我们没有办法知道所有的解释变量,只能尽可能的通过已知知识去确定尽可能多的解释变量,使得通过现实模型回归得到的相应变量Y的估计值的均方误差尽可能的小。在现实情况下,取得最小均方误差的模型就叫做最优模型。
由于统计模型和理想模型之间的差异,意味着所关心的未知现象Y在不同的研究阶段会有不同的表征。
三、线性模型
(一)线性模型的定义
线性模型的定义:
对于响应变量
Y
Y
Y和解释变量
X
1
,
.
.
.
X
q
X_1,...X_q
X1,...Xq,如果存在
q
q
q元函数
Z
1
,
.
.
.
,
Z
p
Z_1,...,Z_p
Z1,...,Zp,以及实数
β
1
,
.
.
.
,
β
p
\beta_1,...,\beta_p
β1,...,βp使得:
Y
=
Z
1
(
X
)
β
1
+
.
.
.
+
Z
p
(
X
)
β
p
+
ϵ
Y=Z_1(X)\beta_1+...+Z_p(X)\beta_p+\epsilon
Y=Z1(X)β1+...+Zp(X)βp+ϵ
并且
ϵ
\epsilon
ϵ为随机变量,满足条件
E
(
ϵ
∣
X
)
≡
0
E(\epsilon|X)\equiv 0
E(ϵ∣X)≡0,则称其为线性回归模型或线性模型。
线性模型的理想预报公式:
Y
=
Z
1
(
X
)
β
1
+
.
.
.
+
Z
p
(
X
)
β
p
Y=Z_1(X)\beta_1+...+Z_p(X)\beta_p
Y=Z1(X)β1+...+Zp(X)βp
- X X X为解释向量,简称解释变量
- Z = ( Z 1 , . . . , Z p ) Z=(Z_1,...,Z_p) Z=(Z1,...,Zp)为设计向量
不同的设计向量对应于不同的线性模型,应用线性模型解决应用问题的关键在于构造设计向量
(二)线性模型的参数估计
线性模型的参数估计:
- 样本: ( Y 1 , X 1 ) , . . . , ( Y n , X n ) (Y_1,X_1),...,(Y_n,X_n) (Y1,X1),...,(Yn,Xn)
- 样本观测数据: ( y 1 , x 1 ) , . . . ( y n , x n ) (y_1,x_1),...(y_n,x_n) (y1,x1),...(yn,xn)
样本代表抽象的观测结果,用于理论研究;样本观测数据是具体的确定的观测结果向量,包含了总体的结构信息,样本观测过程结束后永不改变。
线性模型的样本表达形式为:
Y
=
Z
β
+
ϵ
Y=Z\beta+\epsilon
Y=Zβ+ϵ
其中,
Y
=
(
Y
1
,
.
.
.
Y
n
)
T
,
Z
=
(
Z
(
X
1
)
T
,
.
.
.
,
Z
(
X
n
)
T
)
T
,
ϵ
=
(
ϵ
1
,
.
.
.
,
ϵ
n
)
T
,
E
(
ϵ
∣
X
)
=
0
Y=(Y_1,...Y_n)^T,Z=(Z(X_1)^T,...,Z(X_n)^T)^T,\epsilon=(\epsilon_1,...,\epsilon_n)^T,E(\epsilon|X)=0
Y=(Y1,...Yn)T,Z=(Z(X1)T,...,Z(Xn)T)T,ϵ=(ϵ1,...,ϵn)T,E(ϵ∣X)=0,进一步当各个样本点相互独立时,
V
a
r
(
ϵ
)
=
σ
2
I
n
Var(\epsilon)=\sigma^2I_n
Var(ϵ)=σ2In。
最小二乘估计:
- 估计的目标:最小化 Q ( β ) = ( Y − Z β ) T ( Y − Z β ) Q(\beta)=(Y-Z\beta)^T(Y-Z\beta) Q(β)=(Y−Zβ)T(Y−Zβ)
- 参数的最小二乘估计: β ^ = ( Z T Z ) − 1 Z T Y \hat{\beta}=(Z^TZ)^{-1}Z^TY β^=(ZTZ)−1ZTY
- 响应变量的经验预报公式: Y = Z β ^ Y=Z\hat{\beta} Y=Zβ^
- 模型误差的方差估计: σ 2 = ( Y − Z β ^ ) T ( Y − Z β ^ ) n − p \sigma^2=\frac{(Y-Z\hat{\beta})^T(Y-Z\hat{\beta})}{n-p} σ2=n−p(Y−Zβ^)T(Y−Zβ^)
(三)线性模型的应用
线性模型的应用:
Y
=
Z
(
X
)
β
+
η
Y=Z(X)\beta+\eta
Y=Z(X)β+η
在假设
η
\eta
η为随机变量的情况下,可以证明Y和X满足线性模型,在假设
η
\eta
η不具备频率稳定性的情况下,Y和X不满足线性模型。
η
\eta
η是用
Z
(
X
)
β
Z(X)\beta
Z(X)β估计
Y
Y
Y的误差,如果已知这个模型误差的分布密度,就可以用极大似然估计方法来估计模型参数。当模型误差服从均值为0的正态分布时,线性模型参数的最小二乘估计和极大似然估计相等。
线性模型适用条件: 响应变量 Y Y Y的值域是 R R R(全体实数)
(四)离散解释变量的设计向量构建方法
考虑1连续型响应变量 Y Y Y和1维解释变量 X X X,其中 X X X的值域为 { 0 , 1 , 2 } \{0,1,2\} {0,1,2},建立用于拟合 ( Y , X ) (Y,X) (Y,X)的样本观测数据的线性模型。
- 方法一:构建设计向量 Z ( x ) = ( 1 , x ) Z(x)=(1,x) Z(x)=(1,x)得到线性模型 Y = Z ( X ) α + η Y=Z(X)\alpha+\eta Y=Z(X)α+η,模型参数为 α = ( α 0 , α 1 ) T \alpha=(\alpha_0,\alpha_1)^T α=(α0,α1)T
- 方法二:构建设计向量 Z ( x ) = ( 1 , 1 { 0 } ( x ) , 1 { 1 } ( x ) , 1 { 2 } ( x ) ) Z(x)=(1,1_{\{0\}}(x),1_{\{1\}}(x),1_{\{2\}}(x)) Z(x)=(1,1{0}(x),1{1}(x),1{2}(x))得到线性模型 Y = Z ( X ) β + η Y=Z(X)\beta+\eta Y=Z(X)β+η,模型参数为 β = ( β 0 , β 1 , β 2 , β 3 ) T \beta=(\beta_0,\beta_1,\beta_2,\beta_3)^T β=(β0,β1,β2,β3)T
- 方法三:构建设计向量 Z ( x ) = ( 1 , 1 { 0 } ( x ) , 1 { 1 } ( x ) ) Z(x)=(1,1_{\{0\}}(x),1_{\{1\}}(x)) Z(x)=(1,1{0}(x),1{1}(x))得到线性模型 Y = Z ( X ) γ + η Y=Z(X)\gamma+\eta Y=Z(X)γ+η,模型参数 γ = ( γ 0 , γ 1 , γ 2 ) T \gamma=(\gamma_0,\gamma_1,\gamma_2)^T γ=(γ0,γ1,γ2)T
- 方法四:构建设计向量 Z ( x ) = ( 1 , 1 { 0 } ( x ) − 1 { 2 } ( x ) , 1 { 1 } ( x ) − 1 { 2 } ( x ) ) Z(x)=(1,1_{\{0\}}(x)-1_{\{2\}}(x),1_{\{1\}}(x)-1_{\{2\}}(x)) Z(x)=(1,1{0}(x)−1{2}(x),1{1}(x)−1{2}(x))得到线性模型 Y = Z ( X ) δ + η Y=Z(X)\delta+\eta Y=Z(X)δ+η,模型参数 δ = ( δ 0 , δ 1 , δ 2 ) T \delta=(\delta_0,\delta_1,\delta_2)^T δ=(δ0,δ1,δ2)T
离散值变量的哑变量编码:
当解释变量的某一分量
X
X
X为k分类变量时,需要将其量化才能建模。
- X的哑变量编码:
X = ( 1 { 1 } ( X ) , . . . , 1 { k − 1 } ( X ) ) X=\left(1_{\{1\}}(X),...,1_{\{k-1\}}(X)\right) X=(1{1}(X),...,1{k−1}(X)) - 设计向量的构建:
W = ( 1 , X ) W=(1,X) W=(1,X) - 用哑变量编码的线性回归模型:
H = W β + ϵ H=W\beta+\epsilon H=Wβ+ϵ
离散变量的哑变量编码会随着参考值的改变有着不同的表现形式,但是他们的剩余标准误差值、多重决定系数值、调整R方值和F-统计量值都完全相同,不同的是模型参数估计结果。事实上,不同模型之间的参数也存在着一一对应的关系,其最小二乘经验预报公式的预报结论是相同的。
在哑变量编码线性模型中,模型参数估计值的实际含义和构建的变量编码的参考值(类)有关。进一步在哑变量编码线性模型中,离散变量的参考值(类)对于响应变量的作用合并到截距项参数中,因此不能直接用该模型分析参考值(类)对于响应变量的影响。
离散变量的效应编码:
效应编码将
q
q
q分类变量表示为
q
=
k
−
1
q=k-1
q=k−1维向量,并称
k
k
k 为效应编码的参考值或参考类,可用效应编码构建线性模型的设计向量。
X
=
(
1
{
1
}
(
X
)
−
1
{
k
}
(
X
)
,
.
.
.
,
1
{
q
}
(
X
)
−
1
{
k
}
(
X
)
)
X=\left(1_{\{1\}}(X)-1_{\{k\}}(X),...,1_{\{q\}}(X)-1_{\{k\}}(X)\right)
X=(1{1}(X)−1{k}(X),...,1{q}(X)−1{k}(X))
- 设计向量的构建:
W ~ = ( 1 , X ) \tilde{W}=(1,X) W~=(1,X) - 用哑变量编码的线性回归模型:
H = W ~ γ + ϵ H=\tilde W\gamma+\epsilon H=W~γ+ϵ
效应编码和哑变量编码: - 从预报的角度,用哑变量建模和用效用编码建模的效果相同:得到的模型的剩余标准误差值、多重决定系数值、调整R方值和F-统计量值都完全相同,不同的是模型参数估计结果。
- 差别在于参考类的表示:
- 哑变量编码中,参考类由各个分量都是0的编码向量表示,参考类对于响应变量的影响隐含在常数项中
- 效应编码中,参考类用各个分量都是-1的编码向量表示,此时该变量的参考类对于响应变量的贡献为其他类的贡献之和乘以-1,常数项是各个解释变量对于响应变量的平均影响之和
- 哑变量编码 更适合直接比较某个类别与参考类别的差异,解释简单明了;效应编码 更适合分析所有类别相对于整体的影响,能够揭示更复杂的关系和模式。
离散变量的独热编码:
若一维变量
X
X
X的值域
{
x
1
,
.
.
.
,
x
q
}
\{x_1,...,x_q\}
{x1,...,xq},
q
q
q为正整数,就可以用独热编码将
X
X
X量化为 :
X
=
(
1
{
x
1
}
(
X
)
,
.
.
.
,
1
{
x
q
}
(
X
)
)
X=\left(1_{\{x_1\}}(X),...,1_{\{x_q\}}(X)\right)
X=(1{x1}(X),...,1{xq}(X))
在深度学习等IT领域,独热编码深受欢迎。独热编码中仅有一个分量为1,其余分量为0,且各个分量之和为1。在应用线性模型解决实际问题中,可以借助独热编码构建设计向量。
独热编码的设计向量中的第一分量不是1。
考虑婴儿身高H(cm)与年龄X(月)之间的关系:
- 对于哑变量编码构造的设计向量: H = W β + ϵ H=W\beta+\epsilon H=Wβ+ϵ。 β 0 \beta_0 β0表示参考月(0月)男婴平均身高信息, β k \beta_k βk表示k月男婴的平均身高和参考月男婴平均身高之差
- 对于效应编码构造的设计向量: H = W ~ γ + ϵ H=\tilde W\gamma+\epsilon H=W~γ+ϵ。 γ i \gamma_i γi的值的大小并无实际意义,但是否等于0有实际意义: γ i = 0 \gamma_i=0 γi=0表示男婴的身高与他的年龄是否为i月没有关系, ∑ i = 1 12 γ i = 0 \sum_{i=1}^{12}\gamma_i=0 ∑i=112γi=0表示男婴的身高与他是否为初生婴儿没有关系。
- 对于独热编码构造的设计向量: H = T δ + ϵ H=T\delta+\epsilon H=Tδ+ϵ。 δ k \delta_k δk表示k月男婴的平均身高,系数表示当分类变量取该类别时(即对应哑变量为1),预测值相对于截距项的增加或减少量。
四、线性模型的推广
线性模型的适用条件是响应变量的值域为实数空间,当此条件不满足时如何建立现实模型和经验预报公式?
考虑线性模型的等价表达式:
E
(
Y
∣
X
)
=
Z
(
X
)
β
E(Y|X)=Z(X)\beta
E(Y∣X)=Z(X)β,其中
Z
(
X
)
=
(
Z
1
(
X
)
,
.
.
.
,
Z
p
(
X
)
)
Z(X)=(Z_1(X),...,Z_p(X))
Z(X)=(Z1(X),...,Zp(X))
与线性模型相比,这个表达式隐藏了模型误差,从而可以通过复合函数的思想来拓展线性模型。线性模型的适用条件期望条件转变为
E
(
Y
∣
X
)
E(Y|X)
E(Y∣X)的所有可能取值为全体实数。
广义线性模型:
当
E
(
Y
∣
X
)
E(Y|X)
E(Y∣X)的值域
D
≠
R
D\neq R
D=R时,若存在函数
h
:
R
→
D
h:R\rightarrow D
h:R→D,以及向量值函数
Z
=
Z
(
X
)
Z=Z(X)
Z=Z(X),使得
E
(
Y
∣
X
)
=
h
(
Z
(
X
)
β
)
E(Y|X)=h(Z(X)\beta)
E(Y∣X)=h(Z(X)β)
就称其为广义线性回归模型或广义线性模型,称
h
h
h为响应函数,称
Z
Z
Z为设计向量,称
β
\beta
β为模型参数。
要证明可以用广义线性模型描述响应变量 Y Y Y和解释变量 X X X的关系,需要确定广义线性模型的三个主要组成部分:随机分布、线性预测子和连接函数。
- 响应变量 Y Y Y的条件分布属于指数分布族。
- 存在一个线性预测子 η = β 0 + β 1 X \eta=\beta_0+\beta_1X η=β0+β1X
- 存在一个合适的联系函数 g ( ⋅ ) g(⋅) g(⋅)将期望值 E ( Y ∣ X ) E(Y|X) E(Y∣X)和线性预测子 η \eta η联系起来
考虑 E ( Y ∣ X ) E(Y|X) E(Y∣X)没有任何实际意义的情况:(鸢尾花分类问题)
在已知解释变量
X
X
X的情况下,分类变量
Y
Y
Y的变化规律由条件密度
p
k
(
X
)
=
P
(
Y
=
k
∣
X
)
,
k
=
1
,
2
,
3
p_k(X)=P(Y=k|X),k=1,2,3
pk(X)=P(Y=k∣X),k=1,2,3 刻画,而这一条件密度又可以表示为条件数学期望:
(
p
1
(
X
)
,
p
2
(
X
)
)
=
(
E
(
1
{
1
}
(
Y
)
∣
X
)
,
E
(
1
{
2
}
(
Y
)
∣
X
)
)
=
E
(
Y
∣
X
)
(p_1(X),p_2(X))=(E(1_{\{1\}}(Y)|X),E(1_{\{2\}}(Y)|X))=E(Y|X)
(p1(X),p2(X))=(E(1{1}(Y)∣X),E(1{2}(Y)∣X))=E(Y∣X)
其中
Y
=
(
1
{
1
}
(
Y
)
,
1
{
2
}
(
Y
)
)
Y=(1_{\{1\}}(Y),1_{\{2\}}(Y))
Y=(1{1}(Y),1{2}(Y))是响应变量
Y
Y
Y的哑变量编码。从而就可以选择合适的2维向量函数
h
(
u
)
=
(
h
1
(
u
)
,
h
2
(
u
)
)
h(u)=(h_1(u),h_2(u))
h(u)=(h1(u),h2(u)) 构建合适的设计矩阵:
Z
=
(
Z
11
(
X
)
.
.
.
Z
1
p
(
X
)
Z
21
(
X
)
.
.
.
Z
2
p
(
X
)
)
Z=\begin{pmatrix} Z_{11}(X) &...& Z_{1p}(X) \\ Z_{21}(X) &...& Z_{2p}(X) \\ \end{pmatrix}
Z=(Z11(X)Z21(X)......Z1p(X)Z2p(X))
进而用
E
(
Y
∣
X
)
=
h
(
Z
β
)
E(Y|X)=h(Z\beta)
E(Y∣X)=h(Zβ)
拟合鸢尾花分类样本观测数据。
q维广义线性模型:
q维响应变量
Y
Y
Y和解释变量
X
X
X满足:
E
(
Y
∣
X
)
=
h
(
Z
β
)
E(Y|X)=h(Z\beta)
E(Y∣X)=h(Zβ)
就称
Y
Y
Y和
X
X
X满足q维广义线性模型,其中
h
:
R
q
→
R
q
h:R^q\rightarrow R^q
h:Rq→Rq为可逆q维向量值响应函数,设计矩阵为:
Z
=
(
Z
11
(
X
)
.
.
.
Z
1
p
(
X
)
⋮
⋮
⋮
Z
q
1
(
X
)
.
.
.
Z
q
p
(
X
)
)
Z=\begin{pmatrix} Z_{11}(X) &...& Z_{1p}(X) \\ \vdots & \vdots & \vdots \\ Z_{q1}(X) &...& Z_{qp}(X) \\ \end{pmatrix}
Z=
Z11(X)⋮Zq1(X)...⋮...Z1p(X)⋮Zqp(X)
一般地,如果一维响应变量 Y Y Y的值域为 D = { v 1 , . . . v k } D=\{v_1,...v_k\} D={v1,...vk},其中k为大于1的正整数,那么其哑变量编码的条件期望是其密度的等价刻画,因此可基于哑变量编码的条件期望建立模型。特别的,称q=k-1维广义线性模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)为k响应模型。其中Y是Y的哑变量编码。