应用广义线性模型二|二响应广义线性模型

news2024/11/26 22:24:26

系列文章目录

文章目录

  • 系列文章目录
  • 一、二响应模型的不同表达方式和响应函数
  • 二、二响应模型的性质
    • (一)二响应变量的条件数学期望与方差
    • (二)二响应模型参数的极大似然估计
    • (三)二响应模型的优势
  • 三、二响应模型参数的假设检验
    • (一)对数似然比检验方法
    • (二)Wald统计量
    • (三)得分统计量
    • (四)模型参数分量是否为0的检验
    • (五)四种检验统计量的特点与应用
  • 四、二响应模型的拟合优度统计量
    • (一)样本观测数据的表示方法
    • (二)皮尔逊统计量
    • (三)偏差统计量
  • 五、全模型与子模型
  • 六、响应变量的预报
    • (一)阈值
    • (二)ROC曲线


2响应模型中响应变量的哑变量编码的维数是1,是值域为 { 0 , 1 } \{0,1\} {0,1}的变量。将这个哑变量编码记为 Y Y Y,则k响应模型具体为:
E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()
称之为二响应广义线性模型,简称二响应模型,进一步称 Z = Z ( X ) Z=Z(X) Z=Z(X)为二响应模型的设计向量, β \beta β为模型参数。

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。

一、二响应模型的不同表达方式和响应函数

响应函数 h h h
为了确保条件概率位于0和1之间,响应函数的值域为 [ 0 , 1 ] [0,1] [0,1]。为了研究方便,响应函数总是被要求为严格单增连续分布函数,在这样的假设下,响应函数 h h h是可逆函数,称: g = h − 1 g=h^{-1} g=h1为二响应模型的连接函数。

二响应模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()的不同表达方式:

  • 因为 E ( Y ∣ X ) = P ( Y = 1 ∣ X ) E(Y|X)=P(Y=1|X) E(YX)=P(Y=1∣X),所以二响应模型可以表示为以下两种形式:
    • P ( Y = 1 ∣ X ) = h ( Z β ) P(Y=1|X)=h(Z\beta) P(Y=1∣X)=h()
    • Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) YB(1,h())
  • 用连接函数表示:
    • g ( E ( Y ∣ X ) ) = Z β g(E(Y|X))=Z\beta g(E(YX))=

二响应逻辑回归模型:(逻辑回归模型或logit模型)
当响应函数和连接函数分别是逆逻辑函数和逻辑函数时,即:
i l o g i t ( x ) ≜ e x p ( x ) 1 + e x p ( x ) 和  l o g i t ( x ) ≜ l o g ( x 1 − x ) ilogit(x) \triangleq \frac{exp(x)}{1+exp(x)} 和\ logit(x)\triangleq log(\frac{x}{1-x}) ilogit(x)1+exp(x)exp(x) logit(x)log(1xx)
二响应模型就成为了二响应逻辑回归模型:(简称为逻辑回归模型或logit模型)
E ( Y ∣ X ) = e x p ( Z β ) 1 + e x p ( Z β ) E(Y|X)=\frac{exp(Z\beta)}{1+exp(Z\beta)} E(YX)=1+exp()exp()

正态分布概率模型或proit模型:
当响应函数和连接函数分别是:
h ( x ) = Φ ( x ) 和  g ( t ) = Φ − 1 ( t ) h(x)=\Phi(x)和\ g(t)=\Phi^{-1}(t) h(x)=Φ(x) g(t)=Φ1(t)
模型就成为了正态分布概率模型或proit模型:
E ( Y ∣ X ) = Φ ( Z β ) E(Y|X)=\Phi(Z\beta) E(YX)=Φ()

极小值分布概率模型或chaglog模型:
当响应函数和连接函数分别是:
h ( x ) = 1 − exp ⁡ ( − exp ⁡ ( x ) ) 和  g ( t ) = log ⁡ ( − log ⁡ ( 1 − t ) ) h(x)=1-\exp(-\exp(x))和\ g(t)=\log(-\log(1-t)) h(x)=1exp(exp(x)) g(t)=log(log(1t))
模型就成为了极小值分布概率模型或chaglog模型:
E ( Y ∣ X ) = 1 − exp ⁡ ( − e x p ( Z β ) ) E(Y|X)=1-\exp(-exp(Z\beta)) E(YX)=1exp(exp())

这三个响应函数曲线的差异十分明显:
在这里插入图片描述但是这三个响应函数可以通过平移和刻度变换相互逼近。因此,当设计向量含有常数项时,逻辑回归模型、正态分布模型和极小值分布模型拟合样本观测数据的效果差不多。
在这里插入图片描述

二、二响应模型的性质

(一)二响应变量的条件数学期望与方差

已知二响应模型可以表示为: Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) YB(1,h()),因此根据二项分布的性质可以得到:
E ( Y ∣ X ) = h ( Z β ) ,   V a r ( Y ∣ X ) = h ( Z β ) ( 1 − h ( Z β ) ) E(Y|X)=h(Z\beta),\ Var(Y|X)=h(Z\beta)(1-h(Z\beta)) E(YX)=h(), Var(YX)=h()(1h())

(二)二响应模型参数的极大似然估计

对于变量 ( Y , X ) (Y,X) (Y,X)的独立观测样本 ( Y i , X i ) (Y_i,X_i) (Yi,Xi) 1 ≤ i ≤ n 1\leq i \leq n 1in,每个样本点都满足二响应模型,即:
P ( Y i = 1 ∣ X i ) = h ( Z i β ) ,   P ( Y i = 0 ∣ X i ) = 1 − h ( Z i β ) P(Y_i=1|X_i)=h(Z_i\beta),\ P(Y_i=0|X_i)=1-h(Z_i\beta) P(Yi=1∣Xi)=h(Ziβ), P(Yi=0∣Xi)=1h(Ziβ)
进而可以得到第 i i i项观测的个体似然函数:
L i ( β ) ≜ h ( Z i β ) Y i ( 1 − h ( Z i β ) ) 1 − Y i L_i(\beta)\triangleq h(Z_i\beta)^{Y_i}(1-h(Z_i\beta))^{1-Y_i} Li(β)h(Ziβ)Yi(1h(Ziβ))1Yi
i i i项观测的对数似然函数:
l i ( β ) ≜ Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) l_i(\beta)\triangleq Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta)) li(β)Yilogh(Ziβ)+(1Yi)log(1h(Ziβ))
进而得到参数 β \beta β的对数似然函数:
l ( β ) ≜ ∑ i = 1 n ( Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) ) l(\beta)\triangleq \sum_{i=1}^n(Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta))) l(β)i=1n(Yilogh(Ziβ)+(1Yi)log(1h(Ziβ)))
模型参数的似然估计即为:
β ^ = arg max ⁡ l ( β ) \hat{\beta}=\argmax l(\beta) β^=argmaxl(β)

显然,对数似然函数由样本所决定,因此它的最大值点也完全由样本所决定,即似然估计 β ^ \hat{\beta} β^是一个统计量。

(三)二响应模型的优势

优势(Odds):一个事件发生的概率与其不发生的概率的比值。
二响应模型中的优势与解释变量的取值有关,他在x点的值为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = P ( Y = 1 ∣ X = x ) 1 − P ( Y = 1 ∣ X = x ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=\frac{P(Y=1|X=x)}{1-P(Y=1|X=x)} O(x)P(Y=0∣X=x)P(Y=1∣X=x)=1P(Y=1∣X=x)P(Y=1∣X=x)
因此二响应模型的优势为:
O ( x ) ≜ h ( z β ) 1 − h ( z β ) O(x)\triangleq \frac{h(z\beta)}{1-h(z\beta)} O(x)1h(zβ)h(zβ)

对于逻辑回归型来说,优势为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = e x p ( z β ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=exp(z\beta) O(x)P(Y=0∣X=x)P(Y=1∣X=x)=exp(zβ)
因此解释变量 x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的优势比为:
O ( x ( 1 ) ) O ( x ( 2 ) ) = e x p ( ( z ( 1 ) − z ( 2 ) ) β ) \frac{O(x^{(1)})}{O(x^{(2)})}=exp((z^{(1)}-z^{(2)})\beta) O(x(2))O(x(1))=exp((z(1)z(2))β)
因此在逻辑回归模型中, e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)z(2))β) x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的的优势比,或等价地, x ( 1 ) x^{(1)} x(1)的优势是 x ( 2 ) x^{(2)} x(2)优势的 e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)z(2))β)倍。其他二响应模型中, x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的优势比的计算更为复杂,这是人们喜欢用逻辑回归模型拟合二响应变量样本观测数据的一个原因

三、二响应模型参数的假设检验

二响应模型中模型参数的假设检验问题: H 0 : C β = ξ H_0:C\beta=\xi H0:=ξ

  • C C C是已知的 s × t s\times t s×t行满秩矩阵,称为限制矩阵
  • β = ( β 1 , . . . , β t ) T \beta=(\beta_1,...,\beta_t)^T β=(β1,...,βt)T是模型参数

(一)对数似然比检验方法

对数似然比统计量与原假设之间的关系:

  • 模型参数 β \beta β的限制似然估计量: β ~ = arg max ⁡ β : C β = ξ l ( β ) \tilde{\beta}=\argmax_{\beta:C\beta=\xi} l(\beta) β~=argmaxβ:=ξl(β)
  • 对数似然比统计量: λ ( Y , X ) = − 2 ( l ( β ~ − ( β ^ ) ) \lambda(Y,X)=-2(l(\tilde{\beta}-(\hat{\beta})) λ(Y,X)=2(l(β~(β^))
    • β ^ \hat{\beta} β^是极大似然估计量
    • ( Y , X ) (Y,X) (Y,X)为样本

λ ( Y , X ) = − 2 log ⁡ ( L ( β ~ ) L ( β ^ ) ) = 2 log ⁡ ( L ( β ^ ) L ( β ~ ) ) \lambda(Y,X)=-2\log(\frac{L(\tilde{\beta})}{L(\hat{\beta})})=2\log(\frac{L(\hat{\beta})}{L(\tilde{\beta})}) λ(Y,X)=2log(L(β^)L(β~))=2log(L(β~)L(β^))
显然满足限制条件 H 0 H_0 H0的似然函数局部最大值 β ~ \tilde{\beta} β~应该小于全局最大值 β ^ \hat{\beta} β^,全局最大值越接近限制最大值,就越有利于限制条件 H 0 H_0 H0的成立。即 λ ( X , Y ) \lambda(X,Y) λ(X,Y)越大,越不利于原假设。

检验方法:
H 0 H_0 H0成立时, λ ( X , Y ) ∼ a χ 2 ( r ) \lambda(X,Y)\overset{\text{a}}{\sim} \chi^2(r) λ(X,Y)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > λ ( y , x ) ) p=P(\xi>\lambda(y,x)) p=P(ξ>λ(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(二)Wald统计量

Wald统计量为 C β ^ C\hat{\beta} Cβ^ C β = ξ C\beta=\xi =ξ之间距离的加权平均:
W ( Y , X ) = ( C β ^ − ξ ) T ( C ( F ( β ^ ) ) − 1 C T ) − 1 ( C β ^ − ξ ) W(Y,X)=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi) W(Y,X)=(Cβ^ξ)T(C(F(β^))1CT)1(Cβ^ξ)

  • β ^ \hat{\beta} β^是极大似然估计量
  • F − 1 ( β ^ ) F^{-1}(\hat{\beta}) F1(β^)为Fisher信息矩阵的逆矩阵
  • ( Y , X ) (Y,X) (Y,X)为样本

当原假设成立时,Wald统计:
W ( Y , X ) = ( β ^ − β ) C T ( C ( F ( β ^ ) ) − 1 C T ) − 1 C ( β ^ − β ) W(Y,X)=(\hat{\beta}-\beta)C^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}C(\hat{\beta}-\beta) W(Y,X)=(β^β)CT(C(F(β^))1CT)1C(β^β)
是似然估计与真实参数 β \beta β的距离,这个距离越大越不利于原假设。

检验方法:
H 0 H_0 H0成立时, W ( Y , X ) ∼ a χ 2 ( r ) W(Y,X)\overset{\text{a}}{\sim} \chi^2(r) W(Y,X)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(三)得分统计量

得分统计量:
U ( Y , X ) = s ( β ~ ) F − 1 ( β ~ ) ( s ( β ~ ) ) T U(Y,X)=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T U(Y,X)=s(β~)F1(β~)(s(β~))T

  • s s s为得分函数
  • β ~ \tilde{\beta} β~为限制极大似然估计
  • F − 1 ( β ~ ) F^{-1}(\tilde{\beta}) F1(β~)为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值

一般情况下得分统计量越小, s ( β ~ ) s(\tilde{\beta}) s(β~)与0越接近,导致 β ~ \tilde{\beta} β~与似然方程的解 β ^ \hat{\beta} β^越接近,从而 H 0 H_0 H0成立的可能性越大。
检验方法:
H 0 H_0 H0成立时, U ( Y , X ) ∼ a χ 2 ( r ) U(Y,X)\overset{\text{a}}{\sim} \chi^2(r) U(Y,X)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(四)模型参数分量是否为0的检验

实际应用时会经常关心模型参数的第 i i i分量 β i \beta_i βi是否为0,如果为0,就说明响应变量与设计向量的第 i i i个分量没有关系,否则响应变量就与设计向量的第i个分量有关系。
H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答,但是也有更简单的统计量:
T i ( X , Y ) = β ^ i a i i T_i(X,Y)=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}} Ti(X,Y)=aii β^i
其中, a i i a_{ii} aii F ( β ^ ) ) − 1 F(\hat{\beta}))^{-1} F(β^))1的对角线上的第i个元素。并且在一般情况下, ∣ T i ( X , Y ) ∣ |T_i(X,Y)| Ti(X,Y)越大,越不利于原假设。

检验方法:
H 0 H_0 H0成立时,即 β i = 0 \beta_i=0 βi=0时, T i = β ^ i a i i ∼ a N ( 0 , 1 ) T_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}\overset{\text{a}}{\sim} N(0,1) Ti=aii β^iaN(0,1),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ∣ ξ ∣ > ∣ T i ( x , y ) ∣ ) p=P(|\xi|>|T_i(x,y)|) p=P(ξ>Ti(x,y))

  • 如果p小于 α \alpha α,则拒绝原假设,即 β i ≠ 0 \beta_i\neq 0 βi=0,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设 β i = 0 \beta_i=0 βi=0,即没有发现不利于 H 0 H_0 H0的证据

(五)四种检验统计量的特点与应用

  • 对数似然比统计量同时依赖于似然估计量和限制似然估计量,其值的计算量大
  • Wald统计量仅依赖于无限制似然估计量 β ^ \hat{\beta} β^,其值的计算量小,适用于前推式变量筛选
  • 得分统计量仅依赖于限制似然估计量 β ~ \tilde{\beta} β~,计算量较小,常用于后推式变量筛选
  • 统计量 T i T_i Ti用于解答假设检验问题

四、二响应模型的拟合优度统计量

(一)样本观测数据的表示方法

  • 不分组样本观测数据(不分组数据): ( Y , X ) (Y,X) (Y,X)的原始观测数据 ( y i , x i ) , i = 1 , . . . , n (y_i,x_i),i=1,...,n (yi,xi),i=1,...,n
  • 分组相应均值数据(分组数据):当观测数据的解释变量中仅有 g g g个不同取值 v 1 , . . . , v g v_1,...,v_g v1,...,vg时,可用将样本观测数据表示为 ( n k , y k ˉ , v k ) , k = 1 , . . . , g (n_k,\bar{y_k},v_k),k=1,...,g (nk,ykˉ,vk),k=1,...,g
    • n k n_k nk为数据中 v k v_k vk的频数
    • y k ˉ \bar{y_k} ykˉ为数据中解释变量为 v i v_i vi的响应变量的算术平均值

(二)皮尔逊统计量

皮尔逊统计量是衡量二响应广义线性模型拟合效果的指标之一:
χ 2 = ∑ k = 1 g n k ( Y k ˉ − h ( Z ( v k ) β ^ ) ) 2 h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) ∼ a χ 2 ( g − p ) \chi^2=\sum_{k=1}^g\frac{n_k(\bar{Y_k}-h(Z(v_k)\hat{\beta}))^2}{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}\overset{\text{a}}{\sim} \chi^2(g-p) χ2=k=1gh(Z(vk)β^)(1h(Z(vk)β^))nk(Ykˉh(Z(vk)β^))2aχ2(gp)
其中:
Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i , 1 ≤ k ≤ g \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i,1\leq k\leq g Ykˉ=nk1i=1n1{vk}(Xi)Yi,1kg
在皮尔逊统计量中, Y k ˉ − h ( Z ( v k ) β ^ ) \bar{Y_k}-h(Z(v_k)\hat{\beta}) Ykˉh(Z(vk)β^)是频率与概率估计值之差, D ^ ( Y k ˉ ) = h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) n k \hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k} D^(Ykˉ)=nkh(Z(vk)β^)(1h(Z(vk)β^)) D ( Y k ˉ ) D(\bar{Y_k}) D(Ykˉ)的估计值,显然: ( Y ˉ k − h ( Z ( v k ) β ^ ) ) 2 D ^ ( Y k ˉ ) \frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})} D^(Ykˉ)(Yˉkh(Z(vk)β^))2越小,说明用 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk)β^)估计 P ( Y ∣ X = v k ) P(Y|X=v_k) P(YX=vk)的效果越好。因此可以用其和 χ 2 \chi^2 χ2来衡量广义线性模型的拟合效果:皮尔逊统计量 χ 2 \chi^2 χ2越小,拟合的效果越好。

对于分组数据,皮尔逊计量要求各个 n k n_k nk都很大的情况效果才会好,当 n i n_i ni很小,甚至等于1的情况,皮尔逊统计量比较模型的效果会很差。

(三)偏差统计量

当解释变量可能取值为 v 1 , . . . , v g v_1,...,v_g v1,...,vg时, 1 = ∑ k = 1 g 1 { v k } ( X i ) 1=\sum_{k=1}^g1_{\{v_k\}}(X_i) 1=k=1g1{vk}(Xi),因此对数似然函数可以表达为:
l ( β ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( X i ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( X i ) β ) ) ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( v k ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) \begin{aligned} l(\beta)=&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(X_i)\beta)+(1-Y_i)\log (1-h(Z(X_i)\beta)))\\ =&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(v_k)\beta)+(1-Y_i)\log (1-h(Z(v_k)\beta)))\\ \end{aligned} l(β)==i=1nk=1g1{vk}(Xi)(Yilogh(Z(Xi)β)+(1Yi)log(1h(Z(Xi)β)))i=1nk=1g1{vk}(Xi)(Yilogh(Z(vk)β)+(1Yi)log(1h(Z(vk)β)))

n k = ∑ i = 1 n 1 { v k } ( X i ) ,   Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i n_k=\sum_{i=1}^n1_{\{v_k\}}(X_i),\ \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i nk=i=1n1{vk}(Xi), Ykˉ=nk1i=1n1{vk}(Xi)Yi,则可以用分组样本将似然函数表达为:
l ( β ) = ∑ k = 1 g n k ( Y k ˉ log ⁡ h ( Z ( v k ) β ) + ( 1 − Y k ˉ ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) l(\beta)=\sum_{k=1}^gn_k(\bar{Y_k}\log h(Z(v_k)\beta)+(1-\bar{Y_k})\log (1-h(Z(v_k)\beta))) l(β)=k=1gnk(Ykˉlogh(Z(vk)β)+(1Ykˉ)log(1h(Z(vk)β)))
记: f i ( u ) = ( Y k ˉ log ⁡ u + ( 1 − Y k ˉ ) log ⁡ ( 1 − u ) ) , u ∈ ( 0 , 1 ) , 1 ≤ i ≤ g f_i(u)=(\bar{Y_k}\log u+(1-\bar{Y_k})\log (1-u)),u\in(0,1),1\leq i\leq g fi(u)=(Ykˉlogu+(1Ykˉ)log(1u)),u(0,1)1ig,则有:
d f i ( u ) d u = Y ˉ i u + 1 − Y ˉ i 1 − u = Y ˉ i − u u ( 1 − u ) \frac{df_i(u)}{du}=\frac{\bar{Y}_i}{u}+\frac{1-\bar{Y}_i}{1-u}=\frac{\bar{Y}_i-u}{u(1-u)} dudfi(u)=uYˉi+1u1Yˉi=u(1u)Yˉiu
所以 f i ( u ) ≤ f i ( Y ˉ i ) , u ∈ ( 0 , 1 ) f_i(u)\leq f_i(\bar{Y}_i),u\in(0,1) fi(u)fi(Yˉi),u(0,1)

由于 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk)β^) Y k ˉ \bar{Y_k} Ykˉ都是概率 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi)的估计,并且:
lim ⁡ n i → ∞ Y ˉ i = P ( Y = 1 ∣ X = v i ) \lim_{n_i\rightarrow ∞}\bar{Y}_i=P(Y=1|X=v_i) nilimYˉi=P(Y=1∣X=vi)
因此当 n i n_i ni充分大时, f i ( Y i ˉ ) − f i ( h ( Z ( v i ) β ^ ) f_i(\bar{Y_i})-f_i(h(Z(v_i)\hat{\beta}) fi(Yiˉ)fi(h(Z(vi)β^)越小,用 Z ( v i ) β ^ Z(v_i)\hat{\beta} Z(vi)β^估计 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi)的效果越好。因此人们常用偏差统计量:
D ( X , Y ) ≜ − 2 ∑ i = 1 g n i ( f i ( h ( Z ( v i ) β ^ ) ) − f i ( Y ˉ i ) ) D(X,Y)\triangleq-2\sum_{i=1}^gn_i(f_i(h(Z(v_i)\hat{\beta}))-f_i(\bar{Y}_i)) D(X,Y)2i=1gni(fi(h(Z(vi)β^))fi(Yˉi))
来衡量模型的拟合效果,偏差统计量的值越小,拟合效果也就越好。

五、全模型与子模型

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。

若设计向量 V ~ \tilde{V} V~是设计向量 V V V的子向量,则称 V V V所对应模型为 V ~ \tilde{V} V~所对应模型的全模型或父模型,称 V ~ \tilde{V} V~所对应模型为 V V V所对应模型的子模型。如二响应逻辑回归模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 3 , x 1 x 3 ) α logit(E(Y|X))=(1,x_3,x_1x_3)\alpha logit(E(YX))=(1,x3,x1x3)α是全模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) β logit(E(Y|X))=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3)\beta logit(E(YX))=(1,x1,x2,x3,x1x2,x1x3,x2x3)β的子模型。当全模型的模型参数一些分量为0时,全模型就变为子模型。

在选择使用全模型还是子模型拟合数据时,可以通过全模型参数的假设检验问题来进行探索:
H 0 : β 1 = β 2 = β 1 , 2 = β 2 , 3 = 0 H_0:\beta_1=\beta_2=\beta_{1,2}=\beta_{2,3}=0 H0:β1=β2=β1,2=β2,3=0

事实上,当模型参数估计的多个分量的p值都超过显著水平时,直接在设计向量中剔除这些分量所得的子模型的你和效果可能会很差。

变量选择问题:

  • AIC准则: A I C = 2 p − 2 l ( β ^ ) AIC=2p-2l(\hat{\beta}) AIC=2p2l(β^),在子模型中选择AIC值最小的模型拟合数据。对于全模型,人们常用逐步回归法选择最优子模型。
    • 令设计向量 Z = ( 1 , Z 1 , . . . , Z k ) Z=(1,Z_1,...,Z_k) Z=(1,Z1,...,Zk),计算模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()的AIC的值 a n o n e a_{none} anone
    • 对于 1 ≤ i ≤ k 1\leq i\leq k 1ik,删除 Z Z Z的第 i + 1 i+1 i+1分量得子向量: Z ( i ) = ( 1 , Z 1 , . . . , Z i − 1 , Z i + 1 , Z k ) Z^{(i)}=(1,Z_1,...,Z_{i-1},Z_{i+1},Z_k) Z(i)=(1,Z1,...,Zi1,Zi+1,Zk),计算模型 E ( Y ∣ X ) = h ( Z ( i ) β ( i ) ) E(Y|X)=h(Z^{(i)}\beta^{(i)}) E(YX)=h(Z(i)β(i))的AIC的值 a i a_{i} ai
    • a n o n e ≤ m i n { a 1 , . . . a k } a_{none}\leq min\{a_1,...a_k\} anonemin{a1,...ak},结束运算;否则,寻找 a 1 , . . . a k a_1,...a_k a1,...ak中最小者 a m a_m am,令 k = k − 1 , Z = Z ( m ) k=k-1,Z=Z^{(m)} k=k1,Z=Z(m),跳转到第一步
  • 另外也可以通过假设检验来考察最优子模型与全模型间是否有差异。

一般来说,最优逻辑回归模型的选择思路可以是:从设计向量出发,利用逐步回归方法获取最优子模型,通过一个分类变量的哑变量编码拓展最优子模型的设计向量,用拓展设计向量替代,重复上述过程,得到最终选择模型。

六、响应变量的预报

依据均方误差准则,应该用条件期望预报随机变量的值,但是二响应线性回归模型的条件期望的值是小数,实际应用中希望得到的预报却应该为0或1,因此需要通过一些特殊方式来实现响应变量的预报。

(一)阈值

核心思想: 通过 Y ^ c = 1 { h ( Z ( x ) β ) > c } \hat{Y}_c=1_{\{h(Z(x)\beta)>c\}} Y^c=1{h(Z(x)β)>c}来预报响应变量,称c为阈值。

阈值的确定:

  • 根据极大似然的原理得到预报规则:如果 P ( Y = 1 ∣ X = x ) ≥ P ( Y = 1 ∣ X = x ) P(Y=1|X=x)\geq P(Y=1|X=x) P(Y=1∣X=x)P(Y=1∣X=x),就预报响应变量的值为1,否则预报为0,因此极大似然预报公式即为:
    Y ^ c = 1 { h ( Z ( x ) β ) > 0.5 } \hat{Y}_c=1_{\{h(Z(x)\beta)>0.5\}} Y^c=1{h(Z(x)β)>0.5}

Y ^ c \hat{Y}_c Y^c的预报效果:

  • 总体误报率: E ( ∣ Y ^ c − Y ∣ ) E(|\hat{Y}_c-Y|) E(Y^cY)的值越小,说明预报效果越好。
  • 样本预报率: f = 1 n ∑ i = 1 n ∣ Y i − Y ^ i ∣ f=\frac{1}{n}\sum_{i=1}^n|Y_i-\hat{Y}_i| f=n1i=1nYiY^i
  • 误报率与响应变量 Y 1 , . . . , Y n Y_1,...,Y_n Y1,...,Yn中1的比例有关,因此不宜用这一指标衡量预报效果。

(二)ROC曲线

二响应广义线性模型常常关心预报值1是否为误报,即真值1和0是否能够被正确预报出来。

  • TP:n次预报中真值为1预报值也为1的预报次数
  • FN:n次预报中真值为1预报值为0的预报次数
  • FP:n次预报中真值为0预报值为1的预报次数
  • TN:n次预报中真值为0预报值也为0的预报次数

T P R ≜ T P T P + F N ,   F P R ≜ F P F P + T N TPR\triangleq \frac{TP}{TP+FN},\ FPR\triangleq \frac{FP}{FP+TN} TPRTP+FNTP, FPRFP+TNFP

  • TPR是真值1被预报成功的频率,称为真正类率,我们希望它尽可能大
  • FPR是真值0被预报成1的频率,称为假正类率,我们希望它越小越好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1803174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2 中如何使用 render 函数编写组件

vue2 中如何使用 render 函数编写组件 render 基础语法createElement返回值:VNode参数处理样式和类组件 propsHTML 特性和 DOM 属性处理事件插槽指令v-model 指令其他属性 使用 render 封装一个输入框其他问题参考 vue 提供了声明式编写 UI 的方式,即 vu…

Java+Spring boot+MYSQL 技术开发的UWB室内外高精度一体化融合定位系统源码 UWB技术定位系统应用场景

JavaSpring bootMYSQL 技术开发的UWB室内外高精度一体化融合定位系统源码 UWB技术定位系统应用场景 系统聚焦基于UWB(超宽带)技术的底层定位网络和定位算法,通过对定位分站、定位标签、定位引擎的硏发,实现高精度定位网络,获取高精度定位结果…

翻译《The Old New Thing》- Why isn’t there a SendThreadMessage function?

Why isnt there a SendThreadMessage function? - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20081223-00/?p19743 Raymond Chen 2008年12月23日 为什么没有 SendThreadMessage 函数? 简要 文章讨论了 Windows 中不存在 Sen…

用QT6、QML、FFMPEG写一个有快进功能的影音播放程序

程序如图: 开发环境在ubuntu下,如果改windows下,也就改一下cmakelists.txt。windows下如何配置ffmpeg以前的文章有写,不再重复。 源程序如下: GitHub - wangz1155/ffmpegAudioThread: 用qt6,qml&#xff…

深度图的方法实现加雾,Synscapes数据集以及D455相机拍摄为例

前言 在次之前,我们已经做了图像加雾的一些研究,这里我们将从深度图的方法实现加雾展开细讲 图像加雾算法的研究与应用_图像加雾 算法-CSDN博客 接下来将要介绍如何使用深度图像生成雾效图像的方法。利用Synscapes数据集,通过读取EXR格式的…

Linux☞进程控制

在终端执行命令时,Linux会建立进程,程序执行完,进程会被终止;Linux是一个多任务的OS,允许多个进程并发运行; Linxu中启动进程的两种途径: ①手动启动(前台进程(命令gedit)...后台进程(命令‘&’)) ②…

重构大学数学基础_week04_从点积理解傅里叶变换

这周我们来看一下傅里叶变换。傅里叶变换是一种在数学和许多科学领域中广泛应用的分析方法,它允许我们将信号或函数从其原始域(通常是时间域或空间域)转换到频域表示。在频域中,信号被表示为其组成频率的幅度和相位,这…

STM32F103C8T6基于HAL库完成uC/OS-III多任务程序

一、在STM32CubeMX中建立工程 配置RCC 配置SYS 配置PC13为GPIO_Output 配置USART1 生成代码 二、获取uC/OS-III源码 官网下载地址:Micrium Software and Documentation - Silicon Labs 网盘下载:百度网盘 请输入提取码 提取码:lzjl 三、复…

反射型xss靶场练习

反射型xss危害小,这里使用的xss靶场是常用的xss靶场:xss-labs。 当我们完成弹窗后就通过该关卡,说该关卡存在xss的一个漏洞并且可以解析js代码。 第一关: 这里没有过滤我们输入的代码:直接将js代码放在js代码中&a…

SpringBoot图书管理系统【附:资料➕文档】

前言:我是源码分享交流Coding,专注JavaVue领域,专业提供程序设计开发、源码分享、 技术指导讲解、各类项目免费分享,定制和毕业设计服务! 免费获取方式--->>文章末尾处! 项目介绍048: 图…

springboot中路径默认配置与重定向/转发所存在的域对象

今天在写项目的时候,突然发现引用js的时候路径不匹配,让我再次对路径问题产生了疑问,通过查阅springboot官网可以发现,在springboot中查找静态资源的时候,会默认在static、public、resources下查找,官网中也…

C++面向对象程序设计 - 字符串流

文件流是以外存文件为输入输出对象的数据流,字符串流不是以外存文件为输入输出的对象,而以内存中用户定义的字符数组(字符串)为输入输出的对象,即将数据输出到内存中的字符数组,或者从字符数组(…

【NI国产替代】PCIe 高速采集卡, 8 位双通道数字化仪器,采集卡最高采样率高达 5 GS/s 模拟带宽高达 500 MHz

• 8 位双通道数字化仪器 • 最高采样率高达 5 GS/s • 模拟带宽高达 500 MHz • 采用 PCIe 3.0 x 8 接口 • 基于 Xilinx Kintex UltraScale, XCKU040 • 提供硬件、FPGA、软件定制服务 高速采集卡是一款 8 位双通道数字化仪器,采集卡最高采样率高达 5 GS/s 模…

【python报错】list indices must be integers or slices, not tuple

【Python报错】list indices must be integers or slices, not tuple 在Python中,列表(list)是一种常用的数据结构,用于存储一系列的元素。当你尝试使用不支持的索引类型访问列表元素时,会遇到list indices must be in…

【教学类-36-07】20240608动物面具(通义万相)-A4大小7图15手工纸1图

背景需求: 风变的AI对话大师一年到期了,也没有看到续费的按钮。不能使用它写代码了。 MJ早就用完了,最后480次,我担心信息课题会用到它生图,所以不敢用。 最近探索其他类似MJ的免费出图工具——找到了每天给50张免费图…

DIO控制卡,IRIG-B码卡,PCI-E总线接口卡,百兆数据采集卡

DIO控制卡 ● 4路继电器输出(5A250VAC) ● 4路开关量输入(24VDC) ● 1路IDE接口 ● 端口浪涌保护 IRIG-B码卡 ● 1路IRIG-B对时接口(RS485/光纤) ● 1路IEEE1588 V2对时接口(RJ45/光纤&#…

linux本地搭建dns

不需要图形化界面 使用的是dnsmasq,配置简单 1.安装 deb系列linux apt-get install dnsmasqrhat系列linux yum install dnsmasq2.编辑配置文件 vi /etc/dnsmasq.conf设置主dns服务器,比如现有公用的的114.114.114.114 8.8.8.8这类的 server8.8.8.8…

C语言详解(动态内存管理)2

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

零空间(Null Space)控制例子

零空间(Null Space)控制是一种用于多任务控制系统的技术,特别适用于机器人和多自由度系统。其基本原理是将控制任务分解为不同的优先级,其中高优先级任务在主空间(Task Space)中执行,而低优先级任务在零空间(Null Space)中执行。这样可以保证在完成主要任务的同时,次…

VScode的插件使用

1、正则插件-1 2、AI助手工具-1-fittentech 3、画图工具-1 4、GitHub的查看工具 5、shell测试工具