哈工大机器学习复习笔记(二)

news2025/1/8 4:40:44

本篇文章是在参考西瓜书、PPT课件、网络上相关博客等资料的基础上整理出的机器学习复习笔记,希望能给大家的机器学习复习提供帮助。这篇笔记只是复习的一个参考,大家一定要结合书本、PPT来进行复习,有些公式的推导最好能够自己演算一遍。由于作者水平有限,笔记中难免有些差错,欢迎大家评论留言。
完整版跳转

6. 朴素贝叶斯

6.1 条件独立

我们称 X X X在给定 Z Z Z的条件下条件独立于 Y Y Y,当且仅当 X X X的分布在给定 Z Z Z的条件下与 Y Y Y无关。
( ∀ i , j , k ) P ( X = x i ∣ Y = y j , Z = z k ) = P ( X = x i ∣ Z = z k ) (\forall i,j,k)P(X=x_i|Y=y_j,Z=z_k)=P(X=x_i|Z=z_k) (i,j,k)P(X=xiY=yj,Z=zk)=P(X=xiZ=zk)
缩写为
P ( X ∣ Y , Z ) = P ( X ∣ Z ) P(X|Y,Z)=P(X|Z) P(XY,Z)=P(XZ)
X 1 , X 2 X_1,X_2 X1,X2在给定 Y Y Y时条件独立,那么有
P ( X 1 , X 2 ∣ Y ) = P ( X 1 ∣ X 2 , Y ) P ( X 2 ∣ Y ) = P ( X 1 ∣ Y ) P ( X 2 ∣ Y ) \begin{aligned} P(X_1,X_2|Y)&=P(X_1|X_2,Y)P(X_2|Y)\\ &=P(X_1|Y)P(X_2|Y) \end{aligned} P(X1,X2Y)=P(X1X2,Y)P(X2Y)=P(X1Y)P(X2Y)
一般化,若 X i X_i Xi Y Y Y条件独立,那么
P ( X 1 , X 2 , … , X n ∣ Y ) = ∏ i P ( X i ∣ Y ) P(X_1,X_2,\dots,X_n|Y)=\prod_iP(X_i|Y) P(X1,X2,,XnY)=iP(XiY)
这是朴素贝叶斯的基础。

6.2 参数估计

相较于没有条件独立性假设的情况,朴素贝叶斯分类器所需要估计的参数个数大大减少了,具体来看(假设每个属性有2个不同取值,共有2个类别):

  • 没有条件独立性假设: 2 n 2^n 2n
  • 有条件独立性假设: 2 n 2n 2n
    朴素贝叶斯分类器需要对任何一个给定的样本 X = < X 1 , … , X n > X=<X_1,\dots ,X_n> X=<X1,,Xn>计算出它被分类为任何一个类别的概率,即
    P ( Y = y k ∣ X 1 … X n ) = P ( Y = y k ) ∏ i P ( X i ∣ Y = y k ) ∑ j P ( Y = y j ) ∏ i P ( X i ∣ Y = y j ) P(Y=y_k|X_1\dots X_n)=\frac{P(Y=y_k)\prod_iP(X_i|Y=y_k)}{\sum_j P(Y=y_j)\prod_iP(X_i|Y=y_j)} P(Y=ykX1Xn)=jP(Y=yj)iP(XiY=yj)P(Y=yk)iP(XiY=yk)
    对于某个给定的,分母是恒定的。我们只需要最大化分子,也就是
    arg ⁡ max ⁡ k P ( Y = y k ) ∏ i P ( X i ∣ Y = y k ) \arg \max_k P(Y=y_k)\prod_iP(X_i|Y=y_k) argkmaxP(Y=yk)iP(XiY=yk)
    因而,对于一个新的样本 X n e w = < X 1 , … , X n > X^{new}=<X_1,\dots ,X_n> Xnew=<X1,,Xn>,判别规则为
    Y n e w ← arg ⁡ max ⁡ y k P ( Y = y k ) ∏ i P ( X i n e w ∣ Y = y k ) Y^{new} \leftarrow \arg \max_{y_k} P(Y=y_k)\prod_iP(X_i^{new}|Y=y_k) YnewargykmaxP(Y=yk)iP(XinewY=yk)
    也就是说,当各个属性之间条件独立时,考虑最大化各个属性取值时的类别,而为了能够从整体上看最大化的情况,取了各个属性值上的概率积。
    在朴素贝叶斯中,我们需要对两类参数进行估计
  • 先验概率: π k = P ( Y = y k ) \pi_k=P(Y=y_k) πk=P(Y=yk)
  • 条件概率: θ i j k = P ( X i = x i j ∣ Y = y k ) \theta_{ijk}=P(X_i=x_{ij}|Y=y_k) θijk=P(Xi=xijY=yk) x i j x_{ij} xij表示第 i i i个属性的第 j j j个属性值
    下面分别采用MLE和MAP的方法对这两类参数进行估计。

使用MLE估计

π ^ k = P ^ ( Y = y k ) = # D { Y = y k } ∣ D ∣ θ ^ i j k = P ^ ( X i = x i j ∣ Y = y k ) = # D { X i = x i j ∧ Y = y k } # D { Y = y k } \begin{aligned} &\hat{\pi}_k=\hat{P}(Y=y_k)=\frac{\#D\{Y=y_k\}}{|D|}\\ &\hat{\theta}_{ijk}=\hat{P}(X_i=x_{ij}|Y=y_k)=\frac{\#D\{X_i=x_{ij}\land Y=y_k\}}{\#D\{Y=y_k\}} \end{aligned} π^k=P^(Y=yk)=D#D{Y=yk}θ^ijk=P^(Xi=xijY=yk)=#D{Y=yk}#D{Xi=xijY=yk}
但是,如果某个属性值在训练集中没有与某个类同时出现过,即 P ( X i ∣ Y = y k ) = 0 P(X_i|Y=y_k)=0 P(XiY=yk)=0,那么无论该样本的其他属性是什么, P ( Y = y k ∣ X ) P(Y=y_k|X) P(Y=ykX)都将会被预测成零。这显然是不太合理的,可以采用MAP估计来避免这个问题。

使用MAP估计

π ^ k = P ^ ( Y = y k ) = # D { Y = y k } + α k ∣ D ∣ + ∑ m α m θ ^ i j k = P ^ ( X i = x i j ∣ Y = y k ) = # D { X i = x i j ∧ Y = y k } + α k ′ # D { Y = y k } + ∑ m α m ′ \begin{aligned} &\hat{\pi}_k=\hat{P}(Y=y_k)=\frac{\#D\{Y=y_k\}+\alpha_k}{|D|+\sum_m\alpha_m}\\ &\hat{\theta}_{ijk}=\hat{P}(X_i=x_{ij}|Y=y_k)=\frac{\#D\{X_i=x_{ij}\land Y=y_k\}+\alpha_k'}{\#D\{Y=y_k\}+\sum_m\alpha_m'} \end{aligned} π^k=P^(Y=yk)=D+mαm#D{Y=yk}+αkθ^ijk=P^(Xi=xijY=yk)=#D{Y=yk}+mαm#D{Xi=xijY=yk}+αk
亦可以采用“拉普拉斯修正”(西瓜书),即假设先验概率符合均匀分布。

6.3 处理连续属性

修改朴素贝叶斯模型,将 P ( X i = x ∣ Y = y k ) P(X_i=x|Y=y_k) P(Xi=xY=yk)改为其概率密度函数。譬如我们采用高斯分布:
P ( X i = x ∣ Y = y k ) = 1 2 π σ i k e − ( x − μ i k ) 2 2 σ i k 2 P(X_i=x|Y=y_k)=\frac1{\sqrt{2\pi}\sigma_{ik}}e^{\frac{-(x-\mu_{ik})^2}{2\sigma_{ik}^2}} P(Xi=xY=yk)=2π σik1e2σik2(xμik)2
有时候,我们假设方差

  • Y Y Y无关,这时 σ i k = σ i \sigma_{ik}=\sigma_i σik=σi
  • X i X_i Xi无关,这时 σ i k = σ k \sigma_{ik}=\sigma_k σik=σk
  • X i X_i Xi Y Y Y均无关,这时 σ i k = σ \sigma_{ik}=\sigma σik=σ

6.4 总结

对于连续属性(假设服从高斯分布),我们首先要估计它的参数( μ \mu μ σ \sigma σ),利用最大似然进行估计。这里有点类似于概率论里多个随机变量满足独立同分布的情况,这时利用极大似然估计得到的 μ \mu μ就是样本的均值, σ \sigma σ就是样本的方差。假设 n n n个样本 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,,xn服从独立同分布,且满足高斯分布,则
μ ^ = 1 n ∑ i = 1 n x i σ ^ = 1 n ∑ i = 1 n ( x i − μ ^ ) 2 \begin{aligned} \hat \mu &= \frac1n{\sum_{i=1}^n x_i}\\ \hat \sigma &= \frac1n{\sum_{i=1}^n(x_i-\hat\mu)^2} \end{aligned} μ^σ^=n1i=1nxi=n1i=1n(xiμ^)2
类似的,可以对这里的参数进行估计。

7. 逻辑回归

现在我们考虑一个线性可分的二分类问题。接下来我们构造一个判别式模型(即直接学习 P ( Y ∣ X ) P(Y|X) P(YX)),假定数据满足以下条件:

  • X X X是实数向量 < X 1 , … , X n > <X_1,\dots, X_n> <X1,,Xn>
  • Y Y Y是布尔向量
  • 给定 Y Y Y时, X i X_i Xi相互条件独立(可以不需要)
  • P ( X i ∣ Y = y k ) P(X_i|Y=y_k) P(XiY=yk)符合高斯分布 N ( μ i k , σ i ) N(\mu_{ik},\sigma_i) N(μik,σi)
  • P ( Y ) P(Y) P(Y)符合伯努利分布(设 π = P ^ ( Y = 1 ) \pi=\hat{P}(Y=1) π=P^(Y=1)

给定一个样本 X X X,其类别为 Y = 1 Y=1 Y=1的概率为
P ( Y = 1 ∣ X ) = P ( Y = 1 ) P ( X ∣ Y = 1 ) P ( Y = 1 ) P ( X ∣ Y = 1 ) + P ( Y = 0 ) P ( X ∣ Y = 0 ) = 1 1 + P ( Y = 0 ) P ( X ∣ Y = 0 ) P ( Y = 1 ) P ( X ∣ Y = 1 ) = 1 1 + exp ⁡ ( ln ⁡ P ( Y = 0 ) P ( X ∣ Y = 0 ) P ( Y = 1 ) P ( X ∣ Y = 1 ) ) = 1 1 + exp ⁡ ( ln ⁡ 1 − π π + ∑ i ln ⁡ P ( X i ∣ Y = 0 ) P ( X i ∣ Y = 1 ) ) \begin{aligned} P(Y=1|X)&=\frac{P(Y=1)P(X|Y=1)}{P(Y=1)P(X|Y=1)+P(Y=0)P(X|Y=0)}\\ &=\frac1{1+\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)}}\\ &=\frac1{1+\exp(\ln\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)})}\\ &=\frac1{1+\exp(\ln\frac{1-\pi}{\pi}+\sum_i\ln\frac{P(X_i|Y=0)}{P(X_i|Y=1)})}\\ \end{aligned} P(Y=1∣X)=P(Y=1)P(XY=1)+P(Y=0)P(XY=0)P(Y=1)P(XY=1)=1+P(Y=1)P(XY=1)P(Y=0)P(XY=0)1=1+exp(lnP(Y=1)P(XY=1)P(Y=0)P(XY=0))1=1+exp(lnπ1π+ilnP(XiY=1)P(XiY=0))1
又由于各个维度的条件概率均服从高斯分布,因此
P ( Y = 1 ∣ X ) = 1 1 + exp ⁡ ( ln ⁡ 1 − π π + ∑ i ( μ i 0 − μ i 1 σ i 2 X i + μ i 1 2 − μ i 0 2 2 σ i 2 ) ) \begin{aligned} P(Y=1|X)&=\frac1{1+\exp(\ln\frac{1-\pi}{\pi}+\sum_i(\frac{\mu_{i0}-\mu_{i1}}{\sigma_i^2}X_i+\frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2}))}\\ \end{aligned} P(Y=1∣X)=1+exp(lnπ1π+i(σi2μi0μi1Xi+2σi2μi12μi02))1
w 0 = ln ⁡ 1 − π π + ∑ i ( μ i 1 2 − μ i 0 2 2 σ i 2 ) ,   w i = μ i 0 − μ i 1 σ i 2 w_0=\ln\frac{1-\pi}{\pi}+\sum_i(\frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2}), \ w_i=\frac{\mu_{i0}-\mu_{i1}}{\sigma_i^2} w0=lnπ1π+i(2σi2μi12μi02), wi=σi2μi0μi1,则有
P ( Y = 1 ∣ X ) = 1 1 + exp ⁡ ( w 0 + ∑ i = 1 n w i X i ) P(Y=1|X)=\frac1{1+\exp(w_0+\sum_{i=1}^nw_iX_i)} P(Y=1∣X)=1+exp(w0+i=1nwiXi)1
进而有
P ( Y = 0 ∣ X ) = exp ⁡ ( w 0 + ∑ i = 1 n w i X i ) 1 + exp ⁡ ( w 0 + ∑ i = 1 n w i X i ) P(Y=0|X)=\frac{\exp(w_0+\sum_{i=1}^nw_iX_i)}{1+\exp(w_0+\sum_{i=1}^nw_iX_i)} P(Y=0∣X)=1+exp(w0+i=1nwiXi)exp(w0+i=1nwiXi)
进而
P ( Y = 0 ∣ X ) P ( Y = 1 ∣ X ) = exp ⁡ ( w 0 + ∑ i w i X i ) ln ⁡ P ( Y = 0 ∣ X ) P ( Y = 1 ∣ X ) = w 0 + ∑ i w i X i \frac{P(Y=0|X)}{P(Y=1|X)}=\exp(w_0+\sum_iw_iX_i)\\\ln\frac{P(Y=0|X)}{P(Y=1|X)}=w_0+\sum_iw_iX_i P(Y=1∣X)P(Y=0∣X)=exp(w0+iwiXi)lnP(Y=1∣X)P(Y=0∣X)=w0+iwiXi
所以逻辑回归是线性分类器。

:如果 X i X_i Xi不是相互条件独立的,但是满足 P ( X ∣ Y = y k ) P(X|Y=y_k) P(XY=yk)符合高斯分布 N ( μ k , Σ ) N(\mu_{k},\Sigma) N(μk,Σ),也可推导出逻辑回归是线性分类器,下面是推导过程。
由之前的推导可知
P ( Y = 1 ∣ X ) = 1 1 + exp ⁡ ( ln ⁡ 1 − π π + ln ⁡ P ( X ∣ Y = 0 ) P ( X ∣ Y = 1 ) ) \begin{aligned} P(Y=1|X)&=\frac1{1+\exp(\ln\frac{1-\pi}{\pi}+\ln\frac{P(X|Y=0)}{P(X|Y=1)})}\\ \end{aligned} P(Y=1∣X)=1+exp(lnπ1π+lnP(XY=1)P(XY=0))1
由于 P ( X ∣ Y = y k ) P(X|Y=y_k) P(XY=yk)满足多维高斯分布,因此
ln ⁡ P ( X ∣ Y = 0 ) P ( X ∣ Y = 1 ) = 1 2 ( X − μ 2 ) T Σ − 1 ( X − μ 2 ) − 1 2 ( X − μ 1 ) T Σ − 1 ( X − μ 1 ) = 1 2 ( X T − μ 2 T ) Σ − 1 ( X − μ 2 ) − 1 2 ( X T − μ 1 T ) Σ − 1 ( X − μ 1 ) = X T ( Σ − 1 μ 1 − Σ − 1 μ 2 ) + 1 2 ( μ 2 T Σ − 1 μ 2 − μ 1 T Σ − 1 μ 1 ) \begin{aligned} \ln\frac{P(X|Y=0)}{P(X|Y=1)}&=\frac1{2}(X-\mu_2)^T\Sigma^{-1}(X-\mu_2)-\frac1{2}(X-\mu_1)^T\Sigma^{-1}(X-\mu_1)\\ &=\frac1{2}(X^T-\mu_2^T)\Sigma^{-1}(X-\mu_2)-\frac1{2}(X^T-\mu_1^T)\Sigma^{-1}(X-\mu_1)\\ &=X^T(\Sigma^{-1}\mu_1-\Sigma^{-1}\mu_2)+\frac12(\mu_2^T\Sigma^{-1}\mu_2-\mu_1^T\Sigma^{-1}\mu_1) \end{aligned} lnP(XY=1)P(XY=0)=21(Xμ2)TΣ1(Xμ2)21(Xμ1)TΣ1(Xμ1)=21(XTμ2T)Σ1(Xμ2)21(XTμ1T)Σ1(Xμ1)=XT(Σ1μ1Σ1μ2)+21(μ2TΣ1μ2μ1TΣ1μ1)
W = Σ − 1 μ 1 − Σ − 1 μ 2 , b = 1 2 ( μ 2 T Σ − 1 μ 2 − μ 1 T Σ − 1 μ 1 ) + ln ⁡ 1 − π π W=\Sigma^{-1}\mu_1-\Sigma^{-1}\mu_2,b=\frac12(\mu_2^T\Sigma^{-1}\mu_2-\mu_1^T\Sigma^{-1}\mu_1)+\ln\frac{1-\pi}{\pi} W=Σ1μ1Σ1μ2,b=21(μ2TΣ1μ2μ1TΣ1μ1)+lnπ1π,则
P ( Y = 1 ∣ X ) = 1 1 + exp ⁡ ( W T X + b ) P(Y=1|X)=\frac1{1+\exp(W^TX+b)} P(Y=1∣X)=1+exp(WTX+b)1
进而有
P ( Y = 0 ∣ X ) = exp ⁡ ( W T X + b ) 1 + exp ⁡ ( W T X + b ) P(Y=0|X)=\frac{\exp(W^TX+b)}{1+\exp(W^TX+b)} P(Y=0∣X)=1+exp(WTX+b)exp(WTX+b)
进而
P ( Y = 0 ∣ X ) P ( Y = 1 ∣ X ) = exp ⁡ ( W T X + b ) ln ⁡ P ( Y = 0 ∣ X ) P ( Y = 1 ∣ X ) = W T X + b \frac{P(Y=0|X)}{P(Y=1|X)}=\exp(W^TX+b)\\\ln\frac{P(Y=0|X)}{P(Y=1|X)}=W^TX+b P(Y=1∣X)P(Y=0∣X)=exp(WTX+b)lnP(Y=1∣X)P(Y=0∣X)=WTX+b
也可以推出逻辑回归是线性分类器。

7.1 拓展:更多的类

y ∈ { y 1 , … , y R } y\in \{y_1,\dots,y_R\} y{y1,,yR},学习 R − 1 R-1 R1类权重参数。
k < R k<R k<R
P ( Y = y k ∣ X ) = exp ⁡ ( w k 0 + ∑ i = 1 n w k i X i ) 1 + ∑ j = 1 R − 1 exp ⁡ ( w j 0 + ∑ i = 1 n w j i X i ) P(Y=y_k|X)=\frac{\exp(w_{k0}+\sum_{i=1}^nw_{ki}X_i)}{1+\sum_{j=1}^{R-1}\exp(w_{j0}+\sum_{i=1}^nw_{ji}X_i)} P(Y=ykX)=1+j=1R1exp(wj0+i=1nwjiXi)exp(wk0+i=1nwkiXi)
k = R k=R k=R
P ( Y = y R ∣ X ) = 1 1 + ∑ j = 1 R − 1 exp ⁡ ( w j 0 + ∑ i = 1 n w j i X i ) P(Y=y_R|X)=\frac{1}{1+\sum_{j=1}^{R-1}\exp(w_{j0}+\sum_{i=1}^nw_{ji}X_i)} P(Y=yRX)=1+j=1R1exp(wj0+i=1nwjiXi)1

7.2 条件最大似然估计(MCLE)

为了让最后求解的结果和课件中保持一致,我们对上面的表达形式做出修改
P ( Y = 0 ∣ X , W ) = 1 1 + exp ⁡ ( w 0 + ∑ i = 1 n w i X i ) P ( Y = 1 ∣ X , W ) = exp ⁡ ( w 0 + ∑ i = 1 n w i X i ) 1 + exp ⁡ ( w 0 + ∑ i = 1 n w i X i ) P(Y=0|X,W)=\frac1{1+\exp(w_0+\sum_{i=1}^nw_iX_i)}\\P(Y=1|X,W)=\frac{\exp(w_0+\sum_{i=1}^nw_iX_i)}{1+\exp(w_0+\sum_{i=1}^nw_iX_i)} P(Y=0∣X,W)=1+exp(w0+i=1nwiXi)1P(Y=1∣X,W)=1+exp(w0+i=1nwiXi)exp(w0+i=1nwiXi)
显然,修改之后的形式和之前的式子等价。
条件最大似然
W M C L E = arg ⁡ max ⁡ W ∏ l P ( Y l ∣ W , X l ) W_{MCLE}=\arg \max_W \prod_lP(Y^l|W,X^l) WMCLE=argWmaxlP(YlW,Xl)
现在,我们需要选择一个向量 w w w,来最大化这个条件似然值。
l ( W ) = ln ⁡ ∏ l P ( Y l ∣ X l , W ) = ∑ l ln ⁡ P ( Y l ∣ X l , W ) = ∑ l Y l ln ⁡ P ( Y l = 1 ∣ X l , W ) + ( 1 − Y l ) ln ⁡ P ( Y l = 0 ∣ X l , W ) = ∑ l Y l ln ⁡ P ( Y l = 1 ∣ X l , W ) P ( Y l = 0 ∣ X l , W ) + ln ⁡ P ( Y l = 0 ∣ X l , W ) = ∑ l Y l ( w 0 + ∑ i = 1 n w i X i l ) − ln ⁡ ( 1 + exp ⁡ ( w 0 + ∑ i = 1 n w i X i l ) ) \begin{aligned} l(W)&=\ln\prod_lP(Y^l|X^l,W)=\sum_l\ln P(Y^l|X^l,W)\\ &=\sum_lY^l\ln P(Y^l=1|X^l,W)+(1-Y^l)\ln P(Y^l=0|X^l,W)\\ &=\sum_lY^l\ln \frac{P(Y^l=1|X^l,W)}{P(Y^l=0|X^l,W)}+\ln P(Y^l=0|X^l,W)\\ &=\sum_lY^l(w_0+\sum_{i=1}^nw_iX_i^l)-\ln(1+\exp(w_0+\sum_{i=1}^nw_iX_i^l)) \end{aligned} l(W)=lnlP(YlXl,W)=llnP(YlXl,W)=lYllnP(Yl=1∣Xl,W)+(1Yl)lnP(Yl=0∣Xl,W)=lYllnP(Yl=0∣Xl,W)P(Yl=1∣Xl,W)+lnP(Yl=0∣Xl,W)=lYl(w0+i=1nwiXil)ln(1+exp(w0+i=1nwiXil))
很遗憾,它没有解析解。我们需要通过梯度上升法求出近似解(也可以先取相反数,然后利用梯度下降法求解,得到的结果相同)。
∂ l ( W ) ∂ w i = ∑ l X i l ( Y l − exp ⁡ ( w 0 + ∑ i = 1 n w i X i l ) 1 + exp ⁡ ( w 0 + ∑ i = 1 n w i X i l ) ) = ∑ i X i l ( Y l − P ( Y l = 1 ∣ X l , W ) ) w i ← w i + η ∂ l ( W ) ∂ w i \begin{aligned} \frac{\partial{l(W)}}{\partial w_i}&=\sum_lX_i^l(Y^l-\frac{\exp(w_0+\sum_{i=1}^nw_iX_i^l)}{1+\exp(w_0+\sum_{i=1}^nw_iX_i^l) })\\ &=\sum_iX_i^l(Y^l-P(Y^l=1|X^l,W)) \end{aligned}\\w_i \leftarrow w_i+\eta\frac{\partial{l(W)}}{\partial w_i} wil(W)=lXil(Yl1+exp(w0+i=1nwiXil)exp(w0+i=1nwiXil))=iXil(YlP(Yl=1∣Xl,W))wiwi+ηwil(W)

7.3 MAP

MAP相当于增加了一个先验,假设 W ∽ N ( 0 , σ I ) W\backsim N(0,\sigma I) WN(0,σI),那么
W ← arg ⁡ max ⁡ W ln ⁡ [ P ( W ) ∏ l P ( Y l ∣ X l , W ) ] w i ← w i − η λ w i + η ∑ i X i l ( Y l − P ( Y l = 0 ∣ X l , W ) ) W \leftarrow \arg \max_W \ln[P(W)\prod_lP(Y^l|X^l,W)]\\w_i \leftarrow w_i-\eta\lambda w_i+\eta\sum_iX_i^l(Y^l-P(Y^l=0|X^l,W)) WargWmaxln[P(W)lP(YlXl,W)]wiwiηλwi+ηiXil(YlP(Yl=0∣Xl,W))
其中 λ > 0 \lambda >0 λ>0 η \eta η是学习率。
上式中的正则项其实就是由先验分布得到的(正则项前面的负号来自于高斯分布 e e e指数上的负号),加入正则项可以让 W W W中的元素尽量接近于0,从而有效避免模型的过拟合。

7.4 补充:KL距离

从KL距离的角度,可以得出与条件似然估计相似的结果。
假设 p p p X X X Y Y Y的真实分布, q q q是逻辑回归估计的分布,则 p ( Y = 1 ∣ X ) p(Y=1|X) p(Y=1∣X) p ( Y = 0 ∣ X ) p(Y=0|X) p(Y=0∣X)这两个概率值一个为1一个为0,且
q ( Y = 1 ∣ X ) = 1 1 + exp ⁡ ( w T x ) q ( Y = 0 ∣ X ) = 1 − q ( Y = 1 ∣ X ) \begin{aligned} q(Y=1|X)&=\frac1{1+\exp(w^Tx)}\\ q(Y=0|X)&=1-q(Y=1|X) \end{aligned} q(Y=1∣X)q(Y=0∣X)=1+exp(wTx)1=1q(Y=1∣X)
我们计算 p p p q q q的KL距离(化简时需要注意到 p p p分布的信息熵是0)
D K L ( p ( Y ) ∣ ∣ q ( Y ) ) = ∑ Y p ( Y ) log ⁡ p ( Y ) q ( Y ) = ∑ Y p ( Y ) log ⁡ 1 q ( Y ) − ∑ Y p ( Y ) log ⁡ 1 p ( Y ) = − ∑ Y p ( Y ) log ⁡ q ( Y ) = ∑ l − Y l log ⁡ 1 1 + exp ⁡ ( w T x ) − ( 1 − Y l ) log ⁡ exp ⁡ ( w T x ) 1 + exp ⁡ ( w T x ) \begin{aligned} D_{KL}(p(Y)||q(Y))&=\sum_Yp(Y)\log\frac{p(Y)}{q(Y)}\\ &=\sum_Yp(Y)\log\frac1{q(Y)}-\sum_Yp(Y)\log\frac1{p(Y)}\\ &=-\sum_Yp(Y)\log q(Y)\\ &=\sum_l-Y^l\log\frac1{1+\exp(w^Tx)}-(1-Y^l)\log\frac{\exp(w^Tx)}{1+\exp(w^Tx)} \end{aligned} DKL(p(Y)∣∣q(Y))=Yp(Y)logq(Y)p(Y)=Yp(Y)logq(Y)1Yp(Y)logp(Y)1=Yp(Y)logq(Y)=lYllog1+exp(wTx)1(1Yl)log1+exp(wTx)exp(wTx)
这便是逻辑回归的损失函数。

哈工大机器学习复习笔记(一)
哈工大机器学习复习笔记(二)
哈工大机器学习复习笔记(三)
哈工大机器学习复习笔记(四)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/196774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM结构 类加载

类加载 类加载子系统 类加载器子系统负责从文件系统或者网络中加载class文件。classLoadr只负责class文件的加载&#xff0c;至于它是否可以运行&#xff0c;则由Exception Engine&#xff08;执行引擎&#xff09;决定。加载类的信息存放于一块成为方法区的内存空间 class fi…

【GPLT 二阶题目集】L2-007 家庭房产

给定每个人的家庭成员和其自己名下的房产&#xff0c;请你统计出每个家庭的人口数、人均房产面积及房产套数。 输入格式&#xff1a; 输入第一行给出一个正整数N&#xff08;≤1000&#xff09;&#xff0c;随后N行&#xff0c;每行按下列格式给出一个人的房产&#xff1a; 编号…

Java创建线程的七种方法,全网最全面总结~

目录 前言 一、继承Thread&#xff0c;重写run方法 二、实现Runnable接口&#xff0c;重写run方法 三、使用匿名内部类创建 Thread 子类对象 四、使用匿名内部类&#xff0c;实现Runnable接口 五、lambda表达式 六、实现Callable接口 七、使用线程池创建线程 前言 属于基…

末端工具重力辨识

辨识工具重力 法一&#xff1a;6点标定 已知&#xff0c;工件重力在世界坐标系的大小为{0,0,−G}\{0,0,-G\}{0,0,−G},假设工件重心在工具坐标系下的坐标为 {Lx,Ly,Lz}\{L_x,L_y,L_z\}{Lx​,Ly​,Lz​}&#xff0c;重力在工件的三个坐标轴分量为 {Gx,Gy,Gz}\{G_x,G_y,G_z\}{G…

Docker安装MySQL8数据库

&#x1f388; 作者&#xff1a;互联网-小啊宇 &#x1f388; 简介&#xff1a; CSDN 运维领域创作者、阿里云专家博主。目前从事 Kubernetes运维相关工作&#xff0c;擅长Linux系统运维、开源监控软件维护、Kubernetes容器技术、CI/CD持续集成、自动化运维、开源软件部署维护…

为什么要拒绝嵌套代码?

linux 内核的最早作者 linus torvalds 在 linux 内核样式指南 第一节中提到&#xff1a; if you need more than 3 levels of indentation, you’re screwed anyway, and should fix your program. 如果你需要超过3级的缩进&#xff0c;你无论如何都搞砸了&#xff0c;应该修复…

ABBYY15免费照片识别文字识别软件

照片识别文字的软件有哪些&#xff1f;在日常的工作的时候&#xff0c;小伙伴们是不是经常会借助拍摄照片记录一些比较重要的事情或者是一些比较重要的笔记&#xff0c;等回头空闲出来的时候在去整理&#xff0c;那么这时候&#xff0c;如果我们运用好图片识别文字这项技术&…

线性代数篇

主线为花书第二章-线性代数&#xff0c;但其上面一些表述属实费解&#xff0c;于是参考B站3Blue1Brown线性代数和B站同济子豪兄的视频讲解。 先放一句3B1B的话共勉&#xff0c;伙计们不要被数学公式吓到&#xff0c;慢慢钻研&#xff0c;慢慢推肯定能学懂。线性代数这一部分相信…

cannot redeclare block-scoped variable

使用 Vue3.0 的时在模块类中声明方法的时候抛出了如下的异常:cannot redeclare block-scoped variable解决办法检查是否集成了 Vetur 插件,若存在禁用或卸载即可,该插件Vue3.0 的时候会冲突;Vue3.0 集成如下两款即可:名称: TypeScript Vue Plugin (Volar)ID: Vue.vscode-typesc…

Qt 自定义控件 带UI 不带 UI

一般自定义控件原因 有时Qt 现有控件不能满足我们的开发需求&#xff0c;这时候就需要我们进行自定义控件的使用&#xff0c;自定义控件,这大大提高了设计UI的通用性,程序利用&#xff0c;封装&#xff1b; Part1 easy one 继续 Lab 自定义Label控件&#xff1a;文本太长省略…

机械设备管理系统如何帮助企业做好成本核算管理?

随着多元化市场经济的深入发展&#xff0c;机械设备制造企业面临的竞争压力也越来越大&#xff0c;企业要想在激烈的市场环境中生存下去&#xff0c;就得不断提高竞争力。企业提高自身竞争能力最为重要一个途径便是不断提高企业的成本核算及管控能力&#xff0c;降低企业经营成…

java使用导出百万级别数据

用过POI的人都知道&#xff0c;在POI以前的版本中并不支持大数据量的处理&#xff0c;如果数据量过多还会常报OOM错误&#xff0c; 这时候调整JVM的配置参数也不是一个好对策&#xff08;注&#xff1a;jdk在32位系统中支持的内存不能超过2个G&#xff0c;而在64位中没有限制&a…

栈、堆、全局区/静态存储区、常量区、代码段、到底是什么?

一、程序运行内存分布图 我们知道一个由我们编写好的程序&#xff0c;运行时&#xff0c;我们的程序中写的代码&#xff0c;定义的变量&#xff0c;写的函数、for 循环等等&#xff0c;这些运行时都分布在内存中的哪里吗&#xff1f; 一下是一个程序运行时 内存的各个区域的分…

C语言字符串指针(指向字符串的指针)详解

C语言中没有特定的字符串类型&#xff0c;我们通常是将字符串放在一个字符数组中&#xff0c;这里演示一下&#xff1a;#include<stdio.h> #include<string.h>intmain(){ char str[]"http://csdn.net"; int len strlen(str), i; //直接输出字符串 printf…

一套完全开源,支持多租户,界面配置单点的后端框架JVS,赶紧收藏

今天推荐的这个项目是「JVS数据全家桶中的 JVS微服务框架」—— 是一个免费开源的中后台模版&#xff0c;使用了最新的 vuespring cloud 主流技术开发&#xff0c;开箱即用的中后台前端解决方案&#xff0c;可以直接商用&#xff0c;并且这个脚手架上做了很多商业上的扩展&…

day19 二叉树 | 654、最大二叉树 617、合并二叉树 700、二叉搜索树中的搜索 98、验证二叉搜索树

题目 654、最大二叉树 给定一个不含重复元素的整数数组。一个以此数组构建的最大二叉树定义如下&#xff1a; 二叉树的根是数组中的最大元素。左子树是通过数组中最大值左边部分构造出的最大二叉树。右子树是通过数组中最大值右边部分构造出的最大二叉树。 通过给定的数组构…

数据中心转型利润中心:数据如何赋能零售行业营销升级?

通过大数据来提升营销效果已经是零售行业不同业态都绕不过去的话题。以往&#xff0c;市场团队在进行投放时需要依靠营销团队和销售团队的经验来判断&#xff0c;这样的营销策略较为粗放&#xff0c;对用户的感知也不精准&#xff0c;一般都是在海量投放后被动的等待营销反馈。…

C++代码优化(2):条款5~12

"然后自然老去吧&#xff0c;别再依依惜别了"条款5:了解C默默编写并调用了哪些函数(1)小试牛刀地回顾C编译器为类提供的默认函数很多人知道是有6个的。默认构造、拷贝构造、赋值重载、析构函数、重载取地址运算符&#xff0c;但是在C11更新后&#xff0c;又为类对象增…

软件测试项目实战,我们拿到项目第一步应该怎么做【附过程文档】

对于从事软件研发的组织来说&#xff0c;工作类型至少包括项目管理、产品设计、编码、测试、质量保证和软件配置管理&#xff0c;以及其它人员&#xff0c;如文档编制人员和美工人员/系统硬件管理人员等。根据职能需要&#xff0c;可以以半独立方式进行部门和项目的矩阵管理&am…

Let’s Encrypt共建安全的互联网

导读最近关于沃通和 StartCom 这两家 CA 公司的消息让人们再次关注到了网络隐私和安全的问题。随着 Mozilla、苹果和谷歌对这两家 CA 公司处罚落定&#xff0c;很多使用这两家 CA 所签发证书的网站纷纷寻求新的证书签发商。这里面固然有不少可信赖的 CA 公司可以提供服务&#…