统计学习与方法实战——统计学习方法概论

news2024/9/20 18:44:58

统计学习方法概论题

  • 统计学习方法概论
    • 实现统计学习方法的步骤
    • 统计学习方法三要素
      • 模型
      • 策略
      • 损失函数与风险函数
        • 定义
      • 常用损失函数
        • 经验风险最小化(ERM)与结构风险最小化(SRM)
    • 模型评估与模型选择
      • 过拟合与模型选择
    • 正则化与交叉验证
    • 泛化能力
    • 生成模型与判别模型
      • 生成方法
      • 判别方法
    • 最小二乘法的实现
    • 伯努利模型
      • 习题1.1
      • 解法一:求最大后验估计
      • 补充知识:Beta分布
      • 解法二:求后验概率分布的期望
      • 习题1.2

统计学习方法概论

实现统计学习方法的步骤

统计学习方法三要素:模型,策略,算法

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优的模型
  6. 利用学习的最优模型对新数据进行预测或分析

统计学习方法三要素

模型

在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数
(公式粘贴不上来,有小伙伴知道怎么导入的求告知)
在这里插入图片描述

策略

损失函数与风险函数

定义

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

  1. 损失函数或代价函数
  • 损失函数定义为给定输入 X X X预测值 f ( X ) f(X) f(X)真实值 Y Y Y之间的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))
  1. 风险函数或期望损失这个和模型的泛化误差的形式是一样的
  • R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y )   d x d y R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y Rexp(f)=Ep[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy
  • 模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)平均意义下的损失(期望损失),但是因为 P ( X , Y ) P(X,Y) P(X,Y)是未知的,所以前面的用词是期望,以及平均意义下的。这个表示其实就是损失的均值,反映了对整个数据的预测效果的好坏
  1. 经验风险经验损失
  • R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i)) Remp(f)=N1i=1NL(yi,f(xi))
  • 模型 f f f关于训练样本集的平均损失,根据大数定律,当样本容量N趋于无穷大时,经验风险趋于期望风险
  1. *结构风险
  • R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)
  • J ( f ) J(f) J(f)为模型复杂度, λ ⩾ 0 \lambda \geqslant 0 λ0是系数,用以权衡经验风险和模型复杂度。

常用损失函数

理论上 ,损失函数数值越小,模型就越好,需要与过拟合相区别!
L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))

  1. 0-1损失
    L = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L=\begin{cases}1, Y \neq f(X) \\0, Y=f(X) \end{cases} L={1,Y=f(X)0,Y=f(X)
  2. 平方损失
    L = ( Y − f ( X ) ) 2 L=(Y-f(X))^2 L=(Yf(X))2
  3. 绝对损失
    L = ∣ Y − f ( X ) ∣ L=|Y-f(X)| L=Yf(X)
    L ( Y , P ( Y ∣ X ) ) L(Y,P(Y|X)) L(Y,P(YX))
  4. 对数损失
    这里 P ( Y ∣ X ) ⩽ 1 P(Y|X)\leqslant 1 P(YX)1,对应的对数是负值,所以对数损失中包含一个负号,为什么不是绝对值?因为肯定是负的。
    L = − log ⁡ P ( Y ∣ X ) L=-\log P(Y|X) L=logP(YX)
经验风险最小化(ERM)与结构风险最小化(SRM)
  1. 极大似然估计是经验风险最小化的一个例子
    当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
  2. 贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子
    当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计

模型评估与模型选择

训练误差和测试误差是模型关于数据集的平均损失。
备注:统计学习方法具体采用的损失函数未必是评估时使用的损失函数。

过拟合与模型选择

例子:
训练数据 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\{(x_1, y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}

模型

f M ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w j x j f_M(x,w)=w_0+w_1x+w_2x^2+\cdots+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j fM(x,w)=w0+w1x+w2x2++wMxM=j=0Mwjxj

经验风险最小化策略下

L ( w ) = 1 2 ∑ i = 1 N ( f ( x i , w ) − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N(f(x_i,w)-y_i)^2 L(w)=21i=1N(f(xi,w)yi)2

将模型和训练数据带入到上式得到

L ( w ) = 1 2 ∑ i = 1 N ( ∑ j = 0 M w j x i j − y i ) 2 = 1 2 ∑ i = 1 N ( w ⋅ x i − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N\left(\sum\limits_{j=0}^Mw_jx_i^j-y_i\right)^2=\frac{1}{2}\sum\limits_{i=1}^N(w\cdot x_i-y_i)^2 L(w)=21i=1N(j=0Mwjxijyi)2=21i=1N(wxiyi)2

这个问题要求 w = ( w 0 ∗ , w 1 ∗ , ⋯   , w M ∗ ) w=(w_0^*,w_1^*,\cdots,w_M^*) w=(w0,w1,,wM)

w w w求偏导令其为零,得到一系列方程,求解可以用梯度下降或者矩阵分解。

求解线性方程组 A x = b Ax=b Ax=b,可以表示为 x = A / b x=A/b x=A/b,问题展开之后可以涉及到矩阵分解

正则化与交叉验证

  1. 正则化
    模型选择的典型方法是正则化
  2. 交叉验证
    另一种常用的模型选择方法是交叉验证
    • 简单
    • S折(K折, K-Fold)[^1]
    • 留一法

泛化能力

  • 现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力

  • 统计学习理论试图从理论上对学习方法的泛化能力进行分析

  • 学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的, 简称为泛化误差上界(generalization error bound)

    这本书里面讨论的不多,在CH08里面有讨论提升方法的误差分析, 提到 A d a B o o s t AdaBoost AdaBoost不需要知道下界 γ \gamma γ。在CH02中讨论算法的收敛性的时候有提到误分类次数的上界.

注意泛化误差的定义,书中有说事实上,泛化误差就是所学习到的模型的期望风险

生成模型与判别模型

监督学习方法:可分为生成方法(generative approach)与判别方法(discriminative approach)

生成方法

  • 可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
  • 收敛速度快, 当样本容量增加时, 学到的模型可以更快收敛到真实模型
  • 当存在隐变量时仍可以用

判别方法

  • 直接学习条件概率 P ( Y ∣ X ) P(Y|X) P(YX)或者决策函数 f ( X ) f(X) f(X)
  • 直接面对预测, 往往学习准确率更高
  • 可以对数据进行各种程度的抽象, 定义特征并使用特征, 可以简化学习问题

总结思路:
在这里插入图片描述

最小二乘法的实现

import numpy as np
from scipy.optimize import leastsq
import matplotlib.pyplot as plt

# 目标函数
def real_func(x):
    return np.sin(2*np.pi*x)

# 多项式
def fit_func(p, x):
    f = np.poly1d(p)
    return f(x)

# 残差
def residuals_func(p, x, y):
    ret = fit_func(p, x) - y #注意此处没有平方
    return ret

regularization = 0.0001

#正则化之后的残差
def residuals_func_regularization(p, x, y):
    ret = fit_func(p, x) - y
    ret = np.append(ret, np.sqrt(0.5*regularization*np.square(p))) # L2范数作为正则化项
    return ret


# 十个点'
x = np.linspace(0, 1, 10)
x_points = np.linspace(0, 1, 1000)
# 加上正态分布噪音的目标函数的值
y_ = real_func(x)
y = [np.random.normal(0, 0.1) + y1 for y1 in y_]

index = 0
plt.figure(figsize=(15, 8))

def fitting(M=0):
    """
    M    为 多项式的次数
    """
    # 随机初始化多项式参数
    p_init = np.random.rand(M + 1)
    # 最小二乘法
    p_lsq = leastsq(residuals_func, p_init, args=(x, y))
    #p_lsq = leastsq(residuals_func_regularization, p_init, args=(x, y)) #加入正则化
    print('Fitting Parameters:', p_lsq[0])

    # 可视化
    plt.subplot(141 + index)
    plt.plot(x_points, real_func(x_points), label='real')
    plt.plot(x_points, fit_func(p_lsq[0], x_points), label='fitted curve')
    plt.plot(x, y, 'bo', label='noise')
    plt.legend()
    return p_lsq
for i in [0, 1, 3, 9]:
    lsq_0 = fitting(i)
    index += 1
plt.subplots_adjust(top=0.92, bottom=0.08, left=0.10, right=0.95, hspace=0.25,
                        wspace=0.35) #调整子图间距
plt.savefig("result.jpg")
plt.show()

在这里插入图片描述

伯努利模型

习题1.1

  1. 根据题意:伯努利模型是定义在取值为0与1的随机变量上的概率分布。
    对于随机变量XX,则有:
    P ( X = 1 ) = p P ( X = 0 ) = 1 − p \begin{gathered} P(X=1)=p \\ P(X=0)=1-p \end{gathered} P(X=1)=pP(X=0)=1p

    其中,pp为随机变量XX取值为1的概率,1-p1−p则为取0的概率。
    由于随机变量XX只有0和1两个值,XX的概率分布函数,即伯努利模型可写为:
    P p ( X = x ) = p x ( 1 − p ) ( 1 − x ) , 0 ⩽ p ⩽ 1 P_{p}(X=x)=p^{x}(1-p)^{(1-x)}, \quad 0 \leqslant p \leqslant 1 Pp(X=x)=px(1p)(1x),0p1
    则伯努利模型的假设空间为:
    F = { P ∣ P p ( X ) = p x ( 1 − p ) ( 1 − x ) , p ∈ [ 0 , 1 ] } \mathcal{F}=\left\{P \mid P_{p}(X)=p^{x}(1-p)^{(1-x)}, p \in[0,1]\right\} F={PPp(X)=px(1p)(1x),p[0,1]}

  2. 伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素
    (1). 极大似然估计
      模型:伯努利模型
      策略:经验风险最小化。极大似然估计,等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化。
      算法:极大化似然
    arg ⁡ max ⁡ p L ( p ∣ X ) = arg ⁡ max ⁡ p P ( X ∣ p ) \underset{p}{\arg \max } L(p \mid X)=\underset{p}{\arg \max } P(X \mid p) pargmaxL(pX)=pargmaxP(Xp)
    (2)贝叶斯估计
      模型:伯努利模型
      策略:结构风险最小化。贝叶斯估计中的最大后验概率估计,等价于当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化。
      算法:最大化后验概率:
       arg ⁡ max ⁡ p π ( p ∣ X ) = arg ⁡ max ⁡ p P ( X ∣ p ) π ( p ) ∫ P ( X ∣ p ) π ( p ) d p \underset{p}{\arg \max } \pi(p \mid X)=\underset{p}{\arg \max } \frac{P(X \mid p) \pi(p)}{\int P(X \mid p) \pi(p) d p} pargmaxπ(pX)=pargmaxP(Xp)π(p)dpP(Xp)π(p)
    (3) 伯努利模型的极大似然估计
    极大似然估计的一般步骤:

    1. 写出随机变量的概率分布函数;
    2. 写出似然函数;
    3. 对似然函数取对数,得到对数似然函数,并进行化简;
    4. 对参数进行求导,并令导数等于0;
    5. 求解似然函数方程,得到参数的值。
      对于伯努利模型nn次独立的数据生成结果,其中kk次的结果为1,可得似然函数为:
      L ( p ∣ X ) = P ( X ∣ p ) = ∏ i = 1 n P ( x ( i ) ∣ p ) = p k ( 1 − p ) n − k \begin{aligned} L(p \mid X) &=P(X \mid p) \\ &=\prod_{i=1}^{n} P\left(x^{(i)} \mid p\right) \\ &=p^{k}(1-p)^{n-k} \end{aligned} L(pX)=P(Xp)=i=1nP(x(i)p)=pk(1p)nk
      对似然函数取对数,得到对数似然函数为:
      log ⁡ L ( p ∣ X ) = log ⁡ p k ( 1 − p ) n − k = log ⁡ ( p k ) + log ⁡ ( ( 1 − p ) n − k ) = k log ⁡ p + ( n − k ) log ⁡ ( 1 − p ) \begin{aligned} \log L(p \mid X) &=\log p^{k}(1-p)^{n-k} \\ &=\log \left(p^{k}\right)+\log \left((1-p)^{n-k}\right) \\ &=k \log p+(n-k) \log (1-p) \end{aligned} logL(pX)=logpk(1p)nk=log(pk)+log((1p)nk)=klogp+(nk)log(1p)
      求解参数p:
      p ^ = arg ⁡ max ⁡ p L ( p ∣ X ) = arg ⁡ max ⁡ p [ k log ⁡ p + ( n − k ) log ⁡ ( 1 − p ) ] \begin{aligned} \hat{p} &=\underset{p}{\arg \max } L(p \mid X) \\ &=\underset{p}{\arg \max }[k \log p+(n-k) \log (1-p)] \end{aligned} p^=pargmaxL(pX)=pargmax[klogp+(nk)log(1p)]
      对参数p求导,并求解导数为0时的p值:
      ∂ log ⁡ L ( p ) ∂ p = k p − n − k 1 − p = k ( 1 − p ) − p ( n − k ) p ( 1 − p ) = k − n p p ( 1 − p ) \begin{aligned} \frac{\partial \log L(p)}{\partial p} &=\frac{k}{p}-\frac{n-k}{1-p} \\ &=\frac{k(1-p)-p(n-k)}{p(1-p)} \\ &=\frac{k-n p}{p(1-p)} \end{aligned} plogL(p)=pk1pnk=p(1p)k(1p)p(nk)=p(1p)knp
       令 ∂ log ⁡ L ( p ) ∂ p = 0 \frac{\partial \log L(p)}{\partial p}=0 plogL(p)=0从上式可得 k − n p = 0 k-n p=0 knp=0 ,即 p = k n p=\frac{k}{n} p=nk
       所以 P ( X = 1 ) = k n P(X=1)=\frac{k}{n} P(X=1)=nk

第4步:伯努利模型的贝叶斯估计

解法一:求最大后验估计

  1. 确定参数\thetaθ的先验概率 p ( θ ) p(\theta) p(θ)
  2. 根据样本集 D = { x 1 , x 2 , … , x n } D=\left\{x_{1}, x_{2}, \ldots, x_{n}\right\} D={x1,x2,,xn}计算似然函数 P ( D ∣ θ ) : P ( D ∣ θ ) = ∏ i = 1 n P ( x n ∣ D ) P(D \mid \theta): P(D \mid \theta)=\prod_{i=1}^{n} P\left(x_{n} \mid D\right) P(Dθ):P(Dθ)=i=1nP(xnD)
  3. 利用贝叶斯公式,写出后验概率最大化公式:
    arg ⁡ max ⁡ θ P ( θ ∣ D ) = arg ⁡ max ⁡ θ P ( D ∣ θ ) P ( θ ) ∫ Θ P ( D ∣ θ ) P ( θ ) d θ = arg ⁡ max ⁡ θ P ( D ∣ θ ) P ( θ ) \underset{\theta}{\arg \max } P(\theta \mid D)=\underset{\theta}{\arg \max } \frac{P(D \mid \theta) P(\theta)}{\int_{\Theta} P(D \mid \theta) P(\theta) d \theta}=\underset{\theta}{\arg \max } P(D \mid \theta) P(\theta) θargmaxP(θD)=θargmaxΘP(Dθ)P(θ)dθP(Dθ)P(θ)=θargmaxP(Dθ)P(θ)
  4. 利用求导,得到后验概率最大时的参数取值,假设pp的先验分布\pi§π§为均匀分布,则最大后验概率估计等价于极大似然估计。
      一般在贝叶斯估计中,如果后验分布与先验分布属于同一分布簇(共轭分布),则称此先验分布为似然函数的共轭先验。
    选取共轭先验有如下好处,例如:
    (1)符合直观,先验分布和后验分布应该是相同形式的;
    (2)可以给出后验分布的解析形式;
    (3)可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
    伯努利分布的先验分布为Beta分布,则此处假设先验分布\pi§π§为Beta分布。

补充知识:Beta分布

Beta 分布(Beta distribution),是指一组定义在{\displaystyle (0,1)}(0,1)区间的连续概率分布,亦称Β分布。有两个参数 α \alpha α, β \beta β>0, β \beta β>0。
概率密度函数:
f ( x ; α , β ) = 1   B ( α , β ) x ( α − 1 ) ( 1 − x ) β − 1 f(x ; \alpha, \beta)=\frac{1}{\mathrm{~B}(\alpha, \beta)} x^{(\alpha-1)}(1-x)^{\beta-1} f(x;α,β)= B(α,β)1x(α1)(1x)β1
其中B ( α , β ) (\alpha, \beta) (α,β) 是Beta函数,亦称 B \mathrm{B} B 函数。 B ( α , β ) = ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x \mathrm{B}(\alpha, \beta)=\int_{0}^{1} x^{\alpha-1}(1-x)^{\beta-1} d x B(α,β)=01xα1(1x)β1dx
随机变量 X X X 服从参数为 α , β \alpha, \beta α,β 的Beta分布记作: X ∼ Be ⁡ ( α , β ) X \sim \operatorname{Be}(\alpha, \beta) XBe(α,β) 期望: E ( X ) = α α + β \mathrm{E}(X)=\frac{\alpha}{\alpha+\beta} E(X)=α+βα
与均匀分布关系:当 α = 1 , β = 1 \alpha=1, \beta=1 α=1,β=1 时, Beta分布就是一个均匀分布
p的先验分布为:
π ( p ) = 1 B ( α , β ) p ( α − 1 ) ( 1 − p ) β − 1 \pi(p)=\frac{1}{B(\alpha, \beta)} p^{(\alpha-1)}(1-p)^{\beta-1} π(p)=B(α,β)1p(α1)(1p)β1
似然函数与第3步相同:
L ( p ∣ X ) = P ( X ∣ p ) = ∏ i = 1 n P ( x ( i ) ∣ p ) = p k ( 1 − p ) n − k \begin{aligned} L(p \mid X) &=P(X \mid p) \\ &=\prod_{i=1}^{n} P\left(x^{(i)} \mid p\right) \\ &=p^{k}(1-p)^{n-k} \end{aligned} L(pX)=P(Xp)=i=1nP(x(i)p)=pk(1p)nk
最大化后验概率,求解参数p:
p ^ = arg ⁡ max ⁡ p P ( X ∣ p ) π ( p ) ∫ P ( X ∣ p ) π ( p ) d p = arg ⁡ max ⁡ p P ( X ∣ p ) π ( p ) = arg ⁡ max ⁡ p p k ( 1 − p ) n − k 1 B ( α , β ) p ( α − 1 ) ( 1 − p ) β − 1 = arg ⁡ max ⁡ p 1 B ( α , β ) p k + α − 1 ( 1 − p ) n − k + β − 1 \begin{aligned} \hat{p} &=\underset{p}{\arg \max } \frac{P(X \mid p) \pi(p)}{\int P(X \mid p) \pi(p) d p} \\ &=\underset{p}{\arg \max } P(X \mid p) \pi(p) \\ &=\underset{p}{\arg \max } p^{k}(1-p)^{n-k} \frac{1}{B(\alpha, \beta)} p^{(\alpha-1)}(1-p)^{\beta-1} \\ &=\underset{p}{\arg \max } \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1}(1-p)^{n-k+\beta-1} \end{aligned} p^=pargmaxP(Xp)π(p)dpP(Xp)π(p)=pargmaxP(Xp)π(p)=pargmaxpk(1p)nkB(α,β)1p(α1)(1p)β1=pargmaxB(α,β)1pk+α1(1p)nk+β1
g ( p ) = 1 B ( α , β ) p k + α − 1 ( 1 − p ) n − k + β − 1 g(p)=\frac{1}{B(\alpha, \beta)} p^{k+\alpha-1}(1-p)^{n-k+\beta-1} g(p)=B(α,β)1pk+α1(1p)nk+β1 ,对函数 g ( p ) g(p) g(p) 先取对数,再对 p p p 求导,得
∂ log ⁡ g ( p ) ∂ p = 1 B ( α , β ) ( k + α − 1 p − n − k + β − 1 1 − p ) \frac{\partial \log g(p)}{\partial p}=\frac{1}{B(\alpha, \beta)}\left(\frac{k+\alpha-1}{p}-\frac{n-k+\beta-1}{1-p}\right) plogg(p)=B(α,β)1(pk+α11pnk+β1)
令上式等于 0 ,得 p ^ = k + α − 1 n + α + β − 2 \hat{p}=\frac{k+\alpha-1}{n+\alpha+\beta-2} p^=n+α+β2k+α1 ,其中 α , β \alpha, \beta α,β 为beta分布的参数。
所以最大后验概率估计得到 P ( X = 1 ) = k + α − 1 n + α + β − 2 P(X=1)=\frac{k+\alpha-1}{n+\alpha+\beta-2} P(X=1)=n+α+β2k+α1

解法二:求后验概率分布的期望

贝叶斯估计中的最大后验概率估计,得到的是模型参数\thetaθ这个随机变量的后验分布的众数,通常被认为是点估计。而贝叶斯方法的特点是使用分布来总结数据和得出推论,因此贝叶斯方法倾向于得到后验均值或中值,以及可信区间。
  贝叶斯估计,利用后验分布的期望(均值)作为参数的估计值的方法,前两步与最大后验概率估计相同,第3、4步如下
  3. 利用贝叶斯公式,求\thetaθ的后验概率: P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) ∫ Θ P ( D ∣ θ ) P ( θ ) d θ P(\theta \mid D)=\frac{P(D \mid \theta) P(\theta)}{\int_{\Theta} P(D \mid \theta) P(\theta) d \theta} P(θD)=ΘP(Dθ)P(θ)dθP(Dθ)P(θ)
  4.计算后验概率分布参数\thetaθ的期望,并求出贝叶斯估计值 θ ^ = ∫ Θ θ ⋅ P ( θ ∣ D ) d θ \hat{\theta}=\int_{\Theta} \theta \cdot P(\theta \mid D) d \theta θ^=ΘθP(θD)dθ
  已知似然函数和参数pp的先验分布,参数pp的后验分布为:
   P ( p ∣ X ) = P ( X ∣ p ) π ( p ) ∫ P ( X ∣ p ) π ( p ) d p = ∫ 1 B ( α , β ) p k + α − 1 ( 1 − p ) n − k + β − 1 ∫ 1 B ( α , β ) p k + α − 1 ( 1 − p ) n − k + β − 1 d p = p k + α − 1 ( 1 − p ) n − k + β − 1 ∫ p k + α − 1 ( 1 − p ) n − k + β − 1 d p = 1 B ( k + α , n − k + β ) p k + α − 1 ( 1 − p ) n − k + β − 1 ∼ Be ⁡ ( k + α , n − k + β ) \begin{aligned} P(p \mid X) &=\frac{P(X \mid p) \pi(p)}{\int P(X \mid p) \pi(p) d p} \\ &=\frac{\int \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1}(1-p)^{n-k+\beta-1}}{\int \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1}(1-p)^{n-k+\beta-1} d p} \\ &=\frac{p^{k+\alpha-1}(1-p)^{n-k+\beta-1}}{\int p^{k+\alpha-1}(1-p)^{n-k+\beta-1} d p} \\ &=\frac{1}{B(k+\alpha, n-k+\beta)} p^{k+\alpha-1}(1-p)^{n-k+\beta-1} \\ & \sim \operatorname{Be}(k+\alpha, n-k+\beta) \end{aligned} P(pX)=P(Xp)π(p)dpP(Xp)π(p)=B(α,β)1pk+α1(1p)nk+β1dpB(α,β)1pk+α1(1p)nk+β1=pk+α1(1p)nk+β1dppk+α1(1p)nk+β1=B(k+α,nk+β)1pk+α1(1p)nk+β1Be(k+α,nk+β)
后验概率分布的期望:
E p ( p ∣ X ) = E p ( Be ⁡ ( k + α , n − k + β ) ) = k + α ( k + α ) + ( n − k + β ) = k + α n + α + β \begin{aligned} E_{p}(p \mid X) &=E_{p}(\operatorname{Be}(k+\alpha, n-k+\beta)) \\ &=\frac{k+\alpha}{(k+\alpha)+(n-k+\beta)} \\ &=\frac{k+\alpha}{n+\alpha+\beta} \end{aligned} Ep(pX)=Ep(Be(k+α,nk+β))=(k+α)+(nk+β)k+α=n+α+βk+α
则以参数的后验概率分布的期望作为贝叶斯估计的参数值:
p ^ = k + α n + α + β \hat{p}=\frac{k+\alpha}{n+\alpha+\beta} p^=n+α+βk+α
所以贝叶斯估计得到 P ( X = 1 ) = k + α n + α + β P(X=1)=\frac{k+\alpha}{n+\alpha+\beta} P(X=1)=n+α+βk+α

习题1.2

通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
解答思路:

  1. 根据经验风险最小化定义,写出目标函数;
  2. 根据对数损失函数,对目标函数进行整理;
  3. 根据似然函数定义和极大似然估计的一般步骤(计算时需要取对数),可得到结论。
    解答步㮛:
    假设楻型的条件概率分布是 P θ ( Y ∣ X ) P_{\theta}(Y \mid X) Pθ(YX) ,样本集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\} D={(x1,y1),(x2,y2),,(xN,yN)} ,根据书中第 17 页公式 ( 1.12 ) (1.12) (1.12) ,对数损失函数为:
    L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y \mid X))=-\log P(Y \mid X) L(Y,P(YX))=logP(YX)
    根据书中第 18 页公式(1.15),按昭经验风险最小化求最优模型就是求解最优化问题:
    min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) fFminN1i=1NL(yi,f(xi))
    结合上述两个式子,可得经验风险最小化函数:
    arg ⁡ min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) = arg ⁡ min ⁡ f ∈ F 1 N ∑ D [ − log ⁡ P ( Y ∣ X ) ] = arg ⁡ max ⁡ f ∈ F 1 N ∑ D log ⁡ P ( Y ∣ X ) = arg ⁡ max ⁡ f ∈ F 1 N log ⁡ ∏ D P ( Y ∣ X ) = 1 N arg ⁡ max ⁡ f ∈ F log ⁡ ∏ D P ( Y ∣ X ) \begin{aligned} \underset{f \in \mathcal{F}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) &=\underset{f \in \mathcal{F}}{\arg \min } \frac{1}{N} \sum_{D}[-\log P(Y \mid X)] \\ &=\underset{f \in \mathcal{F}}{\arg \max } \frac{1}{N} \sum_{D} \log P(Y \mid X) \\ &=\underset{f \in \mathcal{F}}{\arg \max } \frac{1}{N} \log \prod_{D} P(Y \mid X) \\ &=\frac{1}{N} \underset{f \in \mathcal{F}}{\arg \max } \log \prod_{D} P(Y \mid X) \end{aligned} fFargminN1i=1NL(yi,f(xi))=fFargminN1D[logP(YX)]=fFargmaxN1DlogP(YX)=fFargmaxN1logDP(YX)=N1fFargmaxlogDP(YX)
    根据㕽然函数定义: L ( θ ) = ∏ D P θ ( Y ∣ X ) L(\theta)=\prod_{D} P_{\theta}(Y \mid X) L(θ)=DPθ(YX) ,以及极大似然估计的一般步骤,可得:
    arg ⁡ min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) = 1 N arg ⁡ max ⁡ f ∈ F log ⁡ L ( θ ) \underset{f \in \mathcal{F}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)=\frac{1}{N} \underset{f \in \mathcal{F}}{\arg \max } \log L(\theta) fFargminN1i=1NL(yi,f(xi))=N1fFargmaxlogL(θ)
    即经验风险最小化等价于极大似然估计,得证。

参考: DataWhale.组队学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2103422.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

制定精益生产现场管理和改善计划时,企业需要考虑哪些因素

在制定精益生产现场管理与改善计划时,企业需综合考虑多个维度,以确保计划既能高效实施,又能持续推动生产流程的优化与效率提升。以下是深圳天行健企业管理咨询公司对这一过程中需重点考虑因素的详细阐述: 一、企业现状 1. 生产流…

Datawhale X李宏毅苹果书进阶 AI夏今营 task03学习笔记

batch normalization(批次标准化) batch normalization--Tarining 直接改error surface的landscape,把山“铲平”有时候尽管error surface是个“碗”,都不见得好train。如下图所示: w1,w2对loss的斜率差别很大,w1方…

解锁SQL无限可能 | 利用SQL实现13位条码检测算法

目录 0 需求分析 1 数据准备 2 问题分析 3 小结 数字化建设通关指南专栏原价99,现在活动价39.9,按照阶梯式增长,直到恢复原价 0 需求分析 算法:给定一个n位的数字字符串,取出这个条码字符串的前n-1位数字&…

Elasticsearch数据写入过程

1. 写入请求 当一个写入请求(如 Index、Update 或 Delete 请求)通过REST API发送到Elasticsearch时,通常包含一个文档的内容,以及该文档的索引和ID。 2. 请求路由 协调节点:首先,请求会到达一个协调节点…

Linux:目录及文件管理

目录及文件管理 cd的命令使用 . 当前目录 .. 父目录(上一层) ~ 表示家目录 家目录:专门存放用户个性化信息的目录 ~user:用户user的家目录 /root: 是Linux管理员的家目录 /home: 存放所有普通用户的家目录]# cd ~root #去…

Leetcode面试经典150题-106.从中序和后序序列构造二叉树

解法都在代码里,不懂就留言或者私信 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNo…

作为HR如何解决薪资谈判的僵局

作为HR如何跟候选人谈薪资问题,特别候选人的期望值,和公司对岗位的设定范围存在不对等的情况下,HR和候选人的薪资谈判往往就陷入僵局。面对这种情况,是直接放弃,还是有努力的空间呢? 在面对薪资谈判僵局时…

基于tesseract实现文档OCR识别

导入环境 导入必要的库 numpy: 用于处理数值计算。 argparse: 用于处理命令行参数。 cv2: OpenCV库,用于图像处理。 import numpy as np import argparse import cv2设置命令行参数 ap argparse.ArgumentParser() ap.add_argument("-i", "--imag…

中国各省份-环境规制相关数据(2000-2022年)

环境规制,也称为环保政策和污染治理,是一系列由政府制定的旨在解决环境问题、保护生态环境和促进可持续发展的政策措施。这些措施包括法律法规、行政命令、经济激励和市场机制等,目的是约束和指导企业和个人行为,减少对环境的负面…

【吊打面试官系列-Redis面试题】Redis 的同步机制了解么?

大家好,我是锋哥。今天分享关于 【Redis 的同步机制了解么?】面试题,希望对大家有帮助; Redis 的同步机制了解么? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Redis 可以使用主从同步,从从同…

Linux运维--iptables防火墙命令以及端口号等详解(全)

Linux之iptable防火墙命令以及端口号等详解(全) 在Linux系统中,你可以使用firewalld和iptables来管理和设置防火墙规则。Firewalld是一个动态管理防火墙的工具,而iptables是一个更底层的工具,可以直接配置Linux内核的…

经典卷积神经网络 (CNN) 架构模型详解:LeNet、AlexNNet、GoogleNet、ResNet、DenseNet

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 👍感谢小伙伴们点赞、关注! 《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发…

文字转视频软件哪个好用?揭秘创意新工具

最近,我在筹备一个小型的个人项目,需要制作一系列的教学视频,但我对视频编辑一窍不通。就在我快要放弃的时候,我发现了一些神奇的工具,它们能自动把文字变成视频! 想知道自动生成视频的软件有哪些吗&#…

Docker 安装FileBeat、Elasticsearch及Kibana详细步骤

一、ELK简介 二、docker安装Elasticsearch 2.1 创建Docker网络 2.2 拉取镜像 2.3 创建挂载目录 2.4 添加配置文件 2.5 创建es容器 2.6 测试Elasticsearch是否安装成功 三、docker安装Logstash 3.1 拉取镜像 3.2 创建挂载目录 3.3 添加配置文件 3.4 创建Logstash容…

如何更新我的SSL证书到期日期?

续订SSL证书需要获取新证书来替换即将过期的证书。该过程可能略有不同,具体取决于Gworg获取证书的方法。以下是有关如何续订SSL证书的一般指南: 检查有效期: 在开始续订流程之前,请检查SSL证书的当前到期日期。您通常可以在SSL证…

【PyTorch】深入解析 `with torch.no_grad():` 的高效用法

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 引言一、with torch.no_grad(): 的作用二、with torch.no_grad(): 的原理三、with torch.no_grad(): 的高效用法3.1 模…

24 初识C++

目录 一、C概念 (一)C是什么 (二)C的历史 (三)C参考文档 二、第一个C程序 三、C的域 四、命名空间 namespace (一)namespace 的作用 (二)namespace 的…

如何从 SIM 卡恢复短信?这篇专业教程文章会帮到你

您是 Android 手机的忠实用户吗?您是否定期通过打电话、发送短信或在 WeChat 上聊天来与朋友和家人保持联系?如果你这样做,我相信你的手机上一定有很多短信,这些短信对于保存你与他人聊天的内容非常重要。您是否有这样的经验&…

碧桂园服务上海项目获评“2024年度上海市物业管理优秀示范项目”

近日,上海市物业管理行业协会发布《关于2024年度上海市物业管理优秀示范项目评定结果的公示》官方红头文件。文件对上海市393个物业管理优秀示范项目进行公示。 上海联源物业发展有限公司露香园项目、静鼎安邦府邸项目、佘山东郡项目和上海金晨物业经营管理有限公司…

mac 安装brew并配置国内源

​ 前置条件 - Xcode 命令行工具 一行代码安装Homebrew 添加到路径(PATH) - zsh shell为例 背景介绍 最近重装了我的MAC mini (m1 芯片), 很多软件都需要重新安装,因为后续还需要安装一些软件,所以想着安装个包管理软件 什么…