机器学习笔记之计算学习理论(二)PAC学习

news2024/11/19 17:26:12

机器学习笔记之计算学习理论——PAC学习

  • 引言
    • 回顾:霍夫丁不等式
    • 霍夫丁不等式的问题及其优化
    • PAC \text{PAC} PAC
    • 引出新问题——霍夫丁不等式无法通过直接比较获取最优假设函数
      • 问题的解决方法
      • 新方法对于霍夫丁不等式的约束证明
    • 总结

引言

上一节从霍夫丁不等式为切入点,介绍了样本平均值全样本期望,本节将继续介绍 PAC \text{PAC} PAC学习。

回顾:霍夫丁不等式

霍夫丁不等式 ( Hoeffding’s Inequality ) (\text{Hoeffding's Inequality}) (Hoeffding’s Inequality)可表示为如下形式:
P ( ∣ v − μ ∣ > ϵ ) ≤ 2 exp ⁡ ( − 2 ϵ 2 N ) \mathcal P(|v - \mu| > \epsilon) \leq 2 \exp(-2\epsilon^2N) P(vμ>ϵ)2exp(2ϵ2N)
其中 N N N表示数据集 D \mathcal D D内的样本数量; v v v μ \mu μ分别表示样本平均值全样本方差
其中 x 1 , x 2 , ⋯   , x p x_1,x_2,\cdots,x_p x1,x2,,xp是相互独立的随机变量;
{ v = 1 p ∑ i = 1 p x i μ = 1 p ∑ i = 1 p E [ x i ] \begin{cases} \begin{aligned} & v = \frac{1}{p} \sum_{i=1}^p x_i \\ & \mu = \frac{1}{p} \sum_{i=1}^p \mathbb E[x_i] \end{aligned} \end{cases} v=p1i=1pxiμ=p1i=1pE[xi]
其中 μ \mu μ数据集 D \mathcal D D所描述分布 D D D真实期望。也就是说,在分布 D D D客观存在的条件下,其期望 μ \mu μ也是一个客观存在的结果;而 v v v表示数据集 D \mathcal D D自身样本的均值(期望)结果。

样本数量 N N N增大时,数据集 D \mathcal D D所描述的分布越完整,越收敛于分布 D D D;从而均值 v v v越趋近于真实期望 μ \mu μ。最终使 v v v μ \mu μ之间差距大于设定边界 ϵ \epsilon ϵ的概率越小。而霍夫丁不等式使用具体公式对该思想进行描述。
关于‘霍夫丁不等式’的证明过程,推荐文章见下方链接。侵删。

再次观察霍夫丁不等式,当设定边界 ϵ \epsilon ϵ确定的条件下, ∣ v − μ ∣ > ϵ |v -\mu| > \epsilon vμ>ϵ这个事件(可理解为 D \mathcal D D D D D相差‘较大’,大于设定边界)发生的概率存在上界。也就是该概率必不超过 δ = 2 exp ⁡ ( − 2 ϵ 2 N ) \delta = 2\exp(-2\epsilon^2N) δ=2exp(2ϵ2N)

相反,也就是说,必然至少存在 1 − δ 1 -\delta 1δ的概率 ∣ v − μ ∣ ≤ ϵ |v - \mu| \leq \epsilon vμϵ δ \delta δ越小 D \mathcal D D D D D的差距越小,越符合任务期望的结果。

霍夫丁不等式的问题及其优化

基于数据集 D \mathcal D D归纳得到假设函数 h ( x ) h(x) h(x) δ \delta δ之间存在关联关系

  • δ \delta δ越小,说明函数 h ( x ) h(x) h(x)优秀;其越接近真实函数 G ( x ) \mathcal G(x) G(x)
  • 相反, δ \delta δ越大,说明函数 h ( x ) h(x) h(x)通过数据集 D \mathcal D D的预测分布与真实分布 D D D的差距较大,说明 h ( x ) h(x) h(x) D D D泛化能力较差

新的问题随之到来:

  • 通过假设函数 h ( x ) h(x) h(x)的预测分布表达样本平均数和全样本方差,无论 v v v还是 μ \mu μ,它们的表达结果都是不准确的——毕竟 h ( x ) h(x) h(x) G ( x ) \mathcal G(x) G(x)之间存在差距。那么两个不准确结果之间的差异自然没有意义。
    P { ∣ 1 N ∑ i = 1 N h [ x ( i ) ] − E x ( i ) ∼ D [ h ( x ( i ) ) ] ∣ > ϵ } ≤ 2 exp ⁡ ( − 2 ϵ 2 N ) \mathcal P \left\{\left|\frac{1}{N} \sum_{i=1}^N h[x^{(i)}] - \mathbb E_{x^{(i)} \sim D} \left[h(x^{(i)})\right]\right| > \epsilon \right\} \leq 2 \exp(-2\epsilon^2N) P{ N1i=1Nh[x(i)]Ex(i)D[h(x(i))] >ϵ}2exp(2ϵ2N)

换个思路思考,由于我们的目标是得到最接近 G ( x ) \mathcal G(x) G(x)的假设函数 h ( x ) h(x) h(x),那么直接针对 G ( x ) \mathcal G(x) G(x) h ( x ) h(x) h(x)之间的差距进行量化,去描述 ∣ v − μ ∣ |v - \mu| vμ

  • 数据集 D \mathcal D D就是从真实分布 D D D中采集的样本,自然会有如下结果:
    y ( i ) = G ( x ( i ) ) ( x ( i ) , y ( i ) ) ∈ D y^{(i)} = \mathcal G(x^{(i)}) \quad (x^{(i)},y^{(i)}) \in \mathcal D y(i)=G(x(i))(x(i),y(i))D
  • 此时 v v v不再被描述为样本均值,而是描述为假设函数 h ( x ) h(x) h(x) D \mathcal D D误差的均值
    由于 G ( x ( i ) ) = y ( i ) \mathcal G(x^{(i)}) = y^{(i)} G(x(i))=y(i),也可看作是 G ( x ) \mathcal G(x) G(x) h ( x ) h(x) h(x) D \mathcal D D上体现的差异的均值。
    v = E i n ( h ) = 1 N ∑ i = 1 N [ h ( x ( i ) ) ≠ y ( i ) ] v = \mathbb E_{in}(h) = \frac{1}{N} \sum_{i=1}^N \left[h(x^{(i)}) \neq y^{(i)}\right] v=Ein(h)=N1i=1N[h(x(i))=y(i)]
  • 同理, μ \mu μ被表示为基于 D D D所有样本条件下,函数 G ( x ) \mathcal G(x) G(x) h ( x ) h(x) h(x)在样本中体现差异的期望结果:
    μ = E o u t ( h ) = E x ( i ) ∼ D [ h ( x ( i ) ) ≠ G ( x ( i ) ) ] \mu = \mathbb E_{out}(h) = \mathbb E_{x^{(i)} \sim D} \left[h(x^{(i)}) \neq \mathcal G(x^{(i)})\right] μ=Eout(h)=Ex(i)D[h(x(i))=G(x(i))]
    从而得到的不等式:
    个人理解: E i n ( h ) \mathbb E_{in}(h) Ein(h) E o u t ( h ) \mathbb E_{out}(h) Eout(h)之间的区别就是样本量的大小,其余没有区别。只不过将预测划分‘不准确’(误差)作为衡量指标进行描述。
    P { ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ } ≤ 2 exp ⁡ ( − 2 ϵ 2 N ) \mathcal P \{|\mathbb E_{in}(h) - \mathbb E_{out}(h)| > \epsilon\} \leq 2\exp(-2\epsilon^2N) P{Ein(h)Eout(h)>ϵ}2exp(2ϵ2N)

此时我们发现,上述的不等式无论 E i n ( h ) \mathbb E_{in}(h) Ein(h)还是 E o u t ( h ) \mathbb E_{out}(h) Eout(h),都有一个参考系的支撑: G ( x ) \mathcal G(x) G(x)。并且由于数据集 D \mathcal D D是分布 D D D所描述全集的一个子集,那么必然有:如果通过优化假设函数 h ( x ) h(x) h(x),使得在数据集 D \mathcal D D中的误差 E i n ( h ) \mathbb E_{in}(h) Ein(h)减小,那么在全集内也必然使其误差 E o u t ( h ) \mathbb E_{out}(h) Eout(h)减小。 E o u t ( h ) \mathbb E_{out}(h) Eout(h)就是我们想要的结果。这就是 PAC \text{PAC} PAC机器学习理论框架

PAC \text{PAC} PAC

PAC(Probably Approximately Correct) \text{PAC(Probably Approximately Correct)} PAC(Probably Approximately Correct),也就是概率近似正确——它通过两个不确定性的组合来描述一个客观事实:

  • E i n ( h ) , E o u t ( h ) \mathbb E_{in}(h),\mathbb E_{out}(h) Ein(h),Eout(h)分别作为 D \mathcal D D和全集内与真实模型 G ( x ) \mathcal G(x) G(x)的误差,它们之间的近似关系误差参数 ϵ \epsilon ϵ描述:
    ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ⇔ E i n ( h ) ≈ E o u t ( h ) |\mathbb E_{in}(h) - \mathbb E_{out}(h)| > \epsilon \Leftrightarrow \mathbb E_{in}(h) \approx \mathbb E_{out}(h) Ein(h)Eout(h)>ϵEin(h)Eout(h)
  • 而这个近似关系的表达也是不确定的——使用概率的方式对这个近似关系本身的不确定性进行表达。随着数据集 D \mathcal D D的样本量 N N N的增加,对应概率结果不断减小:
    并且这个表达‘近似关系’的概率结果,我们并不能求出它的具体值,而仅仅是知道它的一个上界 δ \delta δ
    P ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ≤ δ \mathcal P(|\mathbb E_{in}(h) - \mathbb E_{out}(h)| > \epsilon) \leq \delta P(Ein(h)Eout(h)>ϵ)δ
    并且既然是‘概率值’,无论 δ \delta δ数值多小,它都存在发生的可能性。

引出新问题——霍夫丁不等式无法通过直接比较获取最优假设函数

继续观察 E i n ( h ) , E o u t ( h ) \mathbb E_{in}(h),\mathbb E_{out}(h) Ein(h),Eout(h),如果它们等于零意味着什么:根据公式, E i n ( h ) = 0 \mathbb E_{in}(h) = 0 Ein(h)=0自然意味着数据集 D \mathcal D D内的所有样本均被划分正确。即 h ( x ( i ) ) = y ( i ) , ( x ( i ) , y ( i ) ) ∈ D h(x^{(i)}) = y^{(i)},(x^{(i)},y^{(i)}) \in \mathcal D h(x(i))=y(i),(x(i),y(i))D;同理, E o u t ( h ) = 0 \mathbb E_{out}(h) = 0 Eout(h)=0意味着分布 D D D所描述全集的样本内,所有样本均划分正确。也就是说,此时的 h ( x ) = G ( x ) h(x) = \mathcal G(x) h(x)=G(x)

如果将 h h h视作一个变量,而 E i n ( h ) , E o u t ( h ) \mathbb E_{in}(h),\mathbb E_{out}(h) Ein(h),Eout(h)分别作为该变量的函数。那么从分布 D D D独立采样出 N N N个样本所组成的数据集称作 D N ( 1 ) \mathcal D_N^{(1)} DN(1),此时的 E i n ( h ) \mathbb E_{in}(h) Ein(h) D N ( 1 ) \mathcal D_N^{(1)} DN(1)进行描述,两函数的图像结果表示如下:
图像来源见下方链接,侵删,下同。其中 D N ( 1 ) \mathcal D_N^{(1)} DN(1)表示包含 N N N个样本的 1 1 1号数据集。
在这里插入图片描述
图中的 h ∗ h^* h G \mathcal G G分别描述了在数据集 D N ( 1 ) \mathcal D_N^{(1)} DN(1)和全集上的最优变量结果

  • 我们事先知道,只要分布 D D D是不变的,那么 G \mathcal G G所描述的变量值位置是不变的;
  • 其次,描述 E i n ( h ) \mathbb E_{in}(h) Ein(h)最优变量 h ∗ h^* h不仅由变量 h h h控制,并且与数据集 D \mathcal D D之间存在关联关系。这里使用的是数据集 D N ( 1 ) \mathcal D_N^{(1)} DN(1),如果换成基于分布 D D D的另一个数据集 D M ( 2 ) \mathcal D_M^{(2)} DM(2)最优变量 h ∗ h^* h的位置也可能发生变化。

此时 E i n ( h ) , E o u t ( h ) \mathbb E_{in}(h),\mathbb E_{out}(h) Ein(h),Eout(h)已经表述出来,继续观察 ∣ E i n ( h ) − E o u t ( h ) ∣ |\mathbb E_{in}(h) - \mathbb E_{out}(h)| Ein(h)Eout(h)的图像结果以及该值 ϵ \epsilon ϵ的关系:
在这里插入图片描述
实际上就是第一张图中阴影部分在 h h h轴上的体现,假设已经设定好了 ϵ \epsilon ϵ的范围,对应图中的红色阴影部分表示 ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ |\mathbb E_{in}(h) - \mathbb E_{out}(h)| > \epsilon Ein(h)Eout(h)>ϵ的结果;剩余的蓝色阴影部分则是 ∣ E i n ( h ) − E o u t ( h ) ∣ ≤ ϵ |\mathbb E_{in}(h) - \mathbb E_{out}(h)| \leq \epsilon Ein(h)Eout(h)ϵ的结果。

概率值 P ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) \mathcal P(|\mathbb E_{in}(h) - \mathbb E_{out}(h)| > \epsilon) P(Ein(h)Eout(h)>ϵ)如何进行表示呢?是红色阴影面积比上整体阴影面积吗?并不是。这个概率描述的是:在分布 D D D独立采样产生的不同数据集内,相同 h h h产生的 ∣ E i n ( h ) − E o u t ( h ) ∣ |\mathbb E_{in}(h) - \mathbb E_{out}(h)| Ein(h)Eout(h) ϵ \epsilon ϵ比较,经过统计产生的概率结果。此时我们独立采样出一个包含 N N N个数据的新数据集 D N ( 2 ) \mathcal D_N^{(2)} DN(2),其对应图像表示如下:
在这里插入图片描述
这里比较同一个 h h h(红色矩形框),统计其 ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ |\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon Ein(h)Eout(h)>ϵ的次数:
这里的 j ⇒ ∞ j \Rightarrow \infty j,因为可以从分布 D D D中任意独立地进行采样。
I ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ∣ D N ( k ) = { 1 if  ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ 0 Otherwise k = 1 , 2 , ⋯   , j \mathbb I(|\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon) |_{\mathcal D_N^{(k)}} = \begin{cases} 1 \quad \text{if } |\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon \\ 0 \quad \text{Otherwise} \end{cases} \quad k = 1,2,\cdots,j I(Ein(h)Eout(h)>ϵ)DN(k)={1if Ein(h)Eout(h)>ϵ0Otherwisek=1,2,,j

  • 关于数据集 D N ( 1 ) \mathcal D_{N}^{(1)} DN(1),其 ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ |\mathbb E_{in}(h) - \mathbb E_{out}(h)|>\epsilon Ein(h)Eout(h)>ϵ,返回结果1;
  • 关于数据集 D N ( 2 ) \mathcal D_N^{(2)} DN(2),其 ∣ E i n ( h ) − E o u t ( h ) ∣ ≤ ϵ |\mathbb E_{in}(h) - \mathbb E_{out}(h)| \leq\epsilon Ein(h)Eout(h)ϵ,返回结果0;
  • 以此类推,最终可得到概率结果
    而这个概率结果是存在上界的。
    另一个注意的点:这里所有采集的数据集合 D N ( 1 ) , D N ( 2 ) , ⋯   , D N ( j ) \mathcal D_N^{(1)},\mathcal D_N^{(2)},\cdots,\mathcal D_{N}^{(j)} DN(1),DN(2),,DN(j),它们都是有 N N N个样本组成的集合。
    P ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) = 1 j ∑ k = 1 j I ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ∣ D N ( k ) ≤ 2 exp ⁡ ( − 2 ϵ 2 N ) \mathcal P(|\mathbb E_{in}(h) - \mathbb E_{out}(h)|>\epsilon) = \frac{1}{j}\sum_{k=1}^{j}\mathbb I(|\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon) |_{\mathcal D_N^{(k)}} \leq 2 \exp(-2\epsilon^2N) P(Ein(h)Eout(h)>ϵ)=j1k=1jI(Ein(h)Eout(h)>ϵ)DN(k)2exp(2ϵ2N)

至此,已经得到了这个概率值的表示,回顾假设函数 h h h h h h对于这个概率值产生什么样的影响 ? ? ?如果将 P ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) \mathcal P(|\mathbb E_{in}(h) - \mathbb E_{out}(h)| > \epsilon) P(Ein(h)Eout(h)>ϵ)看做是关于 h h h的函数。即:
f ( h ) = 1 j ∑ k = 1 j I ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ∣ D N ( k ) f(h) = \frac{1}{j}\sum_{k=1}^{j}\mathbb I(|\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon) |_{\mathcal D_N^{(k)}} f(h)=j1k=1jI(Ein(h)Eout(h)>ϵ)DN(k)
关于 h h h f ( h ) f(h) f(h)函数关系表示如下:
在这里插入图片描述
这仅是一个示意图,我们仅能确定 f ( G ) f(\mathcal G) f(G)。当 h ( x ) = G ( x ) h(x)=\mathcal G(x) h(x)=G(x)时,无论我们如何采集样本,都有 E i n ( h ) = E o u t ( h ) = 0 \mathbb E_{in}(h) = \mathbb E_{out}(h) = 0 Ein(h)=Eout(h)=0,从而 f ( h ) = 0 f(h) = 0 f(h)=0。但与此同时,无论 h h h产生的预测分布多么离谱,这个概率值 f ( h ) f(h) f(h)均小于 2 exp ⁡ ( − 2 ϵ 2 N ) 2\exp(-2\epsilon^2N) 2exp(2ϵ2N)

并且根据上图,也可以看出,当 f ( h ) f(h) f(h)越小时,这意味着 ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ |\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon Ein(h)Eout(h)>ϵ这种不好的情况发生的次数更少,而对应的 h h h越可靠
∑ k = 1 j I ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ∣ D N ( k ) ⇓ \sum_{k=1}^{j}\mathbb I(|\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon) |_{\mathcal D_N^{(k)}} \Downarrow k=1jI(Ein(h)Eout(h)>ϵ)DN(k)

相反,这引出一个新的问题:此时只能根据 PAC \text{PAC} PAC提出的思路,知道函数 f ( h ) f(h) f(h)存在上界 2 exp ⁡ ( − 2 ϵ 2 N ) 2\exp(-2\epsilon^2N) 2exp(2ϵ2N),对于 f ( h ) f(h) f(h)大小/ h h h可靠程度 我们是未知的。

例如下图中的两条曲线
在这里插入图片描述
通过图像可以看出,数据集 D N ( 1 ) \mathcal D_N^{(1)} DN(1)对应学习出的最优模型 h ∗ h^* h数据集 D N ( 2 ) \mathcal D_N^{(2)} DN(2)对应学习出的最优模型 h ∗ h^* h相比,后者要更优秀(因为 h ∗ h^* h距离 G \mathcal G G更近),但真实情况是,我们并不知道 G \mathcal G G的具体位置是什么,导致无法进行比较。

总结一下:
利用霍夫丁不等式来实现机器学习是无法实现的:

  • 关于真实模型 G \mathcal G G未知 ⇒ \Rightarrow 无法通过假设函数 h h h G \mathcal G G直接进行比较;
  • 如果抛开 G \mathcal G G不谈,仅仅对各假设函数 h h h相互比较。即从所有可能的 h h h中挑出一个最优 h h h。但是我们能够比较的仅仅是 E i n ( h ) \mathbb E_{in}(h) Ein(h) E o u t ( h ) \mathbb E_{out}(h) Eout(h)因无法采出全部样本是无法求解的。即便找到了一个 E i n ( h ∗ ) = 0 \mathbb E_{in}(h^*) = 0 Ein(h)=0,该 h ∗ h^* h G \mathcal G G差距也是无法确定的。
  • 并且,由于已知的信息仅仅是一个上界,并且这个上界 h h h自身无关。从而无法通过找出最小上界值的形式确定最优 h h h

问题的解决方法

针对上面的问题,一种解决方法是:不去单个比较假设函数,而是通过对所有可能的假设函数 h h h构建一个假设函数空间 H \mathcal H H,并将其划分成若干个部分: { H 1 , H 2 , H 3 , ⋯   } \{\mathcal H_1,\mathcal H_2,\mathcal H_3,\cdots\} {H1,H2,H3,},从而找到最优的函数空间部分,最终在最优部分中找到的假设函数可信度更高:
在这里插入图片描述
上图我们将假设函数空间划分出 3 3 3子空间 H 1 , H 2 , H 3 \mathcal H_1,\mathcal H_2,\mathcal H_3 H1,H2,H3。分别在 D N ( 1 ) , D N ( 2 ) \mathcal D_N^{(1)},\mathcal D_N^{(2)} DN(1),DN(2)数据集条件下,我们能够找到在 H 1 \mathcal H_1 H1 E i n ( h ) \mathbb E_{in}(h) Ein(h)最小值(蓝色点);同理,我们也能够找到 H 2 , H 3 \mathcal H_2,\mathcal H_3 H2,H3 E i n ( h ) \mathbb E_{in}(h) Ein(h)最小值(分别是橙色点绿色点)。

相比之下, H 2 \mathcal H_2 H2中的两个橙色点虽然不是最小值,但相比于蓝色点绿色点,它们的值都比较小,并且很稳定。因而在 H 2 \mathcal H_2 H2空间中找出一个优秀的 h h h,其可信度是较高的。

如何让假设函数子空间之间进行比较呢 ? ? ?由于霍夫丁不等式只与数据集 D N ( i ) ( i = 1 , 2 , ⋯   , j ) \mathcal D_N^{(i)}(i=1,2,\cdots,j) DN(i)(i=1,2,,j)的选择有关,这意味着 h h h自身也是一个随机变量,它和数据集对判定结果起到共同作用

  • 关于 ∣ E i n ( h j ) − E o u t ( h j ) ∣ |\mathbb E_{in}(h_j) - \mathbb E_{out}(h_j)| Ein(hj)Eout(hj),我们可以将其看作是:在给定假设函数 h j h_j hj的条件下,关于数据集 D N ( i ) \mathcal D_N^{(i)} DN(i)的一个偏差结果。记作 Δ h j ( D N ( i ) ) \Delta_{h_j}(\mathcal D_N^{(i)}) Δhj(DN(i))

    但需要假设函数共同作用下的结果,同样将 h j h_j hj作为随机变量放入 Δ \Delta Δ函数中:
    Δ h j ( D N ( i ) ) ⇒ Δ ( h j , D N ( i ) ) \Delta_{h_j}(\mathcal D_N^{(i)}) \Rightarrow \Delta(h_j,\mathcal D_N^{(i)}) Δhj(DN(i))Δ(hj,DN(i))

  • 同理,此时我们的样本不再仅仅是 D N ( i ) ∈ D \mathcal D_N^{(i)} \in D DN(i)D(全集),而是数据集和假设函数相绑定 的笛卡尔积结果:
    D N ( i ) ∈ D ⇒ ⟨ D N ( i ) , h j ⟩ ∈ D × H \mathcal D_N^{(i)} \in D \Rightarrow \langle\mathcal D_N^{(i)},h_j\rangle \in \mathcal D \times \mathcal H DN(i)DDN(i),hjD×H

这种方式对原始的 h h h选择存在什么样的变化 ? ? ?

  • 原始做法通过 f ( h ) f(h) f(h)进行衡量 f ( h ) f(h) f(h)越小, h h h优秀
    f ( h ) = 1 j ∑ k = 1 j I ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ∣ D N ( k ) f(h) = \frac{1}{j}\sum_{k=1}^{j}\mathbb I(|\mathbb E_{in}(h) - \mathbb E_{out}(h) |>\epsilon) |_{\mathcal D_N^{(k)}} f(h)=j1k=1jI(Ein(h)Eout(h)>ϵ)DN(k)
  • 现在我们不将目光放在某个假设函数 h h h上,而是某一假设函数子空间 H i ∈ H \mathcal H_i \in \mathcal H HiH,如何衡量一个假设函数子空间的好坏,就需要将该空间内的所有假设函数 h h h各数据集 D N ( i ) \mathcal D_N^{(i)} DN(i)各计算一次,从而挑出满足条件( > ϵ >\epsilon >ϵ)的结果并进行比值:
    P H = ∑ ⟨ D N ( i ) , h j ⟩ ∈ D × H I ( ∣ E i n ( h j ) − E o u t ( h j ) ∣ > ϵ ) ∣ D N ( i ) ∣ D × H ∣ = ∑ h j ∈ H ∑ D N ( i ) ∈ D [ I ( ∣ E i n ( h j ) − E o u t ( h j ) ∣ > ϵ ) ∣ D N ( i ) ] ∣ D × H ∣ \begin{aligned} \mathcal P_{\mathcal H} & = \frac{\sum_{\left\langle\mathcal D_N^{(i)},h_j\right\rangle \in \mathcal D \times \mathcal H} \mathbb I(|\mathbb E_{in}(h_j) - \mathbb E_{out}(h_j)| > \epsilon)|_{\mathcal D_N^{(i)}}}{|\mathcal D \times \mathcal H|} \\ & = \frac{\sum_{h_j \in \mathcal H}\sum_{\mathcal D_N^{(i)}\in D} \left[\mathbb I(|\mathbb E_{in}(h_j) - \mathbb E_{out}(h_j)| > \epsilon)|_{\mathcal D_N^{(i)}}\right]}{|\mathcal D \times \mathcal H|} \end{aligned} PH=D×HDN(i),hjD×HI(Ein(hj)Eout(hj)>ϵ)DN(i)=D×HhjHDN(i)D[I(Ein(hj)Eout(hj)>ϵ)DN(i)]

新方法对于霍夫丁不等式的约束证明

继续观察上式,该式子是否能够受到霍夫丁不等式的约束 ? ? ?

  • 极端角度观察的话,如果基于某一数据集条件下,只要存在一个假设函数 h ′ h' h,使其 ∣ E i n ( h ′ ) − E o u t ( h ′ ) ∣ > ϵ |\mathbb E_{in}(h') - \mathbb E_{out}(h')| > \epsilon Ein(h)Eout(h)>ϵ那么我们就武断地将所有 h ∈ H h \in \mathcal H hH在该数据集下都有 ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ |\mathbb E_{in}(h) - \mathbb E_{out}(h)| > \epsilon Ein(h)Eout(h)>ϵ。基于这个假设,必然有:
    P H ≤ ∣ H ∣ ⋅ ∑ D N ( i ) ∈ D I ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ∣ D N ( i ) ∣ D × H ∣ ( h ∈ H ) = ∑ D N ( i ) ∈ D I ( ∣ E i n ( h ) − E o u t ( h ) ∣ > ϵ ) ∣ D N ( i ) ∣ D ∣ ( h ∈ H ) \begin{aligned} \mathcal P_{\mathcal H} & \leq \frac{|\mathcal H| \cdot \sum_{\mathcal D_N^{(i)} \in D}\mathbb I(|\mathbb E_{in}(h) - \mathbb E_{out}(h)| >\epsilon)|_{\mathcal D_N^{(i)}}}{|\mathcal D \times \mathcal H|} \quad (h \in \mathcal H) \\ & = \frac{\sum_{\mathcal D_N^{(i)} \in D}\mathbb I(|\mathbb E_{in}(h) - \mathbb E_{out}(h)| >\epsilon)|_{\mathcal D_N^{(i)}}}{|\mathcal D|} \quad(h \in \mathcal H) \end{aligned} PHD×HHDN(i)DI(Ein(h)Eout(h)>ϵ)DN(i)(hH)=DDN(i)DI(Ein(h)Eout(h)>ϵ)DN(i)(hH)
  • 将分子展开,得到如下结果:
    由于武断的假设,导致上式结果和 h h h无关了,将数据集 D N ( i ) \mathcal D_N^{(i)} DN(i)划分成两种类型: > ϵ > \epsilon >ϵ < ϵ < \epsilon <ϵ两种。
    P H ≤ [ ∑ D N ( i ) ∈ D I ( ∣ E i n ( h 1 ) − E o u t ( h 1 ) ∣ > ϵ ) + ⋯ + ∑ D N ( i ) ∈ D I ( ∣ E i n ( h j ) − E o u t ( h j ) ∣ > ϵ ) ] ∣ D ∣ = P h 1 + ⋯ + P h j ≤ ∣ H ∣ ⋅ 2 exp ⁡ ( − 2 ϵ 2 N ) \begin{aligned} \mathcal P_{\mathcal H} & \leq \frac{\left[\sum_{\mathcal D_N^{(i)} \in D} \mathbb I(|\mathbb E_{in}(h_1) - \mathbb E_{out}(h_1)| > \epsilon) + \cdots + \sum_{\mathcal D_N^{(i)} \in D} \mathbb I(|\mathbb E_{in}(h_j) - \mathbb E_{out}(h_j)| > \epsilon)\right]}{|\mathcal D|} \\ & = \mathcal P_{h_1} + \cdots + \mathcal P_{h_j} \\ & \leq |\mathcal H| \cdot 2\exp(-2\epsilon^2N) \end{aligned} PHD[DN(i)DI(Ein(h1)Eout(h1)>ϵ)++DN(i)DI(Ein(hj)Eout(hj)>ϵ)]=Ph1++PhjH2exp(2ϵ2N)

也就是说,通过对假设函数空间为单位进行比较时,同样在霍夫丁不等式中得到证明,存在上界。

总结

上述所描述的新方法主要分为两个步骤:

  • 从完整的假设函数空间 H \mathcal H H中选择一个比较优秀假设函数子空间 H i \mathcal H_i Hi
  • H i \mathcal H_i Hi中再挑选假设函数 h h h

这种方式贯穿在机器学习的过程中,关于机器学习的三要素:模型,策略(损失函数),算法,模型的选择相当于函数子空间的选择,例如:线性模型。而策略相当于选择具体假设函数 h h h的判别方法。

例如在线性模型的基础上,基于错误驱动的感知机算法,线性判别分析,支持向量机等等。

相关参考:
霍夫丁不等式(Hoeffding‘s Inequality)的证明
VC维是如何推导出来的?为什么说它是机器学习理论最重要的发明?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/492110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STC32G12K128单片机的 moubus-rtu 从机测试工程

简介 STC32G12K128 是STC 推出的一款32位的 C251 的单片机。最近拿到一块官方申请的 屠龙刀-STC32G开发板&#xff0c;就用它的提供的库函数&#xff0c;查考安富莱提供的 modbus 例程移植了一个 modbus-rtu 从站的工程。 modbus-rtu slave 移植注意点 modbus-rtu 功能配置 …

每日学术速递5.3

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Learning Locally Editable Virtual Humans 标题&#xff1a;学习本地可编辑虚拟人 作者&#xff1a;Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges 文章链接&#xff1a;htt…

【分享】7-Zip解压缩软件的超详细使用攻略

常用的解压缩软件&#xff0c;除了WinRAR之外&#xff0c;7-Zip也是不错的选择。 7-Zip不仅是一款完全免费的开源解压软件&#xff0c;它的解压缩功能也很强大&#xff0c;可以支持视频、文档、文件夹、图片等文件进行压缩操作。 今天小编就来分享一下&#xff0c;7-Zip解压缩…

python一键登录srun校园网(以深圳技术大学为例)

全世界最&#xff08;不&#xff09;好的目录 一、需求分析二、实现过程2.1 分析api2.1.1 连接到校园网&#xff0c;自动弹出登录认证界面2.1.2 先输入错误的账号密码&#xff0c;按F12看会获取哪些信息2.1.3 api 2.2 分析加密2.3 流程总结 三.模拟登录3.1 编写配置文件3.2.功能…

【微软Bing王炸更新】无需等待,人人可用,答案图文并茂,太牛了

&#x1f680; AI破局先行者 &#x1f680; &#x1f332; AI工具、AI绘图、AI专栏 &#x1f340; &#x1f332; 如果你想学到最前沿、最火爆的技术&#xff0c;赶快加入吧✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;CSDN-Java领域优质创作者&#x1f3c6;&am…

opencv实践项目-图像拼接

目录 1.简介2. 步骤2.1 特征检测与提取2.2 关键点检测2.3 关键点和描述符2.4 特征匹配2.5 比率测试2.6 估计单应性 3. 完整代码 1.简介 图像拼接是计算机视觉中最成功的应用之一。如今&#xff0c;很难找到不包含此功能的手机或图像处理API。在本 文中&#xff0c;我们将讨论如…

虹科分享 | 专为创意专业人士设计的Thunderbolt适配器

一、方案介绍 虹科HK-ATTO ThunderLink雷电™ 适配器可以适用于任何地方。 1.小。 2.便携式。 3.强大。 我们的10GBE Thunderbolt适配器的性能至少比内置或附加NIC&#xff08;包括Mac&#xff09;高20% , ATTO 360只需点击一个按钮即可优化以太网SAN&#xff0c;并可与Thunder…

xxl-job 使用示例

目录 介绍 下载源码地址 文档网站 源码导入就是这样目录 数据库建表sql 就这么几个表出来了 修改xxl-job-admin项目下的application.properties文件 完事启动就行了 页面 页面访问地址 账号密码 增加自己的定时任务 介绍 这篇写的是接入使用xxl-job 的一个简单流程…

win系统使用macOS系统

最近 win 系统和 ubuntu 系统用的久了&#xff0c;想用一下 MacOS 系统&#xff0c;于是去网上查了相关资料&#xff0c;发现用一款叫 NEXUS 的软件可以实现在 windows 系统体验效果&#xff0c;现把教程记录下来&#xff0c;供大家使用。 目录 一、下载NEXUS 二、 安装NEXU…

IMX6ULL裸机篇之串口实验说明一

一. 串口 本章我们就来学习如何驱动 I.MX6U 上的串口&#xff0c;并使用串口和电脑进行通信。 串行接口指的是数据一个一个的顺序传输&#xff0c;通信线路简单。 UART 作为串口的一种&#xff0c;其工作原理也是将数据一位一位的进行传输&#xff0c;发送和接收各用一 条…

win11本地安全机构保护已关闭怎么办?如何修复windows11本地安全机构保护已关闭?

win11本地安全机构保护已关闭怎么办&#xff1f; 如何修复windows11本地安全机构保护已关闭&#xff1f; 近日有windows11系统用户反映说遇到了这样一个问题&#xff1a;启动电脑后&#xff0c;发现windows右下角的安全中心图标上会显示一个黄色叹号&#xff0c;打开windows安…

操作系统笔记--进程与线程

1--进程 1-1--进程的定义 进程表示一个具有一定独立功能的程序在一个数据集合上的一次动态执行过程&#xff1b; 1-2--进程的组成 一个进程由以下部分组成&#xff1a;① 程序的代码&#xff1b; ② 程序处理的数据&#xff1b;③ 程序计数器中的值&#xff0c;其指示下一条将…

PHP流行框架的报错页面,你见过那些?

在PHP开发过程中&#xff0c;使用框架能够帮助我们更快速、高效地完成项目开发。但是&#xff0c;即使使用了框架&#xff0c;我们还是难免会遇到各种报错。而当我们在开发阶段或调试过程中遇到报错时&#xff0c;框架提供的错误页面可以给我们带来很大的帮助。PHP常用的流行框…

网易一面:如何设计线程池?请手写一个简单线程池?

说在前面 在40岁老架构师 尼恩的读者社区(50)中&#xff0c;最近有小伙伴拿到了一线互联网企业如极兔、有赞、希音、百度、网易的面试资格&#xff0c;遇到了几个很重要的面试题&#xff1a; 如何设计线程池&#xff1f; 与之类似的、其他小伙伴遇到过的问题还有&#xff1a; …

Reinhart FoodService的EDI需求详解

Reinhart FoodService是一家成立于1972年的美国食品服务公司&#xff0c;隶属于上市公司Performance Food Group。Reinhart FoodService为餐馆、酒店、医院、学校等各类机构提供广泛的食品选择和相关服务&#xff0c;产品包括新鲜的肉类、禽类、海鲜、奶制品、烘焙用品、蔬菜和…

迪赛智慧数——柱状图(象形动态图):不同性别消费者点外卖频率

效果图 我国超4亿人叫外卖&#xff0c;你多久点一次外卖? 据数据显示&#xff0c;30.7%男性消费者每周点3-4次外卖&#xff0c;34.3%的女性每周点3-4次&#xff0c;明显女性比男性点外卖频率多。而每周点1-2次外卖中均超过80%。 数据源&#xff1a;静态数据 { "column&…

MIT开源协议,多端适用的租房小程序,带完整的管理员后台

一、开源项目简介 多端适用的租房小程序&#xff0c;带管理员后台。是一个完整的项目&#xff0c;可以直接使用。 二、开源协议 使用MIT开源协议 三、界面展示 部分截图 1. 前台截图 2. 后台截图 四、功能概述 1、使用Uniapp开发的前台&#xff0c;基于 Vue.js 开发所有…

2 种方式在流水线中集成 DAST,动态保护应用程序安全

&#x1f4a1; 如何在流水线中集成与应用 DAST &#xff1f; 近日&#xff0c;在「DevSecOps软件安全开发实践」课程上&#xff0c;极狐(GitLab) 前端工程师钱堃、极狐(GitLab) 高级后端工程师张林杰&#xff0c;展开了关于 DAST 的概念、必要性、优缺点的内容分享&#xff0c;…

如何完美实现数据可视化?

为什么要可视化数据? 在工作中&#xff0c;无论你在哪个场景&#xff0c;你都会接触到数据&#xff0c;需要表达出来。数据可视化的作用是通过结合图表和数据来更好地传达业务信息。目前&#xff0c;大多数公司正在逐步从传统的流程管理过渡到基于数据的管理。数据可视化可以…

明明花钱上了ERP,为什么还要我装个MES系统

目前&#xff0c; ERP系统依旧是很多制造企业的选择。据统计&#xff0c;ERP系统的应用已经达到70&#xff05;以上&#xff0c;但是在车间的应用&#xff0c; MES系统的应用比例并不高。那么&#xff0c;为什么现在很多企业又都选择再上个MES呢&#xff1f; MES系统是一个面向…