在线学习(online learning)——Chapter 2 Problem Formulations and Related Theory

news2025/1/18 8:57:37

在线学习(online learning)——Chapter 2 Problem Formulations and Related Theory

本章中,我们将首先给出一个经典的在线学习问题的形式化描述,即在线二分类(online binary classification),然后介绍统计学习理论、在线凸优化和博弈论的基本知识,作为在线学习技术的理论基础。

一、问题的设立

考虑一个在线二分类任务,在线学习以序列方式进行的。在每一轮中,学习器接收一个数据实例,然后对该实例进行预测。在做出预测后,学习者从环境中获得关于实例的真实答案作为反馈(feedback)。根据反馈,学习者可以根据预测和答案之间的差值(difference)来衡量损失(loss)。最后,学习器通过某种策略(strategy)更新其预测模型,以提高对未来接收实例的预测性能。

将垃圾邮件检测视为在线二分类的运行示例,其中学习者以二分方式回答每个问题: 是或否。该任务是有监督的二分类问题(supervised binary classification)。

我们可以公式化地描述如上问题:

  1. 考虑一个用向量空间表示的实例/对象序列, x t ∈ R d \pmb x_t \in \R^d xtRd,其中 t t t 表示第 t t t 轮, d d d 表示维度,使用 y t ∈ { + 1 , − 1 } y_t\in\{+1, -1\} yt{+1,1}表示实例的标签。
  2. 在线二分类任务以序列方式进行,在第 t t t 轮,学习器收到实例 x t \pmb x_t xt,然 后使用一个二分类器 w t \pmb w_t wt进行预测
  3. 比如 y ^ t = sign ( w t T x t ) \hat y_t = \text{sign}(\pmb w_t ^T \pmb x^t) y^t=sign(wtTxt),当 w t T x t ≥ 0 \pmb w_t ^T \pmb x^t\ge 0 wtTxt0 输出 y ^ t = + 1 \hat y_t = +1 y^t=+1,当 w t T x t < 0 \pmb w_t ^T \pmb x^t< 0 wtTxt<0 输出 y ^ t = − 1 \hat y_t = -1 y^t=1
  4. 做出预测后,学习器接收到真实的标签 y t y_t yt,然后衡量损失,比如使用 h i n g e − l o s s    ℓ ( w t ) = max ⁡ ( 0   ,   1 − y t w t T x t ) hinge-loss~~\ell(\pmb w_t)=\max(0~,~1-y_t\pmb w_t ^T \pmb x^t) hingeloss  (wt)=max(0 , 1ytwtTxt)
  5. 当损失不为零时,学习者通过在训练示例 ( x t , y t ) (x_t, y_t) (xt,yt) 上应用一些策略,将预测模型从 w t w_t wt 更新到 w t + 1 w_{t+1} wt+1

算法1总结了在线二分类的过程。

image-20230112101241335

通过连续 T T T 轮进行在线学习,可以衡量在线学习者所犯的错误数量为 M T = ∑ t = 1 T Ⅱ ( y t ^ ≠ y t ) M_T = \sum_{t=1}^TⅡ(\hat{y_t}\not = y_t) MT=t=1T(yt^=yt)。一般来说,在线学习任务的经典目标是尽量减少在线学习者对后知的最佳固定模型的预测的悔值(regret),定义为
R T = ∑ t = 1 T ℓ t ( w t ) − min ⁡ w ∑ t = 1 T ℓ t ( w ) (1) R_T = \sum_{t=1}^T{\ell_t(\pmb w_t)}-\underset{\pmb w}{\min}\sum_{t=1}^T{\ell_t(\pmb w)}\tag{1} RT=t=1Tt(wt)wmint=1Tt(w)(1)
其中第二项是最优模型 w ∗ \pmb w ^* w所遭受的损失,只有在看到所有实例及其标签后才能知道。从悔值最小化的理论角度来看,如果一个在线算法保证它的后悔关为 T T T 的函数是次线性的(sublinear) ,即 R T = o ( T ) R_T = o(T) RT=o(T),这意味着 lim ⁡ T → ∞ R ( T ) / T = 0 \lim _{T\to∞}{R(T)/T}=0 limTR(T)/T=0,即平均而言,学习者的表现几乎与最好的固定模型一样好

二、统计学理论

接下来介绍一些统计学的基本概念和框架。

2.1 经验误差最小化

假设实例 x t \pmb x_t xt 由一个固定但未知的分布 P ( x ) P (x) P(x)随机生成,它的类标签 y y y 也由一个固定但未知的分布 P ( y ∣ x ) P (y|x) P(yx) 生成。标记数据的联合分布为 P ( x , y ) = P ( x ) P ( y ∣ x ) P (x, y) = P (x)P (y|x) P(x,y)=P(x)P(yx) 。目标是找到一个预测函数 f ( x ) f (x) f(x),使损失函数的期望值最小化:
R ( f ) = ∫ ℓ ( y , f ( x ) ) d P ( x , y ) R(f)=\int \ell(y,f(x))\text{d}P(x,y) R(f)=(y,f(x))dP(x,y)
它也被称为 T r u e   R i s k True\ Risk True Risk 函数。它的解 f ∗ = arg  min ⁡ R ( f ) f^* = \text{arg}~\min R(f) f=arg minR(f) 是最优的预测器。通常,由于未知分布 P ( x , y ) P (x, y) P(x,y),不能直接计算 T r u e   R i s k True\ Risk True Risk 函数 R ( f ) R(f) R(f)。在实践中,我们通过估计有限的实例集合 ( x 1 , y 1 ) , … , ( x n , y n ) (x_1,y_1),…,(x_n,y_n) (x1y1),,(xnyn)得出的 i.i.d \text{i.i.d} i.i.d 上的风险来近似真实的风险,这称为“经验风险”(Empirical Risk)或“经验误差"(Empirical Error)。
R e m p ( f ) = 1 N ∑ n = 1 N ℓ ( y n , f ( x n ) ) R_{emp}(f) = \frac{1}{N}\sum_{n=1}^N\ell(y_n,f(x_n)) Remp(f)=N1n=1N(yn,f(xn))
使用经验误差最小化(Empirical Error Minimization ERM),学习的问题是在一个假设空间 F \mathcal{F} F上通过最小化经验误差找到一个假设 f f f
f n ^ = arg min ⁡ f ∈ F R e m p ( f ) \hat{f_n} = \text{arg}\underset{f\in \mathcal{F} }{\min} R_{emp}(f) fn^=argfFminRemp(f)
ERM是许多机器学习算法的理论基础。例如,在二分类问题中,假设 F \mathcal{F} F是线性分类器的集合,并使用 h i n g e − l o s s hinge-loss hingeloss,ERM原理表明,通过最小化以下目标,可以训练出最佳线性模型 w \pmb w w
R e m p ( w ) = 1 N ∑ n = 1 N max ⁡ ( 0 , 1 − y n w T x n ) R_{emp}(\pmb w)=\frac{1}{N}\sum_{n=1}^N{\max (0,1-y_n\pmb w^T\pmb x_n)} Remp(w)=N1n=1Nmax(0,1ynwTxn)

2.2 误差分解

最佳预测因子 f ∗ f ^* f和经验最佳预测因子 f n ^ \hat{f_n} fn^之间的差异可以通过 E x c e s s   R i s k Excess\ Risk Excess Risk 来衡量,它可以分解如下:

image-20230112111146112

其中第一项被称为估计误差(Estimation Error),因为有限数量的训练样本可能不足以代表未知分布,第二项被称为近似误差(Approximation Error d),因为模型类 F \mathcal{F} F 的限制可能不够灵活,无法包括最佳预测因子 f ∗ f^* f

一般情况下,增加训练数据量会减小估计误差,而增加模型的复杂度/容量可以减小近似误差。然而,随着模型复杂性的增加,估计误差往往会增加,给模型选择带来挑战。

三、凸优化理论

许多在线学习问题本质上可以(重新)表述为在线凸优化(Online Convex Optimization OCO)任务。下面,我们将介绍OCO的一些基础知识。

在线凸优化任务通常由两个主要元素组成:凸集 S \mathcal{S} S 和凸代价函数 ℓ t ( ⋅ ) \ell_t(\cdot) t()。在每一个时间步 t t t,在线算法决定选择一个权重向量 w t ∈ S \pmb w_t∈\mathcal{S} wtS,之后基于凸代价函数计算损失 ℓ t ( w t ) \ell_t(\pmb w_t) t(wt)。在线算法的目标是选择一个决策序列 w 1 , w 2 , … \pmb w_1, \pmb w2,… w1,w2,使得悔值最小化

更正式地说,在线算法的目标是在 T T T 轮之后实现低悔值 R T R_T RT,其中悔值 R T R_T RT被定义为:
R T = ∑ t = 1 T ℓ t ( w t ) − inf ⁡ w ∗ ∑ t = 1 T ℓ t ( w ∗ ) R_T = \sum_{t=1}^T{\ell_t(\pmb w_t)}-\underset{\pmb w^*}{\inf}\sum_{t=1}^T\ell_t(\pmb w^*) RT=t=1Tt(wt)winft=1Tt(w)

其中 w ∗ \pmb w^* w是最小化凸目标函数 ∑ t = 1 T ℓ t ( w ) \sum_{t=1}^T{\ell_t(\pmb w)} t=1Tt(w) 的解。

inf: infimum 或 infima,中文叫下确界或最大下界。 inf(S), S表示一个集合, inf(S)是指集合S的下确界, 即小于或等于S中所有元素的最大值, 这个数不一定在集合S中。

例如,考虑一个在线二分类任务,用于从标记实例 ( x t , y t ) ,   t = 1 , . . . , T (x_t, y_t),\ t=1,...,T (xt,yt), t=1,...,T 序列训练在线支持向量机(SVM),其中 x t ∈ R d , y t ∈ { + 1 , − 1 } \pmb x_t\in \mathcal{R}^d,y_t\in\{+1,-1\} xtRd,yt{+1,1}。对于某个常数参数 C C C,可以将损失函数 ℓ ( ⋅ ) \ell(\cdot) ()定义为 ℓ t ( w t ) = max ⁡ ( 0 , 1 − y t w T x ) \ell_t(\pmb w_t)=\max (0,1-y_t\pmb w^Tx) t(wt)=max(0,1ytwTx),凸集 S \mathcal{S} S 定义为 { ∀ w ∈ R d   ∣  ‖ w ‖ ≤ C } \{∀\pmb w∈\mathcal{R}^d\ |\ ‖\pmb w‖≤C\} {wRd  wC}。有多种算法可以解决这个问题。下面我们简要回顾三种主要的在线凸优化方法,包括一阶算法、二阶算法和基于正则化的方法。

3.1 一阶方法

一阶方法旨在利用一阶梯度信息优化目标函数。在线梯度下降(Online Gradient Descent OGD)(Zinkevich, 2003)可以被看作是凸优化中的随机梯度下降(Stochastic Gradient Descent SGD)的在线版本,是最简单和最流行的凸优化方法之一。

在每一次迭代中,算法根据实例 x t \pmb x_t xt 所遭受的损失,按照当前损失函数梯度的方向,从当前模型更新到新的模型。由更新可知: u = w t − η t ∇ ℓ t ( w t ) \pmb u = \pmb w_t−η_t∇\ell_t(\pmb wt) u=wtηtt(wt)。由此产生的更新可能会将模型推到可行域(feasible domain)之外。因此,该算法将模型投影到可行域中,即 Π S ( u ) = arg min ⁡ ‖ w − u ‖ Π_\mathcal{S}(\pmb u) = \text{arg} \min‖\pmb w−\pmb u‖ ΠS(u)=argminwu(其中 Π Π Π表示投影操作)。OGD是简单和容易实现的,但投影步骤有时可能是计算密集型的,这取决于特定的任务。理论上(Zinkevich, 2003),对于(有界梯度的) 凸代价函数的任意序列 T T T,OGD实现了次线性悔值 O ( T ) O(\sqrt{T}) O(T )

论文链接

3.2 二阶方法

二阶算法指的是利用模型的二阶信息,如模型的协方差矩阵,样本的相关性矩阵等来构造更新规则。这一类型的算法能加速在线学习算法的收敛速率。

一种流行的方法是 Online Newton Step 算法。Online Newton Step(Hazan 等人, 2007)可以被视为批量优化中Newton-Raphson方法的在线模拟。与OGD一样,ONS也通过在每次在线迭代中从当前模型中减去一个向量来执行更新。

OGD减去的向量是基于当前模型的损失函数的梯度,而ONS减去的向量是逆Hessian矩阵乘以梯度,即 A t − 1 ∇ ℓ t ( w t ) A_t^{-1}\nabla \ell_t(\pmb w_t) At1t(wt),其中 A t A_t At 与 Hessian 矩阵有关。 A t A_t At 也在每次迭代中更新, A t = A t − 1 + ∇ ℓ t ( w t ) ∇ ℓ t ( w t ) T A_t = A_{t-1} + \nabla \ell_t(\pmb w_t)\nabla \ell_t(\pmb w_t)^ T At=At1+t(wt)t(wt)T。更新后的模型投影回可行域, w t + 1 = Π S A t w t − η A t − 1 ∇ ℓ t ( w t ) \pmb w_{t+1} = Π_{\mathcal{S}}^{A_t}{\pmb w_t-\eta A^{-1}_t\nabla\ell_t(\pmb w_t)} wt+1=ΠSAtwtηAt1t(wt),其中 Π S A = arg min ⁡ w ∈ S ( w − u ) T A ( w − u ) Π_{\mathcal{S}}^{A} =\text{arg}\min _{w∈S} (\pmb w−\pmb u)^TA(\pmb w−\pmb u) ΠSA=argminwS(wu)TA(wu)

与OGD在欧几里得范数下进行投影不同,ONS在矩阵 A t A_t At 所诱发的范数下进行投影。虽然ONS的时间复杂度 O ( n 2 ) O(n^2) O(n2)高于OGD的 O ( n ) O(n) O(n),但在相对较弱的exp-concave代价函数假设下,它保证了对数悔值 O ( log ⁡ T ) O(\log T) O(logT)

论文链接

3.3 正则化

与传统的凸优化不同,OCO的目标是优化悔值。传统的方法(被称为Follow the Leader (FTL))可能不稳定,在最坏的情况下导致高悔值(例如线性悔值)。这激发了通过正则化来稳定这些方法的需求。这里我们介绍常用的正则化方法。

Follow-the-Regularized-Leader (FTRL)

通过对FTL增加一个凸的、光滑的和二次可微分的正则化项 R ( w ) R(\pmb w) R(w) 来达到优化目的,在每次迭代中解决如下优化问题:image-20230112161532518

理论上,FTRL算法总体上实现了一个次线性悔值界 O ( T ) O(\sqrt{T}) O(T )

Online Mirror Descent (OMD)

Online Mirror Descent算法是离线优化算法Mirror Descent在在线学习场景中的应用。它是广泛应用的梯度下降方法的一种泛化形式。Online Mirror Descent(OMD)算法有两种形式。算法流程如下从上面算法流程我们可以看出两种更新策略都是通过函数VR进行更新的。OMD算法的泛化能力来源于它的更新策略是在对偶空间进行的,且对偶空间是根据正则项进行定义的。正则项的梯度就像是从 R d \R^d Rd 到它自己的一个映射。Lazy方式更新关注欧式空间下的一个点,并在每轮预测的时候将其投影到定义域上。Active方式更新时刻关注模型本身,它也可以看作是OGD算法的一个泛化。image-20230112162910307

OMD算法的lay更新和FTRL有一样的悔界上界。对于OMD算法的active更新,同样可以得出类似的悔界分析结果,这里我们省略。当 R ( w ) = 1 2 ∥ w ∥ 2 2 R(\pmb w)=\frac{1}{2}\|\pmb w\|_2^2 R(w)=21w22时,OMD算法等价于OGD算法。如果使用其他的正则项函数 R R R,我们可以得出其他一些著名的算法。

Exponential Gradient (EG)

Exponential Gradient算法设 R ( w ) = w ln ⁡ w R(w)=\pmb w\ln\pmb w R(w)=wlnw是负的熵函数,定义域是一个simplex满足 S = Δ d = { w ∈ R + d ∣ ∑ i w i = 1 } \mathcal{S}=\Delta_d=\{\pmb w\in \R_+^d|\sum_iw_i=1\} S=Δd={wR+diwi=1},此时OMD算法等价于exponential gradient(EG)算法。在这个特例中,投影为 L 1   n o r m L1\ norm L1 norm。每轮的更新法则为:image-20230112163843793

作为OMD的特殊情况,EG的悔值界为 O ( T ) O(\sqrt{T}) O(T )

Adaptive (Sub)-Gradient Methods

前面提到的算法中,在整个学习的过程中,正则项函数R是总数固定的且和数据无关。Adaptive Gradient算法可以看作是拥有自适应正则项的OMD算法,也就是说正则项函数 R R R 会时刻变化。算法具体流程为在t时刻的正则项R等价于历史累计的梯度的统计结果,虽然严格意义上说仅仅利用了一阶的信息,但是它近似了二阶梯度的信息。image-20230112164249956

阅读论文

四、博弈论

博弈论与在线学习密切相关。一般来说,在线预测任务可以被描述为学习在学习者和环境之间进行重复游戏的问题。以在线分类为例,在每次迭代中,算法从有限数量的类中选择一个类,环境揭示真实的类标签。假设环境是稳定的(例如,独立同分布)。该算法的目标是达到最佳固定策略的效果。因此,经典的在线分类问题可以在最简单的假设、充分反馈和稳定的环境下用博弈论建模。更一般地说,博弈论中的各种设置可以与许多其他类型的在线学习问题相关。例如,反馈可能被部分观察到,或者环境不是独立同分布,或者可以由旨在最大化预测器损失的对手操作。

在本节中,我们将介绍一些关于博弈论的基本概念。

4.1 博弈与纳什均衡

K-Player Normal Form Games

考虑一个有 K K K 个参与者 ( 1 < K < ∞ ) (1 < K <∞) (1<K<)的博弈,其中每个参与者 k ∈ 1 , … , K k∈{1,…, K} k1K可以采取 N k N_k Nk个可能的动作。玩家的行动可以用向量 i = ( i 1 , … , i K ) , i k ∈ 1 , … , N k \pmb i = (i_1,…, i_K), i_k∈{1,…, N_k} i=(i1iK),ik1Nk表示参与者的动作。参与者 k k k 遭受的损失用 ℓ ( k ) \ell^{(k)} (k)表示,因为损失不仅与参与人 k k k 的行为有关,而且与所有其他参与人的行为有关。在游戏的每一次迭代中,每个参与者 k k k 都试图采取行动,以尽量减少自己的损失。

使用混合策略,参与者 k k k 根据概率分布 p ( k ) = ( p 1 ( k ) , . . . . , p N k ( k ) ) \pmb p^{(k)}=( p^{(k)}_1, .... , p^{(k)}_{N_k}) p(k)=(p1(k),....,pNk(k))在动作集 { 1 , . . . , N k } \{1,...,N_k\} {1,...,Nk}中采取行动。所有 K K K 个参与者的行动可以表示为一个随机向量 I = ( I 1 , . . . , I K ) \pmb I = (I_1, ..., I_K ) I=(I1,...,IK),其中 I k I_k Ik 是玩家 k k k 的行动,是一个在 { 1 , . . . , N k } \{1, ..., N_k\} {1,...,Nk}集合上取值的随机变量。参与者 k k k 的期望损失可以量化为:image-20230112170512370

纳什均衡(Nash equilibrium)

这是博弈论中的一个重要概念。特别地,所有参与者 p ( 1 ) × ⋅ ⋅ ⋅ × p ( K ) \pmb p^{(1)} ×···× \pmb p^{(K)} p(1)×⋅⋅⋅×p(K)的集体策略被称为纳什均衡,如果 K K K 个参与者)中的任意一个混合策略 p ( k ) \pmb p^{(k)} p(k) 被任何新的混合策略 q ( k ) \pmb q^{(k)} q(k) 所取代,而所有其他 K − 1 K−1 K1个参与人的混合策略没有改变,我们就有:
E ℓ ( k ) ( I ) ≤ E ℓ ( k ) ( I ′ ) \mathbb{E}\ell^{(k)}(\pmb I)\le\mathbb{E}\ell^{(k)}(\pmb I') E(k)(I)E(k)(I)
其中 I ′ \pmb I' I 表示K个参与者使用新策略的行动。这个定义意味着在纳什均衡中,如果其他参与者不改变策略,没有参与者可以通过改变自己的策略来减少损失。在纳什均衡中,每个参与者都有自己的最优策略,并且没有改变策略的动机。人们可以证明每个有限博弈至少有一个纳什均衡,但一个博弈可能有多个纳什均衡,这取决于博弈的结构和损失函数。

4.2 重复的两方零和博弈

K-Player Normal Form Games的一个简单但重要的特殊类别是两方零和博弈游戏,其中只有一个玩家对阵一个对手,即 K = 2 K = 2 K=2 。零和意味着对于任何行动,所有参与者的损失之和为零。这表明游戏是纯粹的竞争,一个参与者的损失导致另一个参与者的收获。在这种博弈中,第一个参与者通常被称为行参与者,第二个参与人被称为列参与者,其目标是使第一个参与人的损失最大化。

为了简化符号,我们认为行参与者有N个可能的操作,列参与者有M个可能的操作。我们用 L ∈ [ 0 , 1 ] N × M L∈[0,1]^{N ×M} L[0,1]N×M表示损失,其中 L ( i , j ) L(i, j) L(i,j)是行参与者采取行动 i i i 而列参与者选择行动 $j $的损失,行参与者和列参与者的混合策略用 p = ( p , … , p N ) \pmb p = (p,…, pN) p=(ppN) q = ( q , … , q N ) q = (q,…, qN) q=(qqN)。对于 p p p q q q 两种混合策略,行参与者的预期损失(相当于列参与者的预期收益)可以通过以下式子计算:
L ( p , q ) = ∑ i = 1 N ∑ j = 1 M p ( i ) q ( j ) L ( i , j ) L(\pmb p,\pmb q)=\sum_{i=1}^N{\sum_{j=1}^M{p(i)q(j)L(i,j)}} L(p,q)=i=1Nj=1Mp(i)q(j)L(i,j)
一对混合策略 ( p , q ) (\pmb p, \pmb q) (p,q)是纳什均衡当且仅当:
L ( p , q ′ ) ≤ L ( p , q ) ≤ L ( p ′ , q ) , ∀ p ′ , ∀ q ′ L(\pmb p,\pmb q')\le L(\pmb p,\pmb q)\le L(\pmb p',\pmb q),\quad \forall \pmb p',\forall \pmb q' L(p,q)L(p,q)L(p,q),p,q
两方零和博弈的一个自然解决方案是遵循 minimax 解。

Minimax算法又名极小化极大算法,是一种找出失败的最大可能性中的最小值的算法。Minimax算法常用于棋类等由两方较量的游戏和程序,这类程序由两个游戏者轮流,每次执行一个步骤。我们众所周知的五子棋、象棋等都属于这类程序,所以说Minimax算法是基于搜索的博弈算法的基础。该算法是一种零总和算法,即一方要在可选的选项中选择将其优势最大化的选择,而另一方则选择令对手优势最小化的方法。

(1)Minimax是一种悲观算法,即假设对手每一步都会将我方引入从当前看理论上价值最小的格局方向,即对手具有完美决策能力。因此我方的策略应该是选择那些对方所能达到的让我方最差情况中最好的,也就是让对方在完美决策下所对我造成的损失最小。

(2)Minimax不找理论最优解,因为理论最优解往往依赖于对手是否足够愚蠢,Minimax中我方完全掌握主动,如果对方每一步决策都是完美的,则我方可以达到预计的最小损失格局,如果对方没有走出完美决策,则我方可能达到比预计的最悲观情况更好的结局。总之我方就是要在最坏情况中选择最好的。

我们现在可以把博弈论和在线学习联系起来,把它看作是学习重复玩二人零和游戏的问题。在在线学习环境中,行参与者也被称为学习者,列参与者被称为环境。行参与者和列参与者之间的重复博弈被视为学习者与环境之间进行 T T T 轮交互的序列。在第 t t t 轮, t = 1 , . . . , T t=1,...,T t=1,...,T

  • 学习者选择一个混合策略 p t \pmb p_t pt;
  • 环境选择混合策略 q t \pmb q_t qt (可能由知识 p t \pmb p_t pt 选择);
  • 学习者观察损失 L ( i , q t ) ∀ i ∈ [ N ] L(i, \pmb q_t)\qquad \forall i\in [N] L(i,qt)i[N]

一般来说,学习器的目标是使累积损失最小化,即 ∑ t = 1 T L ( p t , q t ) \sum_{t=1}^TL(\pmb p_t,\pmb q_t) t=1TL(pt,qt)

引用

[1]Hoi S C H, Sahoo D, Lu J, et al. Online learning: A comprehensive survey[J]. Neurocomputing, 2021, 459: 249-289.点击阅读

[2] 数学上sup、inf含义,和max、min的区别

[3] 刘成昊. 在线学习算法研究与应用[D].浙江大学,2017.

[4] Minimax算法(极小化极大算法)及实例讲解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/158585.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Zabbix“专家坐诊”第179期问答汇总

欢迎大家加入乐维社区zabbix问答专栏&#xff0c;除了在论坛发帖求问外&#xff0c;还可以在QQ群里交流进步&#xff0c;并且每周三我们会进行免费的技术答疑活动。 问题一&#xff1a; Q&#xff1a;Zabbix alert syncer processes more than 75% busy&#xff0c;这个告警&…

Live800:优秀的在线客服系统配置哪些功能模块?

在线客服系统是企业客服解决客户疑惑的软件系统&#xff0c;是企业统一对外联系的窗口。为了提升客户服务质量&#xff0c;提高客服人员工作效率&#xff0c;越来越多的企业配置了在线客服系统。那一款优秀的在线客服系统需要配置哪些功能模块呢&#xff1f;一、在线沟通模块在…

简明精要Android IPC通信

目录 一、Android应用层IPC通信方式 二、IPC通信数据拷贝次数 这里指的从应用层角度&#xff0c;IPC通信方式。简单记录一下。 一、Android应用层IPC通信方式 Bundle&#xff1a;四大组件中的三大组件&#xff08;Activity、Service、Receiver&#xff09;都是支持在Intent中…

MySQL学习之一条SQL更新语句的执行

文章目录前言一、MySQL更新操作大致流程二、redo log介绍三、binlog介绍四、MySQL更新操作的具体流程前言 今天我们通过一条SQL更新语句&#xff0c;了解MySQL的日志系统 一、MySQL更新操作大致流程 更新数据库表上的操作&#xff0c;跟这个表有关的查询缓存会失效。这条语句…

MyBatisPlus(MP)学习记录(分页查询的开启+日志打印配置+乐观锁+映射匹配+字段匹配和表名匹配+null值判定+代码生成器等等)

MP介绍&#xff08;官网链接&#xff09; MyBatis-Plus&#xff08;简称 MP&#xff09;是一个 MyBatis 的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 前言 本篇文章展示的MP教学中涉及到的版本如下&#xff1a; IDE…

Unity 之 Addressable可寻址系统 -- 可寻址系统概念介绍 -- 入门(一)

可寻址系统面板概念 -- 入门&#xff08;一&#xff09;一&#xff0c;可寻址系统概念介绍1.1 官方话术1.2 几个概念二&#xff0c;可寻址系统目录介绍2.1 导入工程2.2 目录介绍概述&#xff1a;本片文章带大家了解可寻址系统的相关概念&#xff0c;为大家介绍可寻址系统导入方…

Elasticsearch:如何在 Docker 上运行 Elasticsearch 8.x 进行本地开发

对于 Elasticsearch 的新主要版本 (8.x.x)&#xff0c;有关于在 Docker 上运行 Elasticsearch 和 Kibana 的重大更新。 过去适用于以前版本的 Docker 和 Docker Compose 的命令和语法需要更新才能适用于最新版本。 在这篇文章中&#xff0c;我们将介绍如何使用 Docker 和 Docke…

Hudi系列5:Hudi与Spark集成

文章目录一. Spark操作Huid概述二. Spark-Shell方式三. pyspark方式四. SparkSQL方式参考:一. Spark操作Huid概述 Hudi各个版本支持Spark版本情况: 将hudi集成spark的jar包&#xff0c;放到spark的jars目录 -- 同步到其它节点 cd /home/hudi-0.12.0/packaging/hudi-spark-b…

【设计模式】UML类图

设计模式学习之旅(一) 查看更多可关注后查看主页设计模式DayToDay专栏 一.UML概述 统一建模语言&#xff08;Unified Modeling Language&#xff0c;UML&#xff09;&#xff0c;是一种用于软件系统分析和设计的语言工具。特点是简单、统一、图形化、能表达软件设计中的动态与静…

Matlab论文插图绘制模板第72期—金字塔图

前段时间&#xff0c;有朋友觉得一篇文章里的插图看着不错&#xff0c;问Matlab能不能实现&#xff1a; 想了想&#xff0c;Matlab中并没有现成的画图代码。 但本质上&#xff0c;这种图其实就是横向柱状图的变体&#xff0c;而横向柱状图的绘制模板之前有分享过&#xff1a; …

Java多线程:线程的优先级 || 线程的中断 || 线程的分类 || 线程的定时器

Java多线程&#xff1a;线程的优先级 || 线程的中断 || 线程的分类 || 线程的定时器 每博一文案 正如村上春树所说&#xff1a;“当暴风雨过去&#xff0c;你不会记得自己是如何度过的&#xff0c;你甚至不确定&#xff0c;暴风雨是否真正结束了&#xff0c; 但你已不再是当初…

分布式唯一ID的几种生成方案,一次性全掌握!

上一篇文章&#xff0c;我们聊了一下分库分表相关的一些基础知识&#xff0c;具体可以参见&#xff1a;《用真实业务场景告诉你&#xff0c;高并发下如何设计数据库架构&#xff1f;》。 这篇文章&#xff0c;我们就接着分库分表的知识&#xff0c;来具体聊一下全局唯一id如何…

Flutter 基础-上

一、初始化项目 Material Design (Google 推出的前端UI 解决方案) 官网: https://www.material.io/中文网: https://material-io.cn/ Flutter 中一切内容都是组件(Widget) 无状态组件(StatelessWidget)有状态组件(StatefulWidget) 二、app结构 MaterialApp title (任务管理器…

【VScode技巧】:platformio部署ESP32Cam开发板

学习目标&#xff1a; 前几天用Arduino开发了ESP32Cam&#xff0c;实现了人脸识别的功能&#xff0c;今天无聊想了想ESP32Can也可以在VScode的Platformio中使用&#xff0c;于是就试着配置了一下。以下是配置环境的过程&#xff0c;谢谢大家观看。 正所谓工欲善其事&#xff0c…

【零基础】学python数据结构与算法笔记10

文章目录前言57.链表介绍58.链表的创建和遍历59.链表的插入和删除60.双链表61.链表总结62.哈希表62.哈希表实现64.哈希表应用总结前言 学习python数据结构与算法&#xff0c;学习常用的算法&#xff0c; b站学习链接 57.链表介绍 链表是由一系列节点组成的元素集合。每个节点…

React配置文件(五) 配置less

代码如下: module.exports { webpack: override( addLessLoader({ lessOptions: { javascriptEnabled: true, modifyVars: { primary-color: #1DA57A }, }, }), adjustStyleLoaders(({ use: [, , postcss] }) > { const postcssOptions postcss.options postcss.options …

SEO初学者如何快速做好 SEO 优化?seo数据查询

昨天给大家介绍了seo的意义和重要性&#xff0c;今天让我们一起看看10个基本的SEO初学者技巧&#xff0c;如何优化网站以增加流量。 1. 研究关键词并使用尾词 关键词在SEO中起着重要的作用。关键字表明了你文章的主要主题&#xff0c;它使人们有可能在网上搜索感兴趣的主题时找…

RK3588平台开发系列讲解(日志篇)RK3588 syslog的使用

平台内核版本安卓版本RK3588Linux 5.10Android 12文章目录 一、查看是否启用syslog.conf二、配置启用syslog.conf1、配置busybox2、添加配置文件3、编译buildroot烧录三、验证1、编写测试代码2、查看日志文件3、运行测试程序沉淀、分享、成长,让自己和他人都能有所收获!😄 …

SpringCloudAlibaba入门(2023版)

先知 架构图一览 创建Serve端 新建项目 配置文件 application.yaml server:port: 8080# Eureka配置 eureka:instance:## Eureka实例的名称hostname: localhostAclient:# false表示自己端就是注册中心&#xff0c;职责就是维护服务实例&#xff0c;并不需要去检查服务fetch-r…

Kafka-eagle 安装教程

参考资料&#xff1a; 参考视频 Kafka-eagle官网 解释&#xff1a;Kafka-eagle 后来更名为 EFAK &#xff0c;所以打开官网会显示EFAK 环境准备&#xff1a; 要有本服务器可访问的MySQL服务&#xff0c;远程的请检查是否已经开启了MySQL远程访问&#xff0c;如果没有则需…