供应链 | 大数据报童模型:基于机器学习的实践见解

news2024/11/16 19:37:19

在这里插入图片描述

论文解读:李欣 马玺渊

作者:Gah-Yi Ban, Cynthia Rudin

引用:Ban, Gah-Yi and Cynthia Rudin. The big data newsvendor: Practical insights from machine learning. Operations Research 67.1 (2019): 90-108.

文章链接:https://doi.org/10.1287/opre.2018.1757

问题与方法简述

文章研究了大规模数据驱动的报童问题(包括 p p p个关于需求的特征和 n n n个观测值),并围绕以下四个问题展开讨论:

问题一:决策者应如何使用特征需求数据集来解决报童问题?

问题二:在报童模型决策中纳入特性的价值是什么?

问题三:使用这些数据的决策者有什么理论保证最优性?以及这些保证如何与各种问题的不同参数进行变化?

问题四:在实践中,基于特征需求数据集的报童决策与其他基准方法相比如何?

此处的“特征”指的是指外生变量(也称为协变量、属性和解释变量),它们是需求的预测因子,在需求发生之前可供决策者使用。

问题一:决策者应如何使用特征需求数据集来解决报童问题?

文章提出了两类一步式方法,基于给定的需求与相关特征数据的观测值,确定基于最优订货数量。

  • 其一基于经验风险最小化方法 (Empirical Risk Minimization, ERM) (详见 Vapnik, 1998), 适用于实施或不实施正则化两种情况。文章表示,ERM相当于高维分位回归(一种用于估计因变量和自变量关系的方法,特别适用于高维度的数据集):当不涉及正则化时,ERM方法可以看作是一种线性规划算法。当涉及正则化时,根据所使用的正则化类型( ℓ 0 , ℓ 1 , ℓ 2 \ell_0, \ell_1, \ell_2 0,1,2正则化),ERM方法可以被转化为混合整数规划、线性规划,或二阶锥规划 (Second Order Cone Programming, SOCP).
  • 其二为核权重优化 (Kernel-weights Optimization, KO),可参见 Nadaraya-Watson 核回归方法 (Nadaraya-Watson kernel regression method: Nadaraya, 1964; Watson, 1964) . 该方法下的最优数据驱动订货量可由简单的排序算法求得。

问题二:在报童模型决策中纳入特性的价值是什么?

文章通过回答问题二来证明使用特征的合理性,其中通过与没有任何特征的决策进行比较(样本平均近似,Sample Average Approximation, SAA)来分析量化特征的价值。 文章考虑两种需求模型(双人口模型和线性需求模型)的比较,并表明:无特征 SAA 决策不会收敛到真正的最优决策,而基于特征的 ERM 决策则会收敛;换句话说,无论决策者有多少个观测值,SAA 决策都有恒定偏差(即 O ( 1 ) O(1) O(1)误差),而当 n n n趋于无穷大时,基于特征的决策的任何有限样本偏差都会缩小到零 。 因此,SAA 决策可能比 ERM 决策具有更高的报童成本。

问题三:使用这些数据的决策者有什么最优性保证?以及这些保证如何与各种问题的不同参数进行变化?

在实践中,由于数据有限,决策者可能永远无法做出真正最优的决策。为了解没有完整需求分布信息的情况下的权衡,文章推导了所提出算法的理论性能界限,其包括样本内决策成本(与样本内决策的期望成本相对)与问题的各种参数,特别是 p p p n n n的真实预期成本之间的偏差。这些界限显示了样本内决策的样本外成本(“泛化误差”)如何通过一个复杂度项来偏离其样本内成本。从实际角度来看,这些界限明确表现了泛化误差(衡量样本内过拟合程度)和有限样本偏差之间的权衡,以及它们如何依赖于数据集的大小、报童成本参数和算法中的任何自由参数(控制变量)。

问题四:在实践中,基于特征需求数据集的报童决策与其他基准方法相比如何?

文章通过建立于医院急诊室的护士排班问题进行了实证研究且评估了所提出的两类算法。

  • 对于ERM算法,最优结果通过进行 ℓ 1 \ell_1 1正则化获得,其相对于最佳实践基准(按周中的某天聚类的样本平均近似值),成本降低了 23%.
  • 相对于相同的基准,使用 KO 方法的最佳结果是成本降低了 24%。两项结果均在 5% 水平上具有统计显著性。
  • 计算效率方面,通过排序过程求解的最佳 KO 方法效率极高,其只需 0.05 秒即可计算出下一个时期的最佳人员配置水平,这比最佳 ERM 方法快三个数量级,比最佳实践基准和其他基准快两个数量级。

基于特征的报童模型 (问题一)

传统的报童问题是一家公司销售易腐商品,在观察到不确定的需求之前需要下订单,目标是确定订购数量,使总预期成本最小化,即

其中 q q q是订购量, D ∈ D D\in \mathbb{D} DD是不确定(随机)的未来需求,

为订单 q q q和需求 D D D的随机成本, b b b h h h分别是单位缺货成本和单位持有成本。若需求分布 F F F 是已知的,则可以示出由 b / ( b + h ) b/(b+h) b/(b+h)分位数给出最优决策,即:

数据驱动报童模型考虑到实际中去决策者并不清楚真实需求分布的情况。若仅可以访问历史需求观测 d ( n ) = [ d 1 , d 2 , … , d n ] \mathbf d(n)=[d_{1},d_{2},\ldots,d_{n}] d(n)=[d1,d2,,dn],则可用样本平均期望值代替真实期望值,即

其中 ⋅ ^ \hat{\cdot} ^表示根据数据估计的订购量,其最优SAA决策为

q ∗ = inf ⁡ { y : F n ^ ( y ) ≥ b b + h } , q^{*}= \inf{\{y:\hat{F_n}(y)\geq }\frac{b}{b+h}\}, q=inf{y:Fn^(y)b+hb},

其中 F n ^ ( . ) \hat{F_n}(.) Fn^(.)是来自 n n n个观测需求的经验累积分布函数。

基于特征的报童模型 在实践中,需求取决于许多可观察到的特征,例如季节性、天气、位置和经济指标,其皆可在下订单前已知并用于订单决策中。于是,实际报童问题为最优条件期望成本函数(此处定义为问题1):

其中 x \mathbf{x} x是高维特征,需求 D ( x ) D(\mathbf{x}) D(x)是特征向量 x \mathbf{x} x的函数。此时的决策则为一个将特征空间 X ⊂ R p \mathcal{X}\subset\mathbb{R}^p XRp映射到实数空间的函数,而要最小化的期望成本则以特征向量 x ∈ X ⊂ R p \mathbf{x}\in\mathcal{X}\subset\mathbb{R}^p xXRp为条件。

基于特征的报童模型的求解算法(问题一)

ERM 算法

假设决策者已经收集了适当的历史数据 S n = [ ( x 1 , d 1 ) , … , ( x n , d n ) ) ] S_n=[(\mathbf{x}_1,d_1),\ldots,(\mathbf{x}_n,d_n))] Sn=[(x1,d1),,(xn,dn))],每个特征 x \mathbf{x} x均是 p p p维的。解决基于特征的报童模型的ERM算法可描述为 (NV-ERM)
min ⁡ q ( . ) ∈ Q , { q : X → R } R ^ ( q ( . ) ; S n ) = 1 n ∑ i = 1 n [ b ( d i − q ( x i ) + + h ( q ( x i ) − d i ) + ] , \displaystyle\min_{q(.)\in\mathcal{Q},\{q:\mathbf{X}\rightarrow \mathbb{R\}}}\hspace{0.15cm} \hat{R}(q(.);S_n)=\frac{1}{n} \sum_{i=1}^n[b(d_i-q(\mathbf{x}_i)^{+}+h(q(\mathbf{x}_i)-d_i)^+], q(.)Q,{q:XR}minR^(q(.);Sn)=n1i=1n[b(diq(xi)++h(q(xi)di)+],

其中 R ^ \hat{R} R^为函数 q q q相对于数据集 S n S_n Sn的经验风险。假设 q q q可由某些参数表示,文章考虑以下线性决策形式:
Q = { q : X → R : q ( x ) = q ′ x = ∑ j = 1 p q j x j } . \mathcal{Q}={\{q:\mathcal{X}\rightarrow\mathbb{R}:q(\mathbf{x})=\mathbf{q}\prime\mathbf{x}=\sum_{j=1}^p q^jx^j}\}. Q={q:XR:q(x)=qx=j=1pqjxj}.

以经验风险作为优化目标,当 p p p相对小时,目标函数可表示为 (NV-ERM1)
min ⁡ q : q ( x ) = ∑ j = 1 p q j x j R ^ ( q ( . ) ; S n ) = 1 n ∑ i = 1 n [ b ( d i − q ( x i ) + + h ( q ( x i ) − d i ) + ] ; \displaystyle\min_{q:q(\mathbf{x})=\sum_{j=1}^p q^jx^j}\hspace{0.15cm} \hat{R}(q(.);S_n)=\frac{1}{n} \sum_{i=1}^n[b(d_i-q(\mathbf{x}_i)^{+}+h(q(\mathbf{x}_i)-d_i)^+]; q:q(x)=j=1pqjxjminR^(q(.);Sn)=n1i=1n[b(diq(xi)++h(q(xi)di)+];

相反,当 p p p相对大时( p ≥ n p\ge{n} pn),加入正则项为 (NV-ERM2):
min ⁡ q : q ( x ) = ∑ j = 1 p q j x j R ^ ( q ( . ) ; S n ) = 1 n ∑ i = 1 n [ b ( d i − q ( x i ) + + h ( q ( x i ) − d i ) + ] + λ ∥ q ∥ k 2 , \displaystyle\min_{q:q(\mathbf{x})=\sum_{j=1}^p q^jx^j} \hspace{0.15cm}\hat{R}(q(.);S_n)=\frac{1}{n} \sum_{i=1}^n[b(d_i-q(\mathbf{x}_i)^{+}+h(q(\mathbf{x}_i)-d_i)^+]+\lambda\lVert{\mathbf{q}}\rVert_{k}^2, q:q(x)=j=1pqjxjminR^(q(.);Sn)=n1i=1n[b(diq(xi)++h(q(xi)di)+]+λqk2,

其中 λ > 0 \lambda>0 λ>0为正则系数, ∣ ∣ q ∣ ∣ k ||\mathbf{q}||_k ∣∣qk表示向量 q = [ q 1 , … , q p ] \mathbf{q}=[q^1,\ldots,q^p] q=[q1,,qp] ℓ k \ell_k k范数。若以 ℓ 2 \ell_2 2为正则范数,则问题转化为二阶锥规划。若可预测需求很小,则可以使用 ℓ 0 \ell_0 0半范数或 ℓ 1 \ell_1 1范数 来增大系数向量的稀疏性,进而问题转化为MILP 或 LP。NV-ERM1 和 NV-ERM2 的完整模型可参考原文或下图。

KO 算法

给定历史数据 ( x 1 , y 1 ) , … , ( x n , y n ) (\mathbf{x}_1,y_1),\ldots,(\mathbf{x}_n,y_n) (x1,y1),,(xn,yn),Nadaraya and Watson 提出局部加权平均来估计 m ( x n + 1 ) = E [ Y ∣ x n + 1 ] m(\mathbf{x}_{n+1})=\mathbb{E}[Y|\mathbf{x}_{n+1}] m(xn+1)=E[Yxn+1]:
m h ( x n + 1 ) = ∑ i = 1 n K w ( x n + 1 − x i ) y i ∑ i = 1 n K w ( x n + 1 − x i ) , m_h(\mathbf{x}_{n+1})=\frac{\sum_{i=1}^nK_w(\mathbf{x}_{n+1}-\mathbf{x}_{i})y_i}{\sum_{i=1}^nK_w(\mathbf{x}_{n+1}-\mathbf{x}_{i})}, mh(xn+1)=i=1nKw(xn+1xi)i=1nKw(xn+1xi)yi,

其中 K w ( . ) K_w(.) Kw(.)是具有带宽 w w w的核函数。现对于订购量 q q q, 在观察特征 x n + 1 \mathbf{x}_{n+1} xn+1之后的特征相关报童期望成本可表示为 E [ C ( q ; D ) ∣ x n + 1 ] \mathbb{E}[C(q;D)|\mathbf{x}_{n+1}] E[C(q;D)xn+1]; 因此,如果将报童成本视为因变量,可以通过 Nadaraya-Watson 方法进行估计,即
∑ i = 1 n K w ( x n + 1 − x i ) C ( q ; d i ) ∑ i = 1 n K w ( x n + 1 − x i ) . \frac{\sum_{i=1}^nK_w(\mathbf{x}_{n+1}-\mathbf{x}_{i})C(q;d_i)}{\sum_{i=1}^nK_w(\mathbf{x}_{n+1}-\mathbf{x}_{i})}. i=1nKw(xn+1xi)i=1nKw(xn+1xi)C(q;di).
文章将以上针对特征数据驱动的报童模型的方法称为核优化 (NV-KO), 即
min ⁡ q ≥ 0 R ~ ( q ; S n , x n + 1 ) = min ⁡ q ≥ 0 ∑ i = 1 n K w ( x n + 1 − x i ) C ( q ; d i ) ∑ i = 1 n K w ( x n + 1 − x i ) , \displaystyle\min_{q\ge0}\hspace{0.1cm} \tilde{R}(q;S_n,\mathbf{x}_{n+1})=\displaystyle\min_{q\ge0}\hspace{0.1cm} \frac{\sum_{i=1}^nK_w(\mathbf{x}_{n+1}-\mathbf{x}_{i})\mathop{}C(q;d_i)}{\sum_{i=1}^nK_w(\mathbf{x}_{n+1}-\mathbf{x}_{i})}, q0minR~(q;Sn,xn+1)=q0mini=1nKw(xn+1xi)i=1nKw(xn+1xi)C(q;di),

为一维分段线性优化问题,其最优报童模型决策 q ^ n k \hat{q}^k_n q^nk
q ^ n k = q ^ n k ( x n + 1 ) = inf ⁡ { q : ∑ i = 1 n k i I ( d i ≤ q ) ∑ i = 1 n k i ≥ b b + h } , \hat{q}_n^k=\hat{q}_n^k(\mathbf{x}_{n+1})=\inf{\{q:\frac{\sum_{i=1}^n\mathcal{k}_i\mathbb{I}(d_i\leq{q})}{\sum_{i=1}^n\mathcal{k}_i}\geq }\frac{b}{b+h}\}, q^nk=q^nk(xn+1)=inf{q:i=1nkii=1nkiI(diq)b+hb},

其中 k i = K w ( x n + 1 − x i ) . \mathcal{k}_i=K_w(\mathbf{x}_{n+1}-\mathbf{x}_{i}). ki=Kw(xn+1xi).

截止文章发表为止,在库存决策中纳入外源信息的算法还包括:Liyanage and Shanthikumar (2005) 的操作统计 (Operational Statistics, OS)、See and Sim(2010)通过考虑线性决策规则以及分段线性决策规则来解决鲁棒问题、Hannal et al. (2010) 的周期随机优化问题。在原文的实例研究中,文章考虑了使用操作统计学启发式特征,结合NV-ERM1 和2, 在有无特征的情况下进行求解并进行比较。

特征信息的价值(问题二)

文章通过将 NV-ERM1 决策与仅根据过去的需求数据做出的 SAA 决策进行比较,量化在报童决策中纳入特征的价值。 考虑两种需求模型,两群体需求模型和线性需求模型:在这两种情况下,文章通过理论证明(原文引理1和引理2, 定理1,2,3),**SAA决策产生不一致的决策,而基于特征的判定是一致的;进一步量化对预期成本的影响,对于远离真正最优的决策来说,预期成本必然更大。**简述如下:

两群体需求模型 D = D 0 ( 1 − x ) + D 1 x D=D_0(1-x)+D_1x D=D0(1x)+D1x

  • NV-ERM1 最优订货量

q ^ n 0 = inf ⁡ { q : F ^ 0 ( q ) ≥ b b + h } = d ( ⌈ n 0 r ⌉ ) 0 , if  x n + 1 = 0 ; \hat{q}^0_n=\inf\{q:\hat{F}_0(q)\geq \frac{b}{b+h}\}=d^0_{(\lceil{n_0r}\rceil)},\qquad \text{if }x_{n+1}=0; q^n0=inf{q:F^0(q)b+hb}=d(⌈n0r⌉)0,if xn+1=0;

q ^ n 1 = inf ⁡ { q : F ^ 1 ( q ) ≥ b b + h } = d ( ⌈ n 1 r ⌉ ) 1 , if  x n + 1 = 1. \hat{q}^1_n=\inf\{q:\hat{F}_1(q)\geq \frac{b}{b+h}\}=d^1_{(\lceil{n_1r}\rceil)},\qquad \text{if }x_{n+1}=1. q^n1=inf{q:F^1(q)b+hb}=d(⌈n1r⌉)1,if xn+1=1.

q ^ n 0 \hat{q}^0_n q^n0 用于解决 x = 0 x=0 x=0对应的数据子样本SAA问题,而 q ^ n 0 + q ^ n 1 \hat{q}^0_n+\hat{q}^1_n q^n0+q^n1用于解决解决 x = 1 x=1 x=1对应的数据子样本SAA问题。

  • NV-ERM1的有限样本偏差和渐近最优性:基于特征的决策的有限样本决策的偏差最多为 O ( log ⁡ n i / n i ) , i = 1 , 2 \mathcal{O}(\log n_i/n_i), i=1,2 O(logni/ni),i=1,2:

∣ E [ q ^ n i ] − F 0 − 1 ( r ) ∣ ≤ O ( log ⁡ n i n i ) , i = 0 , 1. |\mathbb{E}[\hat{q}_n^i]-F_0^{-1}(r)|\leq \mathcal{O}(\frac{\log n_i}{n_i}), i=0,1. E[q^ni]F01(r)O(nilogni),i=0,1.

基于特征的决策是渐近最优的,随着观测值数量趋于无穷大,其可以正确识别 x = 0 x=0 x=0 1 1 1的具体情况。

lim ⁡ n → ∞ q ^ n i = a . s . F 0 − 1 ( r ) = : q i ∗ , i = 0 , 1 \lim_{n\rightarrow\infty}\hat{q}_n^i\overset{a.s.}{=}F_0^{-1}(r)=:q_i^*, i=0,1 nlimq^ni=a.s.F01(r)=:qi,i=0,1

  • SAA 最优订货量

q ^ n S A A = inf ⁡ { q : F ^ n m i x ( q ) ≥ b b + h } = d ( ⌈ n r ⌉ ) . \hat{q}^{SAA}_n=\inf\{q:\hat{F}^{mix}_n(q)\geq \frac{b}{b+h}\}=d_{(\lceil{nr}\rceil)}. q^nSAA=inf{q:F^nmix(q)b+hb}=d(⌈nr⌉).

  • SAA 的有限样本偏差和渐近(sub)最优性:平均而言,如果在下一个决策周期内 x = 0 x=0 x=0,则SAA决策命令过多,如果 x = 1 x=1 x=1,则SAA决策命令过少。并且 SAA 决策不是渐近最优的(不一致),也就是说,即使有无限量的需求数据,无特征的 SAA 决策也会收敛到与真实最优值不同的数量。

线性需求模型 D ∣ ( X = x ) = β T x + ϵ D|(\mathbf{X}=\mathbf{x})=\beta^{T}\mathbf{x}+\epsilon D(X=x)=βTx+ϵ$, $ ϵ ∼ F ϵ \epsilon \sim F_{\epsilon} ϵFϵ与特征向量 X \mathbf{X} X独立。

  • SAA与DM2的订购量 q ^ S A A \hat{q}^{SAA} q^SAA, q ^ D M 2 \hat{q}^{DM2} q^DM2分别为

q ^ S A A ( x n + 1 ) = inf ⁡ { y : F ^ n 0 ( y ) ≥ b b + h } + d ˉ n \textstyle\hat{q}^{SAA}(\mathbf{x}_{n+1}) = \inf\{y: \hat{F}_n^0(y)\geq \frac{b}{b+h}\}+\bar{d}_n q^SAA(xn+1)=inf{y:F^n0(y)b+hb}+dˉn

q ^ D M 2 ( x n + 1 ) = inf ⁡ { y : F ^ n 2 ( y ) ≥ b b + h } + ∑ k = 2 p q ^ k x n + 1 k \textstyle\hat{q}^{DM2}(\mathbf{x}_{n+1}) = \inf\{y: \hat{F}_n^2(y)\geq \frac{b}{b+h}\}+\sum_{k=2}^p\hat{q}^kx_{n+1}^k q^DM2(xn+1)=inf{y:F^n2(y)b+hb}+k=2pq^kxn+1k

其中 F ^ n 2 \hat{F}^2_n F^n2 { d i − ∑ k = 2 p q ^ k x i k } \{d_i-\sum_{k=2}^{p}\hat{q}^kx_i^k\} {dik=2pq^kxik}的经验分布,且 q ^ k , \hat{q}^k, q^k, k = 2 , … , p k=2,\dots,p k=2,,p是NV-ERM1解的系数。

  • 没有特征会导致不一致的决策

q ^ n S A A ( x ~ ) → a . s . Q ϵ ( b b + h ) + E x [ E ϵ [ D ∣ X ] ] = Q ϵ ( b b + h ) + β T E [ X ] \textstyle\hat{q}_n^{SAA}(\tilde{\mathbf{x}})\overset{a.s.}{\rightarrow}Q_{\epsilon}(\frac{b}{b+h})+\mathbb{E}_{\mathbf{x}}[\mathbb{E}_{\epsilon}[D|\mathbf{X}]] = Q_{\epsilon}(\frac{b}{b+h})+\beta^T\mathbb{E}[\mathbf{X}] q^nSAA(x~)a.s.Qϵ(b+hb)+Ex[Eϵ[DX]]=Qϵ(b+hb)+βTE[X]

q ^ n D M 2 ( x ~ ) → a . s . Q ϵ ( b b + h ) + β T x ~ = q ∗ ( x ~ ) \textstyle\hat{q}_n^{DM2}(\tilde{\mathbf{x}})\overset{a.s.}{\rightarrow}Q_{\epsilon}(\frac{b}{b+h})+\beta^T\tilde{\mathbf{x}} = q^*(\tilde{\mathbf{x}}) q^nDM2(x~)a.s.Qϵ(b+hb)+βTx~=q(x~)

SAA决策收敛于离散度 ε \varepsilon ε加上总体时间平均需求的临界分位数 E X [ E ε [ D ∣ X ] ] \mathbb{E}_\mathbf{X}[\mathbb{E}_\mathbf{\varepsilon}[D|\mathbf{X}]] EX[Eε[DX]],而DM2的决策收敛到正确的决策 q ∗ ( x ~ ) q^*{(\tilde{\mathbf{x}})} q(x~)。由SAA的不一致性产生一个问题:就预期成本而言,远离真正最优的决策必然更差吗? 换句话说,当特征信息的效果增加时,预期成本的损失是否会增加?

  • 预期成本差值。 原文通过定理4证明,设 q ∗ = q ∗ ( x ~ ) q^*=q^*(\tilde{\mathbf{x}}) q=q(x~)表示基于特征 x ~ \tilde{\mathbf{x}} x~和非最优解 q ^ \hat{q} q^的报童模型最优解,则两个决策所产生的成本差值为

    E C ( q ^ ; D ) − E C ( q ∗ ; D ) = ( b + h ) E [ ∣ q ^ − D ∣ I { ( q ^ ∨ q ∗ ) ≤ D ≤ ( q ^ ∨ q ∗ ) } ] . \mathbb{E}C(\hat{q};D)-\mathbb{E}C(q^*;D)=(b+h)\mathbb{E}[|\hat{q}-D|\textstyle\mathbb{I}\{(\hat{q}\lor q^*)\leq D \leq (\hat{q}\lor q^*)\}]. EC(q^;D)EC(q;D)=(b+h)E[q^DI{(q^q)D(q^q)}].

观察到预期成本差值随 ∣ q ^ − D ∣ |\hat{q}-D| q^D的期望在两个决策之间 q ^ \hat{q} q^ q ∗ q^* q的区间上变化。预期成本差异随着 q ^ \hat{q} q^偏离 q ∗ q^* q而增加。差异的大小与该区间长度以及需求在该区间上的分布情况相关,分布越集中,差异就越大。

尽管上述结论证明了特征集合的合理性,但一个缺点是,决策者需要知道需求分布以量化次优样本内决策所带来的预期成本增益,但事实不尽如此。文章随后使用现有信息以高概率范围,来描述决策者的样本内决策的预期成本。

使用样本内信息的样本外成本界限(问题三)

文章对 NV-ERM1、NV-ERM2 和 NV-KO 选择的排序决策的样本外成本提供理论保证,目标是提供可利用现有数据计算的性能界限。我们看到性能界限分为两个部分:一个与有限数据量产生的偏差有关,通常称为有限样本偏差,另一个与样本内决策的方差有关,称为泛化误差

术语“泛化”是指样本内决策对样本外数据的泛化能力,并且是过度拟合程度的度量,因为泛化误差较大的决策与较大的过度拟合相关。 过度拟合的决策可能会产生误导; 例如,如果样本内决策的选择有很大的自由度,那么样本内成本可能为零,导致决策者认为完美排序是可能的。然而,精明的决策者如果意识到过度拟合的危险,就会谨慎地仅根据样本内数据得出结论,而泛化误差为决策者的决策提供了过度拟合如何产生的描述。

定义“真实风险”为样本外风险,其中期望关于某未知分布 X × D \mathcal{X}\times\mathcal{D} X×D, X ⊂ R p \mathcal{X}\subset\mathbb{R}^p XRp:

R t r u e ( q ) : = E D ( x ) [ C ( q ; D ( x ) ) ] R_{true}(q):= \mathbb{E}_{D(\mathbf{x})}[C(q;D(\mathbf{x}))] Rtrue(q):=ED(x)[C(q;D(x))]

定义经验风险为训练样本的平均成本:

R ^ ( q ; S n ) : = 1 n ∑ i = 1 n C ( q , d i ( x i ) ) \hat{R}(q;S_n):=\frac{1}{n}\sum_{i=1}^{n}C(q,d_i(\mathbf{x}_i)) R^(q;Sn):=n1i=1nC(q,di(xi))

经验风险可以计算,而真实风险则不能; 然而仅凭经验风险并不能完整地反映真实风险。 基于三点假设(详见原文4.1)文章提供了关于真实风险的概率上界,其与经验风险和算法稳定性方法相关。 定理5-7的假设见原文第4节。

  • NV-ERM1的样本外性能(原文定理5):样本内决策成本与真正最优决策的预期成本的差值绝对值

    ∣ R t r u e ( q ∗ ) − R ^ i n ( q ^ ; S n ) ∣ \textstyle |R_{true}(q^*)-\hat{R}_{in}(\hat{q};S_n)| Rtrue(q)R^in(q^;Sn)

    ≤ ( b ∨ h ) D ˉ [ 2 ( b ∨ h ) b ∧ h p n + ( 4 ( b ∨ h ) b ∧ h p + 1 ) log ⁡ ( 2 / σ ) 2 n ] \textstyle\qquad\leq(b\lor{h})\bar{D}[\frac{2(b\lor{h})}{b\land{h}}\frac{p}{n}+(\frac{4(b\lor{h})}{b\land{h}}p+1)\sqrt{\frac{\log{(2/\sigma)}}{2n}}] (bh)Dˉ[bh2(bh)np+(bh4(bh)p+1)2nlog(2/σ) ]

    + ( b ∨ h ) K log ⁡ n n 1 / ( 2 + p / 2 ) \textstyle\hspace{3.62cm}+(b\lor{h})K\frac{\sqrt{\log{n}}}{n^{1/(2+p/2)}} +(bh)Kn1/(2+p/2)logn

    其中 K = 9 ( 8 + 5 p ) ( 4 + p ) 1 ( 1 − 2 − 4 / ( 4 + p ) ) λ 2 ∗ \textstyle K=\sqrt{\frac{{9(8+5p)}}{(4+p)}}\frac{1}{(1-2^{-4/(4+p)})\lambda_2^*} K=(4+p)9(8+5p) (124/(4+p))λ21, λ 2 ∗ = min ⁡ t ∈ [ D ‾ , D ˉ ] f ε ( t ) \textstyle\lambda_2^*=\min_{t\in[\underline{D},\bar{D}]}f_{\varepsilon}(t) λ2=mint[D,Dˉ]fε(t), n ≥ 3. \textstyle n\geq 3. n3.

  • 右侧上界的第一项是泛化误差的界,泛化误差是样本内决策的训练误差和测试误差之间的差。对于固定成本参数 b 和 h,我们发现泛化误差为 O ( p / n ) O(p/\sqrt{n}) O(p/n )。因此,如果总体模型中的相关特征的数量很小,并且相对于观测值的数量不增长,则样本内决策可以很好地推广到样本外数据。换句话说,过拟合不应该是问题。关于进一步的细节,请参考附录C和Bousquet和Elisseeff(2002)中的证明。右侧上界的第二项是由于 E [ q ∗ − q ^ ] \mathbb{E}[q^*-\hat{q}] E[qq^] 的有限样本偏差。关于细节,请参考附录C中定理5的证明。

  • NV-ERM2的样本外性能(原文定理6):在上式基础上引入正则项

    ∣ R t r u e ( q ∗ ) − R ^ i n ( q λ ^ ; S n ) ∣ \textstyle|R_{true}(q^*)-\hat{R}_{in}(\hat{q_{\lambda}};S_n)| Rtrue(q)R^in(qλ^;Sn)

    ≤ ( b ∨ h ) D ˉ [ ( b ∨ h ) X m a x 2 p n λ D ˉ + ( 2 ( b ∨ h ) X m a x 2 p λ D ˉ + 1 ) log ⁡ ( 2 / σ ) 2 n ] \textstyle\quad\leq(b\lor{h})\bar{D}[\frac{(b\lor{h})X_{max}^2p}{n\lambda {\bar{D}}}+(\frac{2(b\lor{h})X_{max}^2p}{\lambda {\bar{D}}}+1)\sqrt{\frac{\log{(2/\sigma)}}{2n}}] (bh)Dˉ[Dˉ(bh)Xmax2p+(λDˉ2(bh)Xmax2p+1)2nlog(2/σ) ]

    + ( b ∨ h ) E D ∣ x n + 1 [ ∣ q ^ λ − q ^ ∣ ] + ( b ∨ h ) K log ⁡ n n 1 / ( 2 + p / 4 ) \textstyle\quad + (b\lor{h})\mathbb{E}_{D|\mathbf{x}_{n+1}}[|\hat{q}_\lambda-\hat{q}|]+(b\lor{h})K\frac{\sqrt{\log{n}}}{n^{1/(2+p/4)}} +(bh)EDxn+1[q^λq^]+(bh)Kn1/(2+p/4)logn

    其中 K = 9 ( 8 + 5 p ) ( 4 + p ) 1 ( 1 − 2 − 4 / ( 4 + p ) ) λ 2 ∗ \textstyle K=\sqrt{\frac{{9(8+5p)}}{(4+p)}}\frac{1}{(1-2^{-4/(4+p)})\lambda_2^*} K=(4+p)9(8+5p) (124/(4+p))λ21, λ 2 ∗ = min ⁡ t ∈ [ D ‾ , D ˉ ] f ε ( t ) \textstyle \lambda_2^*=\min_{t\in[\underline{D},\bar{D}]}f_{\varepsilon}(t) λ2=mint[D,Dˉ]fε(t), n ≥ 3. \textstyle n\geq 3. n3.

第一项是泛化误差的界,其为 O ( p / λ n ) \mathcal{O}(p/\lambda{\sqrt{n}}) O(p/λn )。因此,过拟合的量可以通过施加在问题上的正则化的量来直接控制,λ越大,泛化误差越小。其中不等式右侧第二项其未出现在定理5中,是由于正则化引起的样本内决策的偏差。对于较大的 λ,该项较大,因此在泛化误差和正则化偏差之间存在折衷。第三项也是最后一项是有限样本偏差。虽然正则化偏差可以通过 λ 来控制,但有限样本偏差只能通过收集更多的数据来控制。

  • NV-KO 的样本外性能(原文定理7):

    ∣ R t r u e ( q ∗ ) − R ^ i n ( q ^ ; S n ) ∣ \textstyle |R_{true}(q^*)-\hat{R}_{in}(\hat{q};S_n)| Rtrue(q)R^in(q^;Sn)

    ≤ ( b ∨ h ) D ˉ [ 2 ( b ∨ h ) b ∧ h 1 1 + ( n − 1 ) r w ( p ) \textstyle\quad \leq(b\lor{h})\bar{D}[\frac{2(b\lor{h})}{b\land{h}}\frac{1}{1+(n-1)\mathbb{r}_w(p)} (bh)Dˉ[bh2(bh)1+(n1)rw(p)1

    + ( 4 ( b ∨ h ) 1 / n + ( 1 − 1 / n ) r w ( p ) + 1 ) log ⁡ ( 2 / σ ) 2 n ] \textstyle\quad +(\frac{4(b\lor{h})}{1/n+(1-1/n)r_w(p)}+1)\sqrt{\frac{\log{(2/\sigma)}}{2n}}] +(1/n+(11/n)rw(p)4(bh)+1)2nlog(2/σ) ]

    + ( b ∨ h ) E D ∣ x n + 1 [ ∣ q ^ k − q ^ ∣ ] + ( b ∨ h ) K log ⁡ n n 1 / ( 2 + p / 2 ) \textstyle\quad +(b\lor{h})\mathbb{E}_{D|\mathbf{x}_{n+1}}[|\hat{q}^k-\hat{q}|]+(b\lor{h})K\frac{\sqrt{\log{n}}}{n^{1/(2+p/2)}} +(bh)EDxn+1[q^kq^]+(bh)Kn1/(2+p/2)logn

其中 r w ( p ) = exp ⁡ ( − 2 X m a x 2 p / w 2 ) \textstyle r_w(p)=\exp(-2X_{max}^2p/w^2) rw(p)=exp(2Xmax2p/w2), w \textstyle w w 为核函数的带宽, K = 9 ( 8 + 5 p ) ( 4 + p ) 1 ( 1 − 2 − 4 / ( 4 + p ) ) λ 2 ∗ \textstyle K=\sqrt{\frac{{9(8+5p)}}{(4+p)}}\frac{1}{(1-2^{-4/(4+p)})\lambda_2^*} K=(4+p)9(8+5p) (124/(4+p))λ21, λ 2 ∗ = min ⁡ t ∈ [ D ‾ , D ˉ ] f ε ( t ) \textstyle \lambda_2^*=\min_{t\in[\underline{D},\bar{D}]}f_{\varepsilon}(t) λ2=mint[D,Dˉ]fε(t), n ≥ 3. \textstyle n\geq3. n3.

关于 NV-KO 的性能界限具有三个分量:泛化误差的界限,当真实决策是函数时由于用数量决策优化而导致的偏差,以及有限样本偏差项。泛化误差为 O ( 1 / r w ( p ) n ) \mathcal{O}(1/r_w(p)\sqrt{n}) O(1/rw(p)n ),因此可以通过增加核带宽 w w w 来降低 r w ( p ) r_w(p) rw(p) 进行控制。然而,与NV-ERM 2一样,增加的 w w w 增加了第二项误差,因此在实践中 w w w 需要在合理的值范围内优化。有限样本偏差项与定理5-6中的相应项起着相同的作用。

实例研究:急诊室护士排班问题(问题四)

文章通过医院急诊室的护士配置问题,即医院在某一天应该安排多少个护士,应用这三种算法 (NV-ERM1, NV-ERM2, NV-KO),以找到最佳的医院急诊室护士的人员配置水平。由于发达国家的大多数医院都规定或建议最低护士与患者的比例,近似护士配备问题作为一个报童问题,护士人员配备问题是测试文章介绍的数据驱动模型的自然环境。

文章的数据来自2008年7月至2009年6月英国一家大型教学医院的急诊室。数据集包括以2小时间隔在急诊室中的患者总数。在图1中提供了按天和按时间段的患者数量的箱形图。数据显示病人的数量与时间有一定的相关性。详情请见原文第五节。

假设护士与病人的比例为 1 : 5 1:5 1:5,机构护士的小时工资是正规护士的2.5倍, b = 2.5 / 3.5 b=2.5/3.5 b=2.5/3.5, h = 1 / 3.5 h=1/3.5 h=1/3.5,目标分位数为 r = 2.5 / 3.5 r=2.5/3.5 r=2.5/3.5。考虑两组特征:

  • 第一组是每周某天,每天某时,以及记录过去需求的天数 m m m;

  • 第二组是第一组的样本加上过去需求的样本平均值和过去需求的顺序统计量的差(操作统计(OS)特征,详见 Liyanage and Shanthikumar, 2005).

文章使用 n = 1344 n=1344 n=1344个历史需求观察(16周)作为训练数据,并计算3个周期前的关键人员配备水平。然后,在 1344 / 2 = 672 1344/2 = 672 1344/2=672 验证数据上记录预计人员配置水平的样本外报童成本。文章所考虑的16种不同方法及缩写如下表所示。

表1:方法汇总

表2 汇总了文章所考虑的 16 种方法的样本外表现,其中包括校准参数 (calibrated parameter)、平均计算时间(秒)、均值、95% 置信区间(详见原文附录表 EC.1–EC.7),以及该方法的年度节省成本。

表2:结果汇总

以上结果中,最佳结果通过采用带宽 w = 1.62 w=1.62 w=1.62 的 KO 方法获得,其相对于最佳实践基准(“SAA 天”),成本改善了 24%(每年节省 46,555 英镑),具有5%的统计显著性在水平。次好结果是采用 ℓ 1 \ell_1 1正则化的 ERM 方法和不考虑 OS 特征的 KO 方法,其平均年成本分别降低了 23%(每年 44,219 英镑)和 21%(每年 39,915 英镑)。

然而,基于特征的方法的计算成本非常不同。 KO 方法比基于 ERM 的方法快三个数量级。 例如,使用具有 OS 特征的 KO 方法仅需 0.0494 秒即可找到下一个最佳人员配置水平,而采用 ℓ 1 \ell_1 1正则化的 ERM 方法则需要 114 秒。

实践见解

  1. 没有单一的方法可以解决大数据报童问题。 文章提出了三种使用特征需求数据集的方法,并与使用或不使用特征来解决问题的许多其他潜在方法进行了比较。 这并不是说这些方法是详尽无遗的。 我们对开发新方法持乐观态度。
  2. 大数据驱动的决策者总是需要警惕过度拟合,因为决策在样本内表现良好,但在样本外则不然,因此,不仅会导致决策表现不佳,还会导致决策失败。 文章已经证明,过拟合可以通过先验特征选择或正则化来控制,这为决策者提供了额外的控制权,使决策有利于改进样本外泛化。
  3. 影响样本内决策真实性能的因素包括泛化误差(又名过度拟合误差)、正则化带来的偏差以及仅因数据量有限而产生的有限样本偏差。 决策者可以通过正则化参数控制正则化产生的泛化误差和偏差,在实践中,需要在单独的验证数据集上对一系列参数值进行优化。 除非收集更多数据,否则无法控制有限样本偏差。
  4. 尽管在文章的案例研究中,KO 方法在样本外性能方面优于所有其他方法,但对于不同的数据集,情况不一定如此。 我们认为,案例研究最重要的一点是展示如何进行仔细的数据驱动调查,而不是针对具体案例得出 KO 方法表现最佳的结论。 然而,我们注意到 KO 方法的相对速度是可以推广的。

参考文献

Bousquet, Olivier, André Elisseeff. 2002. Stability and generalization. The Journal of Machine Learning.
Liyanage LH, Shanthikumar JG (2005) A practical inventory control policy using operational statistics. Oper. Res. Lett. 33(4):341–348.
Nadaraya EA (1964) On estimating regression. Theory Probab. Appl. 9(1):141–142.
See C-T, Sim M (2010) Robust approximation to multiperiod inventory management. Oper. Res. 58(3):583–594.
Vapnik VN (1998) Statistical Learning Theory (Wiley, New York).
Watson GS (1964) Smooth regression analysis. Sankhya: Indian J. Statist. Ser. A. 26(4):359–372.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/908836.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

零阶矩、一阶矩、二阶矩、…

数学中矩的概念来自物理学。在物理学中,矩是表示距离和物理量乘积的物理量,表征物体的空间分布。矩在统计学和图像中都有很重要作用,我们常用的Adam优化器其全称为自适应矩估计优化器。本文将介绍各阶矩的理解和不同场景的应用。 Key Words&a…

【初体验】使用微信开发工具

1.设置合法域名 2.微信登录用户信息获取 如果要求登录后&#xff0c;无法显示用户信息 则应该修改一下【调试基础库】 3.获取用户登录的openid index/index.wxml <view><button type"warn" bindtap"wxLogin">微信登录</button>授权码&…

记录一个用C#实现的windows计时执行任务的服务

记录一个用C#实现的windows计时执行任务的服务 这个服务实现的功能是每天下午六点统计一次指定路径的文件夹大小 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Diagnostics; using System.IO; using Syst…

日撸代码300行:第66-68天(主动学习之 ALEC)

代码来自闵老师”日撸 Java 三百行&#xff08;61-70天&#xff09; 日撸 Java 三百行&#xff08;61-70天&#xff0c;决策树与集成学习&#xff09;_闵帆的博客-CSDN博客 本次代码的实现是基于高斯密度&#xff0c;ALEC算法原文是基于密度峰值&#xff0c;同样是基于密度聚类…

HTTPS 握手过程

HTTPS 握手过程 HTTP 通信的缺点 通信使用明文&#xff0c;内容可能被窃听(重要密码泄露)不验证通信方身份&#xff0c;有可能遭遇伪装(跨站点请求伪造)无法证明报文的完整性&#xff0c;有可能已遭篡改(运营商劫持) HTTPS 握手过程 客户端发起 HTTPS 请求 用户在浏览器里…

Spring之ioc容器

目录 1.简介 2.为什么学习Spring 3.Spring的核心特性 4.Spring ioc 容器的特点 5.Spring的注入方式 6.web整合容器 1.简介&#xff1a; Spring简介 Spring是一个开源框架&#xff0c;它由Rod Johnson创建。它是为了解决企业应用开发的复杂性而创建的。 Spring使用基本的J…

听GPT 讲Alertmanager源代码--notify

api/&#xff1a;这个目录包含了Alertmanager的API实现&#xff0c;包括v1和v2版本的API。 assets/&#xff1a;这个目录包含了静态资源文件&#xff0c;如HTML、JavaScript和CSS文件&#xff0c;它们用于构建Alertmanager的Web UI。 cmd/&#xff1a;这个目录包含了Alertmanag…

企业网三层架构实验

一、实验拓扑 二、实验要求 1、内网IP地址172.16.0.0/16合理分配&#xff1b; 2、SW1/2之间互为备份&#xff1b; 3、VRRP/STP/VLAN/TRUNK均使用&#xff1b; 4、所有PC通过DHCP获取IP地址&#xff1b; 三、实验思路 1、配置ISP的IP地址&#xff1b; 2、配置R1的IP地址&…

800V高压电驱动系统架构分析

需要电驱竞品样件请联&#xff1a;shbinzer &#xff08;拆车邦&#xff09; 过去一年是新能源汽车市场爆发的一年&#xff0c;据中汽协数据&#xff0c;2021年新能源汽车销售352万辆&#xff0c;同比大幅增长157.5%。新能源汽车技术发展迅速&#xff0c;畅销车辆在动力性能…

张驰课堂:揭秘学习6sigma黑带培训重要价值

随着全球经济一体化的加速推进&#xff0c;企业间的竞争日趋激烈&#xff0c;越来越多的企业意识到质量是企业的生命线&#xff0c;而提高质量的关键在于持续改进。在这个过程中&#xff0c;6sigma黑带作为具有专业技能和领导能力的人才&#xff0c;成为企业实现突破性改进、降…

PID输出PWM温度控制(详细介绍PID输出和PWM组合的各种方法)

这篇博客主要介绍PID的输出如何和PWM输出进行绑定,PID控制算法和源代码大家自行查看PID专栏,这里不再赘述。常用链接如下: 位置式PID(S7-200SMART 单自由度、双自由度梯形图源代码)_RXXW_Dor的博客-CSDN博客有关位置型PID和增量型PID的更多详细介绍请参看PID专栏的相关文章…

Wappalyzer - 技术剖析工具的必备浏览器扩展

目录 前言一、Wappalyzer简介1.Wappalyzer的背景和由来2.Wappalyzer的目标和优势 二、Wappalyzer的工作原理1.检测技术栈的方法和策略2.数据库和规则集的更新 三、如何使用Wappalyzer1.安装Wappalyzer浏览器扩展2.在浏览器中使用Wappalyzer进行技术剖析 总结 前言 在当今的数字…

云曦暑期学习第六周——kali

1.熟悉网络配置 一般来说虚拟机有三种网络模式&#xff1a; NAT (网络地址转换模式)Bridged (桥接模式)Host-Only&#xff08;主机模式&#xff09; nat模式&#xff1a; 虚拟系统会通过宿主机的网络来访问外网。而这里的宿主机相当于有两个网卡&#xff0c;一个是真实网卡…

redis--------哨兵模式

1.哨兵模式 试想一下&#xff0c;如果主从模式中&#xff0c;大半夜主节点挂了&#xff0c;运维从床上迷迷糊糊爬起来&#xff0c;打开电脑&#xff0c;手动升级处理&#xff0c;怕不是第二天就要上头条了。 哨兵模式的出现用于解决主从模式中无法自动升级主节点的问题&#xf…

javeee eclipse项目导入idea中

步骤一 复制项目到idea工作空间 步骤二 在idea中导入项目 步骤三 配置classes目录 步骤四 配置lib目录 步骤五 添加tomcat依赖 步骤六 添加artifacts 步骤七 部署到tomcat

软件开发bug问题跟踪与管理

一、Redmine 项目管理和缺陷跟踪工具 官网&#xff1a;https://www.redmine.org/ Redmine 是一个开源的、基于 Web 的项目管理和缺陷跟踪工具。它用日历和甘特图辅助项目及进度可视化显示&#xff0c;同时它又支持多项目管理。Redmine 是一个自由开源软件解决方案&#xff0c;…

【新版】系统架构设计师 - 系统测试与维护

个人总结&#xff0c;仅供参考&#xff0c;欢迎加好友一起讨论 文章目录 架构 - 系统测试与维护考点摘要软件测试软件测试 - 测试类型软件测试 - 静态测试软件测试 - 动态测试软件测试 - 测试阶段软件测试 - 测试阶段 - 单元测试软件测试 - 测试阶段 - 集成测试软件测试 - 测试…

我的创作纪念日(C++修仙练气期总结)

分享自己最喜欢的一首歌&#xff1a;空想フォレスト—伊東歌詞太郎 机缘 现在想想自己在CSDN创作的原因&#xff0c;一开始其实就是想着拿着博客当做自己的学习笔记&#xff0c;笔记嘛&#xff0c;随便写写&#xff0c;自己看得懂就ok了的态度凸(艹皿艹 )。也是用来作为自己学习…

2023年大数据与区块链国际会议 | EI、Scoups检索

会议简介 Brief Introduction 2023年大数据与区块链国际会议&#xff08;ICBDB 2023&#xff09; 会议时间&#xff1a;2023年11月17 -19日 召开地点&#xff1a;中国西安 大会官网&#xff1a;www.icobdb.org 2023年大数据与区块链国际会议&#xff08;ICBDB 2023&#xff09;…