供应链｜Managemeng Science 论文解读：数据驱动下联合定价和库存控制的近似方法 (一）

在这里插入图片描述

编者按

本次解读的文章发表于 Management Science，原文信息：Hanzhang Qin, David Simchi-Levi, Li Wang (2022) Data-Driven Approximation Schemes for Joint Pricing and Inventory Control Models. https://doi.org/10.1287/mnsc.2021.4212

文章在数据驱动的前提下，研究经典的多周期联合定价和库存控制问题。在此问题中，零售商定期决定其希望销售的产品的价格和库存水平，其目标是通过将库存水平与随机需求（取决于每个时期的价格）相匹配，在有限的范围内最大化预期利润。

鉴于需求函数或随机噪声分布很难准确掌握完整信息，而过去的需求数据相对容易收集，文章假设零售商对噪声分布或真实的需求函数未知，但假设其可以访问需求假设集，并且真实需求函数可以由需求假设集中候选函数的非负组合表示，或者真实需求函数是广义线性的。基于此，文章提出了一种基于数据驱动的近似算法，使用预先收集的需求数据来解决联合定价和库存控制问题，同时证明了算法的样本复杂度界限。在数值研究中，文章演示了如何从数据构建需求假设集，并验证了所提出的数据驱动算法对动态问题的有效性，其结果显著改善了与基准算法相比的最优性差距。

1 问题介绍

联合定价和库存控制问题以其要求协调定价和库存决策的困难，一直是商业管理中的核心问题之一。大多公司更倾向于跨部门做出独立决策，因此同时考虑定价和库存为公司提供了将其销售和运营活动关联起来的机会。而定价和库存决策的结合更有助于公司提高利润：较高的价格弥补了低库存水平，有助于避免高库存积压量，而较低的价格则加速高库存水平的消耗，降低库存持有成本。然而，这个问题在理论上和实践中都很难解决，尤其当随机需求的确切形式未知时。

在文章中，作者们研究了数据驱动环境下的多周期联合定价和库存控制问题。具体来说，文章假设销售单一商品的零售商定期对商品的定价和库存策略做出决策，这直接影响获得的收入和产生的成本。零售商的目标是通过将库存水平与随机需求（取决于每个时期的价格）相匹配，在多个时期的有限计划范围内最大化总利润（总收入减去总成本）。

在运营管理研究界，该文章前的大多数文献关于此问题的研究基本均假设：零售商确切地知道需求和价格之间的函数依赖性（需求函数）以及需求中的随机噪声分布（噪声分布），即全信息问题。然而在实践中，需求函数和噪声分布通常并不准确，或者过于复杂而难以处理，而过去的销售数据相对容易收集，即在数据驱动的环境中的此被定义为数据驱动问题。

2 联合定价和库存控制模型

如上所述，文章考虑销售单一商品的零售商，并在 $T$ 期内定期决定该商品的定价和库存策略。在每个周期 $t\in[1,\ldots,T]$ 开始时，库存水平为 $x_t$ ，零售商做出两个决策：单位售价 $p_t\in[p_t^{\min},p_t^{\max}]$ 和库存水平 $y_t\geq x_t$ . 假设交货时间 (lead time) 为零，则零售商立即收到 $y_t-x_t\geq 0$ 大小的补货。在每个周期结束时，零售商满足非负随机需求。

假设1：在每个时期 $t\in[1,\ldots,T]$ 中，随机需求为 $D_t(p_t)+\eta_t$ ，其中 $D(\cdot)$ 是确定性需求期望函数，而 $\eta_t$ 是在 $[\omega_t^{\min},\omega_t^{\max}]$ 上有界的零均值连续随机变量，且在时间上独立。 $\eta_t$ 的累积分布函数是 Lipschitz 连续的，常数为 $I_t$ .

假设 1 中定义的随机需求的形式称为加性需求函数（Chen 和 Simchi-Levi 2004），其随机性会加性地影响需求。剩余库存水平 $y_t-D_t(p_t)-\eta_t$ 结转到下一个时期并成为其起始库存水平 $x_{t+1}$ ；若剩余库存水平为负，则零售商积压 (backlog) 所有未满足的需求。

零售商对实现的每个需求单位获得 $p_t$ 的单位收益，从而在 $t$ 期间收到 $p_tD_t(p_t)$ 的预期收益。零售商为每次补货单位支付 $c_t\geq 0$ 的单位订购成本。在每个时期结束时，每单位正剩余库存会产生 $h\geq 0$ 的持有成本，而每单位负剩余库存会产生 $b_t\geq 0$ 的积压成本。因此， $t$ 期间的预期成本为
$c_t(y_t-x_t)+\mathbb{E}_{\eta_t}[h_t(y_t-D_t(p_t)-\eta_t)^+ + b_t(D_t(p_t)+\eta_t-y_t)^+]$

假设单位订购成本为零，则 $t$ 期间的预期利润为
$p_tD_t(p_t)-C_t(y_t-D_t(p_t))$

其中 $C_t(q_t):=\mathbb{E}_{\eta_t}[h_t(q_t-\eta_t)^+ + b_t(\eta_t-q_t)^+]$ .

假设 2. 在每个时期 $t\in[1,\ldots,T]$ 中, $D_t(\cdot)$ 的反函数 $D_t^{-1}(\cdot)$ 是二次连续可微且严格递减的，其一阶导数和二阶导数是有界的。此外，预期收入函数 $R_t(d_t):=d_tD_t^{-1}(d_t)$ 在预期需求 $d_t$ 中严格凹。

假设 2 是联合定价和库存控制问题的标准假设（Chen and Simchi-Levi 2004），其保证了动态规划的凹性。结合假设1，应用和分析样本平均近似方法至关重要。在全信息问题中， $D_t(\cdot)$ 与 $D_t^{-1}(\cdot)$ 已知，因此决策 $d_t\in[d_t^{\min},d_t^{\max}]:=[D_t(p_t^{\min}),D_t(p_t^{\max})]$ 与 $p_t=D_t^{-1}(d_t)\in[p_t^{\min},p_t^{\max}]$ 等价。不失一般性，假设 $p_t^{\min}$ 和 $d_t^{\min}$ 在 $t\in[T]$ 上非负，因此 $t$ 期的期望收益亦可写为 $R_t(d_t)-C_t(y_t-d_t)$ . 假设第一个周期的起始库存为 $x_1$ ，并且 $T$ 周期之后的任何剩余库存的残值为零，零售商的目标是通过优化每个时期 $t$ 中 $p_t$ 和 $y_t$ 的决策来最大化 $T$ 周期内的总预期利润。

然而实际上，零售商很难确切地了解期望需求函数 $D_t(\cdot)$ 和 $\eta_t$ 的分布，但收集模型的过去数据较之容易。文章随后对全信息问题和数据驱动问题的模型分别作出讨论。

2.1 全信息问题

当零售商拥有有关模型的完整信息，即 $D_t(\cdot)$ 和 $\eta_t$ 已知时，预期利润最大化问题就是经典的有限范围联合定价和库存控制问题，可被如下定义 ( $\mathcal{P}$ )

其中 $V_t(x_t)$ 为起始库存水平 $x_t$ 下 $t$ 至 $T$ 期的最优期望收益。对于 $t\in[1,\ldots,T]$ ，文章定义 $U_t(y_t,d_t)$ 为起始库存水平 $y_t$ 、期望需求 $d_t$ 下 $t$ 至 $T$ 期的最优期望收益，即

令最优需求方程为

且令 $W_t(y_t)$ 表示 $t$ 至 $T$ 期间的最优预期利润，假设零售商将 $t$ 期间的库存水平设置为 $y_t$ , 即

因此亦有

则最优基础库存清单需求策略 (base-stock list-demand policy) $S_t^*,D_t^*)$ 可被定义为

依据该库存策略，对于 $t\in[1,\ldots,T]$ ，

2.2 数据驱动问题

在数据驱动的问题中，零售商对 $D_t(\cdot)$ 或 $\eta_t$ 未知，因此无法计算最优的基本库存定价策略。相反，零售商拥有模型的过往数据，并希望使用某些算法，将数据作为输入并计算可以产生接近最优利润的库存和定价决策。文章通过数据驱动解决方案产生的预期利润与最优策略产生的预期利润之间的绝对利润损失来衡量这种近似最优性。

文章假设对于任意时期 $t$ , 需求假设集合为 $\Phi_t:=\{D_t^1(\cdot),\ldots,D_t^{K_t}(\cdot)\}$ 预先已知，其中未知的真实需求函数 $D_t(\cdot)$ 为 $\Phi$ 集合内函数的线性组合。另外定义 $R_t^k(p_t):=p_tD_t^k(p_t)$ 及 $R_t^k(d_t):=d_t(D_t^{k})^{-1}(d_t)$ 为作为所有 $t$ 和 $k$ 的 $\Phi_t$ 中的相关收益函数。

假设3：在每个时期 $t\in[1,\ldots,T]$ 中, 存在非负系数 $\theta_{t,1}^*,\ldots,\theta_{t,K_t}^*$ 满足真实需求函数
$D_t(\cdot)=\sum_{k=1}^{K_t}\theta_{t,k}^*(D_t^k)(\cdot)$

假设 3 对于主要样本复杂性的分析至关重要。该假设允许保留参数空间的线性结构以进行学习和优化，同时允许基础需求函数具有高度非线性的形式。

满足上述假设的有效需求函数包括线性需求函数的非负组合，或指数/对数需求函数与适当选择的价格区间的非负组合。由于 $\Phi_t$ 中的所有需求假设都是 $D_t(\cdot)$ 的有效候选者（即满足假设 2），因此零售商无法利用 $\Phi_t$ 提供的信息直接识别真实的需求函数。然而，零售商一般希望通过 $\Phi_t$ 和历史数据来找到 $D_t(\cdot)$ ，其一般为 $N_t$ 个价格-需求对 $p_t^j,d_t^j)$ 的形式，其中 $j\in[1,\ldots,N_t]$ . 特别地，任一价格 $p_t^j$ 均属于区间 $p_t^{\min},p_t^{\max}]$ ，以及任一需求样本均可表示为 $d_t^j:=D_t(p_t^j)+\eta_t^j$ ，其中 $\eta_t^j$ 是随机噪声 $\eta_t$ 的一实际值。

由于没有关于 $d_t^j$ , $p_t^j$ 的分布的特定假设，文章仅施加简单条件以满足应用普通最小二乘分析的条件。现定义特征矩阵

其中包括使用不同的假设需求函数在数据集中的所有价格下评估的预期需求的信息。

假设4：对于任一时期 $t\in[T]$ ，假设 $N_t\geq K_t$ 且存在普适常数 $\underline{\lambda}_t>0$ 满足 $\lambda_{\min} (\mathbb{\Gamma}_t^{T}\mathbb{\Gamma}_t/N_t)\geq \underline{\lambda}_t$ .

假设 4 确保使用价格需求样本的回归过程得到明确定义。 $N_t\geq K_t$ 意味着每个时期至少有 $K_t$ 个价格需求样本，即减少了 $\theta^*$ 上的误差界限。另外，样本协方差矩阵 $\mathbb{\Gamma}_t^{T}\mathbb{\Gamma}_t/N_t$ 的最小特征值远离零的假设意味着 $\mathbb{\Gamma}_t^T\mathbb{\Gamma}_t$ 是正定的，因此也是可逆的；继而最小二乘解是唯一的。

直观上看，这是指不完全共线性的情况，即特征向量（ $\mathbb{\Gamma}_t$ 任一行向量）中没有任何变量可以表示为其他变量的仿射函数。假设下限与数据大小无关也是温和的，因为大多数常见的采样模型自然满足这个条件。例如，如果所有价格样本都是独立且同分布的，并且是根据高斯分布生成的，那么便可使用均值、基础高斯分布的（协）方差，以及 Negahban and Wainwright (2011) 引理 2 的需求函数，计算显式通用下界 $\lambda_t$ ，使得 $\lambda_{\min} (\mathbb{\Gamma}_t^{T}\mathbb{\Gamma}_t/N_t)\geq \underline{\lambda}_t$ （概率很高）。

对于任何近似算法 $\mathcal{A}$ ，令 $\hat{D}_t(\cdot)$ 和 $\hat{\eta}_t$ 分别为经验预期需求函数和经验噪声分布，由 $t\in[1,\ldots,T]$ 每一个时期的历史数据和算法 $\mathcal{A}$ 估计所得。令 $\hat{R}_t(\cdot)$ 为通过 $\mathcal{A}$ 所得的经验收益函数，且定义
$[\hat{d}_t^{\min},\hat{d}_t^{\max}]:=[\hat{D}_t(p_t^{\max}),\hat{D}_t(p_t^{\min})]$

为经验期望需求的决策空间。因此有

现定义经验动态规划 $\hat{\mathcal{P}}$

其中

同时定义经验函数与经验策略如下：

与全信息动态规划 $\mathcal{P}$ 类似，经验动态规划 $\hat{\mathcal{P}}$ 可以使用后向归纳法递归求解。

假设近似算法 $\mathcal{A}$ 构造的经验收益函数 $\hat{R}_t(\cdot)$ 和经验噪声分布 $\hat{\eta}_t$ 满足假设5，则经验动态程序 $\hat{\mathcal{P}}$ 与全信息动态程序 $\mathcal{P}$ 具有相同的结构。

假设5：在每个时期 $t\in[1,\ldots,T]$ 中， $\hat{R}_t(d_t)$ 在 $d_t$ 中可微且严格凹，并且 $\hat{\eta}_t$ 具有有限均值和有界支持集 $[\hat{\omega}_t^{\min},\hat{\omega}_t^{\max}]$ .

3 数据驱动近似算法

在数据驱动问题，文章给出每个时期 $t$ 需求假设集合 $\Phi_t:=\{D_t^1(\cdot),\ldots,D_t^{K_t}(\cdot)\}$ 以及过往价格-需求对 $\{(p_t^1,d_t^1),\ldots,(p_t^{N_t},d_t^{N_t})\}$ ，基于此二者，文章的目标是构建经验收益函数 $\hat{R}_t(d_t)$ 与经验分布函数 $\hat{\eta}_t$ .

以下是所提出的近似算法 DDPIC 的步骤，该算法在每个时期构造经验收入和成本函数的导数，即 $\hat{R}'_t(\cdot)$ $与$ $\hat{C}^r_t(\cdot)$ ：

简单来说，算法从需求假设集中，通过普通最小二乘分析找到具有最小（有偏差）噪声样本平均值的需求函数 $\hat{D}_t$ ;再通过计算上单调包络来求取需求函数的逆函数，保持导数 $\hat{R}_t^{'}$ 的单调性;最后，将经验分布 $\hat{\eta}_t$ 构建为 $\hat{\eta}_t^j$ 上的离散均匀分布以及报童成本 $\hat{C}_t^r$ 的（右）导数经验估计。

文章在此处主要关注算法的样本效率，算法的计算效率在原文的5.3节中有详细讨论，本篇解读稍后会深入。

鉴于 $\hat{R}_t$ 与 $\hat{\eta}_t$ 由算法构建，文章通过引理证明该算法成立。

关于算法的近似性能，文章根据数据驱动函数和真实函数之间导数的接近程度来讨论。现定义
$\hat{\eta}_t^j=d_t^j-\hat{D}_t(p_t^j)=\eta_t^j-\Delta_t^j$

为 $\eta_t$ 的某偏差样本，其中 $\Delta_t^j:=D_t(p_t^j)-\hat{D}_t(p_t^j)$ . 于是文章定义“好”事件 $\mathcal{E}(\alpha)$ 如下：

事件 $\mathcal{E}$ 表示，所提出算法给出了原始动态规划 $\mathcal{P}$ 中某些函数（的导数）的良好近似。原文随后通过三个引理（详见原文引理2-4）证明了 $\hat{R}_t(\cdot)$ , $\hat{C}_t(\cdot)$ 和 $\mathbb{E}_{\hat{\eta}_t}[\hat{V}_t(q_t-\hat{\eta}_t)]$ 在导数方面分别与 $R_t(\cdot)$ , $C_t(\cdot)$ 和 $\mathbb{E}_{\eta_t}[\hat{V}_t(q_t-\eta_t)]$ 近似，概率随 $N_t$ 增长。再通过引理5给出准确度系数 $\alpha$ 与 $\hat{V}_t(\cdot)$ 上下界的关系，进而得到定理1，即对于任一 $\alpha>0$ ，所提出算法能够达到 $\mathcal{\alpha}$ 的概率的下界（该下界数值详见原文定理1）。

4 样本复杂度界限

文章接下来讨论近似算法的经验策略与最优策略相比，作为样本数量 $N_t$ 的函数的表现如何。考虑任何准确度级别 $\epsilon>0$ 和任何置信度级别 $1-\beta$ （其中 $0<\beta<1$ ）。文章运用了足够数量的样本 $N_t(T,\epsilon,\beta)$ ，以确保以至少 $1-\beta$ 的概率，经验策略的预期利润与最优预期利润之间的绝对差最多为 $\epsilon$ .

具体来说，在好事件 $\mathcal{E}(\alpha)$ 下，文章推导出经验政策的预期利润与最优预期利润之间的绝对差的上限（用 $T$ 和 $\alpha$ 表示）。该分析分为两部分：

一阶分析：文章证明经验函数的导数与真实函数非常一致(close uniformly)，即在很高的概率下，对于某些常数 $\alpha_{FO}>0$ ，有

零阶分析：结合一阶分析的结果，实证政策的预期利润与最优预期利润一致接近；即在很高的概率下，对于一些小常数 $\alpha_{FO}>0$ ，有

基于此，所提出的数据驱动近似算法的样本复杂度界限 $N_t(T,\epsilon,\beta)$ . 文章通过数据驱动解决方案的预期利润与最佳预期利润之间的绝对差来衡量近似算法的性能。样本复杂度界限 $N_t(\epsilon,\beta)$ 被定义为数据驱动算法在每个周期所需的足够数量的数据样本，以保证总预期利润与最优利润的差异不大于概率至少为 $1-\beta$ .

定理（原文定理4）：对于任意 $\epsilon >0$ 且 $\beta\in(0,1)$ ，若每个时期 $t\in[1,\ldots,T]$ 内 $N_t\geq N_t(\epsilon,\beta)$ ，则最优期望利润与期望值之间（通过数据驱动策略）的利润的绝对差距不大于 $\epsilon$ 的概率至少为 $1-\beta$ ，其中 $N_t(T,\epsilon,\beta)=O(T^4(T-t+1)^2\epsilon^{-2}\log(T/\beta).$

上述定理中推导出的样本复杂度界限对于 $\beta$ 的依赖性而言是最优的，因为其与单周期有容量限制的报童问题的信息论下界相匹配（Cheung and Simchi-Levi 2019）。然而，对 $T$ 的依赖性是否紧密仍然未知，因相应的下界仍然是开放的。给定准确度水平和概率水平 $\beta$ 来获得 $T$ 阶段联合定价和库存控制问题的近乎最优策略，该界限可以被视为对公司所需样本数量的保守估计。该界限是保守的，因其为针对 $\eta_t$ 的所有可能的基础分布和 $\Phi_t$ 中所有可能的基础需求函数的最坏情况界限。

我们将在后续推文继续解读该文章，讨论算法的松弛、拓展问题以及其数值实验和主要结果。

参考文献

Chen X, Simchi-Levi D (2004) Coordinating inventory control and pricing strategies with random demand and fixed ordering cost: The finite horizon case. Oper. Res. 52(6):887–896.

Cheung WC, Simchi-Levi D (2019) Sampling-based approximation schemes for capacitated stochastic inventory control models. Math. Oper. Res. 44(2):668–692.

Negahban S, Wainwright MJ (2011) Estimation of (near) low-rank matrices with noise and high-dimensional scaling. Ann. Statist. 39(2):1069–1097.