编者按:
本期涵盖了INFORMS与收益管理相关的文章及其基本信息。
Title: Online Learning for Constrained Assortment Optimization Under Markov Chain Choice Model
基于马尔可夫链选择模型的约束下选品优化的在线学习
-
Link: https://pubsonline.informs.org/doi/full/10.1287/opre.2022.0693
-
Reference: Li, Shukai, et al. "Online learning for constrained assortment optimization under markov chain choice model." Operations Research (2024).
-
摘要: 本文研究了在事先不了解顾客偏好情况下的的产品组合优化问题。作者提出了一个马尔可夫链选择(MCC)模型。 该模型不仅捕捉了客户的初始偏好,还考虑了他们在看到某些产品时的替代行为。具体来说, 如果顾客不能购买他们最初选择的产品,顾客可能会选择一个替代品。解决这个问题的难点在于,在在线学习环境下进行连续的选品决策,同时逐步学习并估计MCC模型的参数。目标是在容量约束的前提下,最小化cumulative regret (实际选择的选品组合产生的收入与理论最优选品组合收入之间的差异)。作者提出了一种名为FastLinETC的算法来求解模型。与现有的方法相比,FastLinETC在减小cumulative regret上有较大提高。具体而言,FastLinETC算法通过分阶段的方法,在初期阶段进行充分的探索以学习客户偏好和替代行为的模型参数,而在后期阶段则利用这些学习到的参数进行更好的的选品决策。FastLinETC适用于MCC 模型,并可以应用在其他不同的choice model 上。
Title: Randomized Assortment Optimization
随机化选品组合优化
-
Link:https://pubsonline.informs.org/doi/full/10.1287/opre.2022.0129
-
Reference: Wang, Zhengchao, Heikki Peura, and Wolfram Wiesemann. "Randomized assortment optimization." Operations Research (2024).
-
问题定义:
本文研究了在面对消费者选择偏好不确定性的环境中,如何通过选品优化来最大化企业收益。传统的选品优化通常依赖于确定性模型来预测消费者的购买行为,但这些模型往往因为估计误差而结果不理想。因此,作者提出了一种随机性的新策略,即通过随机化选择产品组合,以更有效地应对未知的市场变化和消费者行为的不确定性。文章详细讨论了随机化策略在逻辑回归模型、马尔可夫链模型和偏好排序模型中的应用,并通过理论证明和实证数据展示了其在这些模型中的有效性。具体来说,研究发现,在引入随机化策略后,即使在最坏情况下的企业收入也有显著提升。这种策略的优势在于它能够为决策者提供一个概率分布框架,决策者可以在此框架下调整各种产品组合的概率,以适应不同的市场条件。此外,文章提出了精确算法和启发式算法来求解这一问题。文章最后通过电子商务和在线零售中的选品优化,展现了 随机化选品组合优化的应用价值。
Title: Robust Dynamic Assortment Optimization in the Presence of Outlier Customers
存在异常客户情况下的鲁棒动态产品组合优化
-
Link: https://pubsonline.informs.org/doi/abs/10.1287/opre.2020.0281
-
Reference: Chen, Xi, Akshay Krishnamurthy, and Yining Wang. "Robust dynamic assortment optimization in the presence of outlier customers." arXiv preprint arXiv:1910.04183 (2019).
-
问题定义:
本文探讨了在存在异常客户的情况下,如何优化产品组合以最大化收益。传统的优化方法通常依赖于MNL模型,假设客户的选择是稳定且可预测的。然而,现实世界中常常存在一些客户,其行为显著偏离这些模型,从而导致次优决策和潜在的收益损失。为了解决这一问题,作者引入了基于ε污染模型(ε-contamination) 的鲁棒动态组合优化策略。该模型假设在给定的销售期内,大部分客户的选择符合MNL模型,而小部分(ε)客户的选择是任意且不可预测的。作者提出的策略是一个主动淘汰的方法,逐步去除那些不太可能是最优组合一部分的产品,从而逐步优化产品组合,确保即使在存在异常客户的情况下也能有较好的选品表现。 作者通过数值试验结果证明了他们的策略在不同的ε下表都表现较好。此外,作者还提出了一种完全自适应的策略,无需预先知道ε值,通过多线程并行计算,实现了在未知异常客户比例下的动态优化。研究结果显示,该策略在实际应用中能够显著提升收益,并能较好的应对客户选择行为不确定性。
Title: Deep Learning of Transition Probability Densities for Stochastic Asset Models with Applications in Option Pricing
深度学习用于随机资产模型的转移概率密度及其在期权定价中的应用
-
Link:https://pubsonline.informs.org/doi/10.1287/mnsc.2022.01448
-
Reference: Su, Haozhe, M. V. Tretyakov, and David P. Newton. "Deep learning of transition probability densities for stochastic asset models with applications in option pricing." arXiv preprint arXiv:2105.10467 (2021).
-
问题定义:
转移概率密度函数(TPDFs)是计算金融学中的基本概念,包括期权定价和对冲。基于深度学习的最新研究成果,作者通过在参数空间中求解累积概率函数的Kolmogorov逆方程,提出了一个新的神经TPDF生成器。该生成器速度快,准确性高,可针对任何由随机微分方程描述的资产模型进行训练。TPDF是“单次求解”的,因此在随机模型参数变化时,无需重新训练。训练完成后,TPDF生成器可以转移到性能较低的普通计算机上使用。作者通过将这些近似的TPDFs插入数值期权定价方法中,展示了其计算效率。作者还展示了 TPDFs的广泛应用,包括Black-Scholes-Merton模型、标准Heston模型、SABR模型和跳跃扩散模型。这些数值实验确认了所开发的TPDF生成器的高效和高准确性。
Title: Selling Bonus Actions in Video Games
视频游戏中的“奖励”购买
-
Link:https://pubsonline.informs.org/doi/abs/10.1287/mnsc.2022.02348
-
Reference: Sheng, Lifei, Xuying Zhao, and Christopher Thomas Ryan. "Selling Bonus Actions in Video Games." Management Science (2024).
-
问题定义:
在移动视频游戏行业中,常见的一种应用内购买是在单人益智游戏中购买额外的“移动次数”或“时间”。作者将这些应用内购买称为奖励动作。在某些游戏中,奖励动作只能在尝试游戏关卡之前购买(纯预售 (PAS)),而在其他游戏中,奖励动作只能在首次尝试通过关卡失败时在“现货”市场上购买(纯现货销售)。一些游戏则同时提供预售和现货购买两种方式(混合预售)。本文研究了视频游戏中奖励动作的这些销售策略。作者将奖励动作的销售建模为一个随机广义博弈,探索了玩家技能的分布(即玩家通过关卡的内在能力)和游戏的固有随机性如何影响销售策略。对于休闲游戏,如果低技能玩家在每次尝试中有足够高的成功概率,当高技能玩家的比例足够大或足够小时,企业应采用纯预售(PAS)并关闭“现货”市场。此外,最大化玩家福利的销售策略是仅在现货市场销售。因此,对于休闲游戏来说,不存在“双赢”策略。然而,对于“硬核”游戏,由于低技能玩家在每次尝试中的成功概率足够低,预售(PAS)可以实现双赢。