初识滴滴交易策略之三：供需调节

本篇文章分为：

1.什么是交易市场中的供需？

供需的动态性
供需的相互作用

2.滴滴业务场景涉及的供需调节技术

供需感知和供需预测
- 时序预测
供需调节以提升市场匹配程度，保持供需平衡
- 整数规划
为司机规划更好的出车方式
- 模仿学习（Imitation Learning）
- 离线强化学习（Offline Reinforcement Learning）

3. 总结

1. 什么是交易市场中的供需？

交易市场是由买方和卖方进行交易而形成的一种经济环境。买方是指那些希望购买某种商品或服务的人或组织，而卖方则是指那些愿意出售某种商品或服务的人或组织。这种交易市场的基本结构是供需关系。

在交易市场中，买方和卖方的角色不同。卖方通常被称为供给方，他们提供商品或服务，而买方则被称为需求方，他们购买商品或服务。供需双方是交易市场的核心成员，他们之间的买卖行为构成了交易活动。

现代经济中，供需双方可以通过各种方式进行交易。例如，他们可以通过在线市场、交易所、股票市场等方式进行交易，这些市场都有其独特的供需关系变化规律。随着时间的推移，供需关系也会发生变化，交易市场中的供需关系是经济分析和预测的重要组成部分。

供需关系的动态变化对经济运行具有重要影响，当需求增加时，供给往往难以立即满足，从而导致供小于求的失衡状况。相反，当供应增加时，需求并没有立即扩大，则会形成供给过剩。了解供需关系的变化和规律，对于交易市场的各参与方做出正确的决策来说非常重要。

因此，交易市场是一个非常复杂的经济环境，需要深入理解其供需关系的动态变化和其对经济运行的影响。只有深入研究供需关系，才能做出正确的经济决策。

供需的动态性

一些交易市场的供需关系可能是相对稳定的，这些市场的供需关系通常受到需求人群和需求意愿的影响。其中，生活必需品市场和基础设施服务市场是具有较为稳定供需关系的典型例子。

相比之下，一些交易市场的供需关系可能会经历剧烈波动。原材料市场、能源市场和投资产品市场等行业供需关系波动比较大，因为市场中的供需因素容易受到外部环境和其他因素的影响。

滴滴作为一家出行平台，其供需关系受到各类因素的影响，是典型的动态供需市场。在这个市场中，供给方和需求方都会对供需关系产生影响。

从供给方来看，新进入行业的新司机、因事离开行业的老司机、司机短期有事都会导致供给量的变化。短期而言，司机根据习惯和信息前往不同的区域等候订单，以及外界因素如天气、油价、电价等，也会影响司机的供给行为，导致供给量的波动和变化。

从需求方来看，新乘客涌入平台会提升市场需求量，节假日、旅游高峰、春运、雨雪天气、极端温度等都会影响乘客的需求行为，从而导致需求量的波动和变化。此外，特殊活动如演唱会等也会导致需求量的暂时性暴增。

除此之外，由人沟通的交易市场中也存在各种随机因素，这些也会对整个供需关系产生动态变化。

因此，对于滴滴这样的动态供需市场，需要密切关注供需关系的变化和规律，及时调整平台政策和资源配置，以适应市场需求的变化，提高市场运作效率，平衡供需双方，进而提升用户体验。

供需的相互作用

在交易市场中，供、需是两个基本的经济力量，它们相互作用从而影响了市场交易情况。供给是指市场中可供出售的商品或服务的总量，而需求是指市场中消费者愿意购买的商品或服务的总量。当市场上供给和需求量接近时，市场达到了平衡状态。

如果需求方的增加导致市场需求的增加，带来短暂的“供不应求”状况，市场机会变多刺激了供给方的供给量增加，这是因为供给方希望利用市场需求的增加来增加销售量和收入，继而使得供需双方重新进入平衡状态。但是，当市场的供给量达到极限，无法继续增加供给时，需求仍然得不到完全的消化，将会形成稳定的“供不应求”状态。

反之，亦然。

当市场中同时存在多个因素时，供给和需求之间的相互作用可能变得更加复杂。例如，当某种产品的生产成本上升时，供给方可能会减少供给量，供给难度加大，进而也可能会减少需求方。如果某种新技术推动了供给方的生产效率提高，供给量可能会增加，供给难度降低，供给质量提升，同时也可能会刺激更多的需求方进入市场。

在市场经济中，供需的相互作用是市场交易情况变化的基本原因。理解这种相互作用，可以帮助我们更好地理解市场的运作和走向。

在上述微观经济学的经典简化描述之外，当面对现实情况时，会遇到多种不同的实际情况。

滴滴作为一家出行平台，面对的供需相互作用情况非常常见，可以举其中较为典型的入门例子：一场大型赛事过后，大量乘客需要打车，订单暴增，提供了更多的市场需求，本区域显然进入严重供不应求状况，从而吸引附近司机前来本区域提供服务，增加了本区域的可供给量，提高了订单应答率。

当附近司机已经几乎全都加入时，供给量达到了短时极限，然而仍然远远不足以满足需求，部分乘客因为无法打上车，只得转向公交地铁等其他出行方案，使得需求量不再增加。

随着赛事观众逐步疏散，没有更多的新增订单，则逐渐该区域部分司机空闲无单，进入供大于求状态，该部分司机可能开始通过滴滴司机app来寻找其他更需要单的区域，前往新地区。

在类似以上的场景之中，滴滴为保证乘客和司机在过程中的更好体验，努力通过各类供需调节技术，尽力缓解市场的供需错配情况。

2. 滴滴业务场景涉及的供需调节技术

供需感知和供需预测

面对动态变化的供需情况，如何感知并合理预测，会成为供需调节的重要基石。

供给量和需求量的时序预测是许多领域中的一个重要问题，包括供应链管理、物流、金融、医疗保健和电力等行业。尽管有许多方法可以用于预测需求，但仍然存在不少技术难题：

数据不完整和缺失：预测模型需要大量历史数据，以便进行训练和预测。然而，历史数据可能不完整或缺失，这会影响模型的准确性。
季节性和周期性变化：许多产品或服务的需求量会受到季节性和周期性变化的影响，例如节假日、周末和季节等。这些变化会影响预测模型的准确性。
突发事件：突发事件如天气、自然灾害等，可能会对需求产生不可预测的影响，这使得预测更加困难。
数据质量问题：数据质量问题可能会影响预测模型的准确性，例如数据错误、重复和异常等。
模型复杂度：如果预测模型太简单，可能无法捕捉到复杂的需求模式。然而，如果预测模型太复杂，可能会导致过度拟合数据，从而降低其预测能力。
时间滞后效应：在某些情况下，需求量的变化可能会滞后于其影响因素的变化。如果预测模型无法捕捉到这种时间滞后效应，其预测结果可能会出现偏差。

https://arxiv.org/pdf/2104.13463.pdf

因此，需要采用合适的算法和技术来解决这些技术难题，并根据特定行业和需求进行适当的调整和优化。

时序预测

时序预测是一个发展历史悠久的技术领域，主要目的是根据历史数据来预测未来的值，常见的算法有：

平滑方法：包括移动平均法、指数平滑法等，通常用于平稳或趋势性较弱的时间序列数据预测。
ARIMA模型：ARIMA（自回归滑动平均模型）是一种基于时间序列的统计模型，通常用于预测具有趋势性和季节性的时间序列数据。
LSTM模型：LSTM（长短期记忆模型）神经网络模型可以处理长期依赖关系，并在预测需要考虑多个时间步长的情况下具有很好的性能。
深度学习模型：在深度学习火爆之后，大量采用深度神经网络进行时序预测的模型应运而生，通常用于预测非线性、复杂的时间序列数据。例如基于Transformer的TFT和NSTransformers（非平稳时间序列的通用预测框架）、DeepAR（深度自回归递归网络）等等。

上图引自：Shuai Ling, Zhe Yu, Shaosheng Cao, Haipeng Zhang, and Simon Hu. 2023. STHAN: Transportation Demand Forecasting with Compound Spatio-Temporal Relationships. ACM Trans. Knowl. Discov. Data 17, 4, Article 54 (May 2023), 23 pages. https://doi.org/10.1145/3565578

值得一提的是，滴滴通过“盖亚科研合作计划”，与上海科技大学、浙江大学合作，提出了一个基于时空异构图的运输需求预测模型 (Spatio-Temporal Heterogeneous graph Attention Network, STHAN)，采用具有多种边类型与元路径的时空异构图来刻画区域之间的多种空间关系和复合关系，设计了一种包括节点层次和元路径层次的层次注意力机制以捕捉空间关系的异质性，在滴滴业务场景中取得了显著的效果提升。

提升市场匹配程度，保持供需平衡

在出行场景对供需的调节广泛落地在众多场景，这也是滴滴为整个出行市场所不断贡献的力量。

本文仅介绍其中部分内容，集中介绍一天以内城市司机调节的主要工作。

最好的供需，莫过于“供需平衡”，但现实之中必然会经常出现各类不平衡的情况，给司机或乘客带来不好的使用体验。当存在供需不平衡时，则需要通过司机调度来平衡局部供需。

如果希望通过司机调度（将部分司机从当前位置调度到指定位置），也就是实现所有区域尽可能的“供需平衡”，那么算法上应该怎么做呢？

整数规划

可以将以上问题简单定义为求解最优化问题：已知现在的所有司机位置，可以将任意一名司机从当前位置调度到指定位置，但每次会有相应成本（比如行驶距离），那么如何挑选司机调度路线，从而使得总成本最低？

这是一个典型的整数规划运筹问题。

整数规划是运筹学中的一种数学优化问题，它的目标是在满足一些限制条件的情况下，寻找使一个线性目标函数最小或最大的整数变量的值。与线性规划不同，整数规划要求变量只能取整数值。因此，整数规划问题比线性规划问题更具挑战性。

在滴滴发表的《When Recommender Systems Meet Fleet Management: Practical Study in Online Driver Repositioning System》论文中，详细介绍了一种在线司机调度的有效方法。其中包括了三个步骤：

1. 候选调度任务：选择较为合适的调度司机、调度终点，并配备有过期时间和补偿金额。

2. 任务评分：计算出向调度终点时空增加一个空闲司机可能会带来的边际增益，以此作为每一个候选调度任务的评分结果。

同时也可以获得每个时空状态的司机缺口数量：

3. 进行规划求解：以保障司机体验作为约束，最大化调度总收益。

为司机规划更好的出车方式

司机全天跑在城市中，通常是自行规划自己的出车/接单方式，比如估计什么区域有更多订单、空闲时是否休息、出车收车时间等等，在部分产品形态中，司机可以挑选适合自己的订单，那么这也是司机主动选择的一种体现。

很多司机经过常年摸索，会形成自己一套出车/接单方法，成为经验丰富的老司机。而很多新加入平台的新司机又缺乏这些经验，短期内可能不太顺利。

平台努力为司机提供更多信息和支持，能够帮助司机规划好自己的出车方式，尽早成为老司机，包括但不限于：

- 热力图

- 热区红包

- 长时段的路线规划

模仿学习（Imitation Learning）

最直观的一种帮助新司机的方法就是“模仿老司机”，我们可以根据老司机的出车/接单方式，来形成一些“攻略”，帮助新司机尽快熟悉。

模仿学习是一种机器学习方法，其目标是学习出一个能够在给定任务上执行与已知演示样本相似的策略。与强化学习不同，模仿学习不需要对环境进行交互，而是利用已知的演示数据进行学习。

在模仿学习中，通常使用监督学习方法来学习一个从状态到动作的映射。具体来说，我们将已知的演示数据作为输入，将演示者在每个状态下采取的动作作为输出，利用监督学习算法来学习一个最优的映射函数。这个映射函数就是我们学习到的策略。

离线强化学习（Offline Reinforcement Learning）

离线强化学习是一种强化学习方法，与在线强化学习不同，它不需要与环境进行交互，而是直接使用离线数据集进行训练。离线强化学习的目标是从给定的数据集中学习出一个最优的策略，使其在未来的实际应用中能够取得最大的回报。

在离线强化学习中，数据集通常由历史经验数据组成，这些数据已经由以前的交互式学习或模拟生成，可以直接用于离线训练。离线强化学习的优点是可以减少实际交互成本，可以利用大量的历史经验数据进行训练，同时可以避免实时学习的风险和不确定性。

举个简单的例子：以单个司机视角视为 Agent，将其所属位置周边供需情况、听单模式情况视为 State，模仿司机游走到周边位置、选择订单等操作作为 Action，以一段较长时间的总收入作为 Reward。则可以构建一个完整的强化学习系统。

在该系统上，可以采用多种 offlineRL 方法进行学习，例如AWAC、TD3+BC、CQL、IQL 等。同时，也可以采用重要性采样、FQE 等方法进行离线评估。

3. 总结

供给和需求是交易市场中最重要的主体，对市场的影响至关重要。它们之间存在着复杂的动态变化和相互影响，需要精准的预测和调整来保障市场的平衡和顺畅运转。滴滴作为平台方，面对着供需变化的挑战，需要不断采取合适的策略来应对，从而构建良好的市场环境。

作为一家出行平台，滴滴需要根据不同地区和时段的供需情况，调整资源的分配和调度，以保证司机和乘客的体验。在这个过程中，滴滴需要做好供需预测，通过数据分析和机器学习等技术手段，预测市场的变化趋势，并进行相应的调整和优化。

同时，滴滴也在不断地帮助新司机成为老司机，让他们掌握更好的出车方式，以提高效率和收益。通过信息和建议，滴滴帮助司机更好地理解市场需求，提高服务质量和接单效率，从而获得更多收入。

滴滴作为供需双方之间的协调平台，致力于实现平衡、体验好的供需环境，为乘客和司机提供更好的服务和体验。

4. 引用

1.https://www.techopedia.com/definition/32904/algorithm-economy

2.Shuai Ling, Zhe Yu, Shaosheng Cao, Haipeng Zhang, and Simon Hu. 2023. STHAN: Transportation Demand Forecasting with Compound Spatio-Temporal Relationships. ACM Trans. Knowl. Discov. Data 17, 4, Article 54 (May 2023), 23 pages.

3.Zhe Xu, Chang Men, Peng Li, Bicheng Jin, Ge Li, Yue Yang, Chunyang Liu, Ben Wang, and Xiaohu Qie. 2020. When Recommender Systems Meet Fleet Management: Practical Study in Online Driver Repositioning System. In Proceedings of The Web Conference 2020 (WWW '20). Association for Computing Machinery, New York, NY,USA,2220–2229. https://doi.org/10.1145/3366423.3380287