探索人工智能在大规模采用电动汽车的时代将解决电力供需难的问题

news2026/3/3 14:40:07

1.导言

论文地址：https://arxiv.org/abs/2404.12520
随着电动汽车（EV）的普及，高峰期的用电需求可能会大幅增加。因此，如何适当控制电动汽车充电并尽量减少高峰期的用电量是一项重要挑战。传统上，基于模型和单一代理的强化学习方法被用于电动汽车充电控制，但它们在处理不确定性、隐私和可扩展性方面面临挑战。

因此，本文提出了一种基于多代理强化学习（MARL）的分布式协调电动汽车充电控制方法。本文对所提出的方法进行了理论分析，并通过数值模拟对其性能进行了评估，结果表明该方法优于集中式方法，而且在有大量电动汽车用户的实际情况下非常有效。

2.相关研究

以往有关电动汽车充电控制的研究大致分为基于模型的强化学习方法和无模型强化学习方法。

2.1 基于模型的方法

- 已提出的方法包括二元优化、混合整数线性规划、稳健优化、随机优化、模型预测控制和动态规划。
- 这些方法都需要精确的系统模型。

2.2 强化学习法

- 单个代理强化学习方法：如深度 Q-learning、贝叶斯神经网络、Advantage Actor-Critic 和 DDPG 已被应用。假定完全可观测，但从隐私角度看不切实际。
- 多代理强化学习方法：一些研究将其用于学习多个电动汽车站和充电运营商的定价策略。然而，许多研究似乎并未考虑代理之间的合作。此外，在某些情况下，也尝试过通过联邦强化学习进行代理间协调，但其前提是每个代理都能观察到整个网络的需求。

在上述研究的基础上，本文的新颖之处在于提出了一种分散式 MARL 方法，这种方法在运行时考虑了合作并保护隐私。

3 . 建议方法

在所提出的方法中，电动汽车网络中的每个电动汽车用户都有一个安装在智能电表上的强化学习代理，如图 1 所示。网络有两层，由物理电源层和控制层组成。

在物理电源层，所有电动汽车通过共享变压器连接到上游电网（公用事业公司）。在控制层，安装在每个电动汽车用户智能电表中的 RL 代理负责根据动态电价和物理层限制（如共享变压器）有效管理和协调电动汽车充电。

作为具体的控制策略，本文提出了两种多代理 DDPG 方法，一种是集中式方法（CTDE-DDPG），另一种是分散式方法（I-DDPG）。

3.1 独立发展集团（I-DDPG）

- 完全分散式方法。
- 每个代理都有自己的代理-批评网络，并将其他代理视为环境的一部分。
- 计算成本低，政策梯度方差小，但容易受到非平稳性的影响。

3.2 集中培训分散执行 DDPG (CTDE-DDPG)

- 代理之间仅在学习过程中进行合作，在执行过程中进行分布式操作 - 每个代理共享一个集中的价值函数，并集中管理词缀网络 - 代理之间的合作可减轻非平稳性的影响，但计算成本高，策略梯度方差大

在图 2 所示的 CTDE-DDPG 框架中，代理之间仅在学习阶段共享信息，而每个代理在执行阶段独立运行。在学习阶段，所有代理都能获取所有代理的观察结果和行动，但在执行阶段，它们无法获取此类信息。每个代理都有一个代理-批判网络，在学习阶段，代理根据本地观察结果选择行动，然后由一个集中的价值函数（即共同批判网络）进行评估。另一方面，在运行阶段，行动者是分散的，他们只根据本地信息决定自己的行动。

因此，在 CTDE-DDPG 中，学习过程中的合作可以减轻代理之间的不稳定性，同时在执行过程中保护隐私。而在 I-DDPG 中，代理的学习和执行是相互独立的。