Data-driven ADP schemes for non-zero-sum games of unknown DT nonlinear systems

news2025/2/22 8:33:34

Data-driven adaptive dynamic programming schemes for non-zero-sum games of unknown discrete-time nonlinear systems，2018， He Jiang, Huaguang Zhang∗, Kun Zhang, Xiaohong Cui

博弈论、最优控制和强化学习解决离散时间 multi-player 非零和博弈问题。非零和博弈问题的解是耦合黎卡提方程和HJ方程的结果，需要精确数学模型，难以解析求解。实际中系统动力学不能精确获得甚至不可用，传统基于模型方法不可用。针对完全未知的multi-player系统提出data-based ADP算法。利用Nash equilibrium和平稳性条件构造离散时间multi-player非零和博弈，利用策略迭代算法近似最优解。在线ADP算法结合NN identification，仅需要系统数据而不是真实系统模型。提出基于数据驱动的action-dependent HDP(ADHDP或QLearning)方法，克服identification learning过程中的近似误差。
输入输出系统数据可被测量和利用，数据驱动方法1：直接使用系统数据设计最优控制器；2：通过神经网络重构数据驱动系统结构近似实际系统。本文采用ADP算法和数据驱动技术处理model-freeDT非零和博弈问题，纳什平衡点和平稳性条件推导和构建DT非零和博弈问题，提出PI方法，学习和近似迭代的最优解。比较identification-based和data-driven两种ADP算法。

DT N-player system
在这里插入图片描述
性能指标函数

Definition1给出可容许控制策略
Assumption1给出N-player system可控，至少存在一组可容许控制策略，可出可容许状态反馈控制策略，值函数表达式和最优值函数。
Definition2给出纳什平衡定义，满足不等式时，一组控制策略被认为是N-player game的纳什平衡点
在这里插入图片描述
Lemma1给出对N-player system值函数，基于最优的平稳性条件，最优控制策略为

最优值函数满足耦合方程

Theorem1给出在Assumption1下，最优值函数满足耦合方程，最优控制策略为以上形式

证明，最优值函数为李雅普诺夫函数，系统渐进稳定；
给出算法流程
在这里插入图片描述
对以上迭代步骤，需要f(x)和g(x)，完全未知系统，model-based是无效的，需采用神经网络identification

神经网络近似multi-player system
在这里插入图片描述
NN-based identification

最小化性能指标并调整权重

神经网络近似误差有界，存在正常数

Theorem2根据identification scheme 验证未知multi-player system并更新identifierNN 权重，满足Assumption2，NN 权重近似误差是有界的，且identification error是渐进稳定的。
在这里插入图片描述
神经网络近似评价网络

值函数近似，定义NN approximation error $\eta_i(k)$

k表示当前时刻，系统第k步数据，测量x(k)。对完全未知的multi-player systems f(x)和g(x)难以获得未来x(k+1)的系统数据。则需要identifier NN获得 $\hat{x}(k+1)$
定义残差向量
在这里插入图片描述
评价网络权重调整

同理动作网络

误差定义

动作网络权重更新

根据测量系统数据，神经网络重构系统动力学，但不可避免带来NN approximation errors

action-dependent HDP(Qlearning) 的NN 学习方法
评价网络描述为
在这里插入图片描述
其评价网络输入 $z_{ci}(k)$ 由x(k)， $u_i(k)$ 和 $u_{(-i)}(k)$ 组成。
误差定义为

最小化误差性能指标

同理梯度下降法更新权重

动作网络

误差定义为

基于梯度下降权重更新

基于NN的ADHDP算法，未涉及f(x)和g(x)，仅使用当前时刻k和历史时刻k-1的数据
在这里插入图片描述