Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems

news2024/12/26 10:57:45

Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems,2024, Chun Li , Jinliang Ding , Senior Member, IEEE, Frank L. Lewis , Life Fellow, IEEE, and Tianyou Chai , Life Fellow, IEEE

对完全未知动力学的线性离散时间系统,提出model-free Qlearning 算法,解决最优跟踪问题。给出Qlearning性能指标函数,将跟踪问题转化为整定问题。对比ADP和Qlearning,性能指标函数在控制输入的二次型增加一个由增益矩阵和参考跟踪轨迹组成的乘积项。该Qlearning不需要原控制系统和指令生成器的任何动力学知识,在线获取系统状态、控制输入和参考跟踪轨迹等信息,迭代推导控制策略。通过被控系统和参考跟踪轨迹前提下得到的迭代标准,可更新期望的控制输入,保证所得到的控制策略可消除跟踪误差。为数据的高效利用,该算法采用off-policy。

以往文章对CT和DT系统的输出跟踪问题,提出基于内部模型原理的ADP和Qlearning。与其不同,状态跟踪问题则采用设计增广系统。根据B. Kiumarsi and F. L. Lewis, “Actor-critic-based optimal tracking for partially unknown nonlinear discrete-time systems,” IEEE Trans. Neural Netw. Learn. Syst., vol. 26, no. 1, pp. 140–151, Jan. 2015.中其ADP和Qlearning会导致有界跟踪误差,无法消除。
控制输入变量维数小于系统状态维数,期望控制输入不总是由输入矩阵的逆求得。为避免获得期望控制输入,由原控制系统和指令生成器组成的增广系统,以形成HJB方程和ARE。选择较小折扣因子或增加跟踪误差二次型在性能指标函数中的比例有利于减小跟踪误差。

当系统动力学未知时,数据驱动方法非常适合。Y. Jiang, J. Fan, W. Gao, T. Chai, and F. L. Lewis, “Cooperative adaptive optimal output regulation of nonlinear discretetime multi-agent systems,” Automatica, vol. 121, Nov. 2020, Art. no. 109149.,每个智能体基于实时数据建模,其为基于数据驱动的模型。而Qlearning利用在线数据迭代更新Qfunction和policy function。B. Kiumarsi, F. L. Lewis, H. Modaresa, A. Karimpoura, and M.-B. Naghibi-Sistani, “Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics,” Automatica, vol. 50, no. 4, pp. 1167–1175, 2014.对线性离散时间系统的OTC问题提出基于增广系统的数据驱动的Qlearning方法。

线性离散时间系统
在这里插入图片描述
指令生成器的动力学
在这里插入图片描述
跟踪控制问题转化为整定问题
在这里插入图片描述
值函数定义为
在这里插入图片描述
给出最优值函数和贝尔曼方程,构造哈密顿函数
在这里插入图片描述
最优控制的平稳性条件,得到最优控制输入
在这里插入图片描述
其形式为 u k = − K x k + L v k u_k=-Kx_k+Lv_k uk=Kxk+Lvk
K = ( R + B ⊤ P B ) − 1 B ⊤ P A K=(R+B^\top PB)^{-1}B^\top PA K=(R+BPB)1BPA L = U + K F \boldsymbol{L}=\boldsymbol{U}+\boldsymbol{K}\boldsymbol{F} L=U+KF

定义Qfunction(Qlearning的性能指标函数),值函数改写为
在这里插入图片描述
在这里插入图片描述
Qlearning方法贝尔曼方程
在这里插入图片描述
ρ ( x k , u k , v k ) \rho\left(x_k,u_k,v_k\right) ρ(xk,uk,vk)为效用函数
最优控制输入表示为
在这里插入图片描述
根据Qfunction核矩阵
在这里插入图片描述
P和K求解通过原系统的整定问题,而不必考虑跟踪问题。
Lemma1给出增广矩阵[F;U]满足
在这里插入图片描述
由于F未知,将以下作为增广矩阵[F;U]和H核矩阵的必要条件
在这里插入图片描述

为使用数据驱动方法求解控制矩阵,定义激活函数
值迭代Qlearning方法,迭代Qfunction标准,
在这里插入图片描述
使用激活函数可将迭代Qfunction改写为
在这里插入图片描述
在这里插入图片描述
根据激活函数矩阵,满秩
在这里插入图片描述
计算迭代核矩阵更新
在这里插入图片描述
增广矩阵更新
在这里插入图片描述
在这里插入图片描述
迭代核矩阵更新

Algorithm1 基于Vi的model-free Qlearning算法求解跟踪控制问题
初始化增广矩阵增益和Qfunction核矩阵,H、K、L、F、U。在线数据,计算权重向量,更新核矩阵和增益矩阵。

为确保矩阵可逆,传统方法需加入PE条件,即探测噪音。PE条件由随机噪声和正弦信号。需要更多样本数据有利于研究被控系统和指令生成器的动力学。

Lemma2给出在Assumptions1和2下跟踪问题由被控系统和指令生成器描述。矩阵U满足Assumption2的要求

Theorem1给出在Assumptions1和2,Qfunction定义下,在迭代Algorithm1,迭代矩阵[F,U]满足假设2,由Algorithm1得到的矩阵K和L以消除跟踪误差。

基于off-policy方法的Model-free Qlearning Algorithm
控制策略 u k = − K x k u_k=-Kx_k uk=Kxk最优整定问题,求解整定问题的核矩阵为
在这里插入图片描述
迭代控制输入和在线控制输入
在这里插入图片描述
迭代系统状态表示为
在这里插入图片描述
因此迭代值函数更新为
在这里插入图片描述
由于迭代值函数等价于Qfunction
在这里插入图片描述
在激活函数下
在这里插入图片描述
可更新迭代核矩阵
在这里插入图片描述
Algorithm2给出使用off-policy方法的基于VI的model-free Qlearning算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1552193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

远程桌面连接弹出“出现身份验证错误,要求的函数不受支持”解决办法

windows远程桌面连接,出现如图所示“出现身份验证错误,要求的函数不受支持”错误,无法连接。 解决办法: 打开本地组策略编辑器,按winr组合键输入gpedit.msc命令打开。 选择“计算机配置”--“管理模板”--“系统”--“凭据分配”…

OpenHarmony实战开发-Web组件的使用

介绍 本篇Codelab使用ArkTS语言实现一个简单的免登录过程,向大家介绍基本的cookie管理操作。主要包含以下功能: 获取指定url对应的cookie的值。设置cookie。清除所有cookie。免登录访问账户中心。 原理说明 本应用旨在说明Web组件中cookie的管理操作。…

【正点原子FreeRTOS学习笔记】————(7)任务调度

这里写目录标题 一、开启任务调度器(熟悉)二、启动第一个任务(熟悉)2.1,prvStartFirstTask () /* 开启第一个任务 */2.2,vPortSVCHandler () /* SVC中断服务函数 */ 三、任务切换(掌握&#xff…

Deconstructing Denoising Diffusion Models for Self-Supervised Learning解读(超详细)

论文题目:Deconstructing Denoising Diffusion Models for Self-Supervised Learning 原文链接:https://arxiv.org/html/2401.14404v1 本文是对何凯明老师的新作进行的详细解读,其中穿插了一些思考,将从以下四个方面对这篇工作进…

波奇学Linux:http协议

2 个简单预备知识 https://www.baidu.com/ -域名-字符串-域名解析--ip地址 http请求和响应 格式画出来,两个工具见一见 https协议绑定端口号443 http协议绑定端口号 80 url 统一资源定位符 所有网络的资源都可以用唯一的一个字符串标识,并且可以获取…

八种顺序读写函数的介绍(fput/getc;fput/gets;fscanf,fprintf;fwrite,fread)

一:读写的含义的解释: 读(读出):即从文件里面读出数据----------->和scanf从键盘里面读出数据类似 写(写入):即把数据写入文件里面----------->和printf把数据写入到屏幕上类…

13.Java能干什么?以及Java的三大平台

文章目录 一、JavaSE二、JavaME三、JavaEE JAVA从95年以来,已经问世了20多年了,可能比部分同学的年龄还大。 Java到底能干嘛呢,此时就需要讲到Java的三大平台,其实也就是它的三个分类:JavaSE、JavaME、JavaEE。 一、Ja…

PDFgear:一款免费的PDF编辑、格式转化软件

日常办公中,很多朋友都会接触到PDF文件。把文件转化成PDF是保留文件格式、防范别人修改常用的方法。但是很多人会为PDF文件的生成、压缩、编辑和格式转化而头疼,还有人为了能把PDF转化成Word还购买了不少付费的软件。 为了解决大家这个痛点,…

ES6 学习(三)-- es特性

文章目录 1. Symbol1.1 使用Symbol 作为对象属性名1.2 使用Symbol 作为常量 2. Iterator 迭代器2.1 for...of循环2.2 原生默认具备Interator 接口的对象2.3 给对象添加Iterator 迭代器2.4 ... 解构赋值 3. Set 结构3.1 初识 Set3.2 Set 实例属性和方法3.3 遍历3.4 相关面试题 4…

如何着手写一个自己的网站管理客户端

WebHole 项目地址 https://gitee.com/yiyefangzhou24/web-hole 是什么?能干什么? WebHole是一款网站管理软件,类似但不同于菜刀、冰蝎、蚁剑,能通过C/S的工作模式,方便的管理服务器的文件、数据库,并执…

Redis命令介绍

一、redis启动: 本地启动:redis-cli 远程启动:redis-cli -h host -p port -a password Redis 连接命令 1 AUTH password 验证密码是否正确 2 ECHO message 打印字符串 3 PING 查看服务是否运行 4 QUIT 关闭当前连接 5 SELECT index 切换…

VS2022 使用ClaudiaIDE设置自定义图片背景

ClaudiaIDE的下载 第一步,如下图所示,点击:扩展——管理扩展。 第二步,如下图所示,点击:联机——右上角输入ClaudiaIDE搜索——点击下载。 下载后关闭所有VS窗口,然后等待弹出一个安装窗口&…

商密测评必知:国密算法的重要性与应用

国密算法是指由中国国家密码管理局发布的密码算法标准,旨在保障国家信息安全。目前,国家密码管理局已发布了一系列国产商用密码标准算法,包括SM1(SCB2)、SM2、SM3、SM4、SM7、SM9以及祖冲之密码算法(ZUC)等…

P4317 花神的数论题(数位DP)

数组别太小&#xff0c;注意取模的数 #include<bits/stdc.h> using namespace std; using ll long long; using pii pair<int,int>; #define int long long const int N 1e510; const int inf 0x3f3f3f3f; const int mod 1e77; int gcd(int a,int b){return b…

华为OD七日集训第5期 - 按算法分类,由易到难,循序渐进,玩转OD

目录 一、适合人群二、本期训练时间三、如何参加四、七日集训第 3 期五、精心挑选21道高频经典题目&#xff0c;作为入门。第1天、逻辑分析第2天、双指针第3天、数据结构第4天、滑动窗口第5天、并查集第6天、贪心思维第7天、二分查找 大家好&#xff0c;我是哪吒。 最近一直在…

肖恩带你拿捏结构体!

先赞后看&#xff0c;养成习惯&#xff08;&#x1f601;&#xff09;&#xff0c;几天不见&#xff0c;甚是想念&#xff0c;今天肖恩带大家拿捏结构体~~~ 1. 结构体类型的声明 那首先&#xff0c;什么是结构体呢&#xff1f; C语⾔已经提供了内置类型&#xff0c;如&#…

皮肤科医生护肤误区揭秘:不洗脸变美的真相?

在信息过剩的社会&#xff0c;大家不断被各种护肤秘籍、美容宝典所包围。最近&#xff0c;“一周不洗脸皮肤变好”的话题引起热议&#xff0c;而紧随其后关于“女子为护肤一个月不洗脸&#xff0c;结果脸上结满痂痕险严重毁容”的新闻再次引发广泛关注。这让大家纷纷产生了疑惑…

对象存储服务MinIO快速入门

对象存储服务MinIO快速入门 MinIO简介开箱使用快速入门封装MinIO为starter1 创建模块heima-file-starter2 配置类3 封装操作minIO类4 对外加入自动配置5 其他微服务使用 MinIO简介 官网文档 开箱使用 docker run -p 9000:9000 --name minio -d --restartalways -e "MINIO…

“李子园”上榜中国民营企业社会责任优秀案例

日前&#xff0c;由浙江省工商联、浙江工商大学主办&#xff0c;杭州市工商联协办的2024浙江民营企业社会责任暨浙商ESG研讨会在杭州召开&#xff0c;探索民营企业履行社会责任的方法路径和趋势。会上公布了2023年中国民营企业社会责任优秀案例&#xff08;浙江入选企业&#x…

在线接口文档预言方案

在线接口文档预言方案 要求&#xff1a; ​ 支持自动生成接口文档 ​ 能够支持在线测试(http&#xff0c;websocket) ​ 对代码没有侵入性 一、目前涉及的相关技术收集 sudo apt update #更新数据 sudo apt upgrade #更新软件 sudo apt install openssh-server #下载安装…