最优控制 3:最优控制理论中的极小值原理与动态规划

news2024/9/24 1:18:25

最优控制 3:使用极小值原理求解最优控制问题

引言

经典变分法是一种特别强大的工具,但是它要求控制量必须可导且无界,这在很多问题中都是不成立的。着陆器的软着陆,卫星的姿态控制,等等。从主观上都可以分析出来,着陆器的软着陆控制,肯定是先让着陆器自由落体,然后从某一个高度开始反向喷气,最后落地一瞬间速度刚好为0。卫星的姿态控制肯定是当姿态有偏差时,用最大力矩控制一次,然后让卫星通过惯性 “转” 一段时间再反向最大力矩控制一次。这个过程控制量肯定是不可导的。

因此,有很多最优控制问题,不能用变分法解决。所以,极小值原理和动态规划是比变分法更强大的工具。本文将介绍这两种理论,下一篇博客将给出变分法、极小值原理和动态规划在解决最优控制问题时的等价性推导。(当然,前提是这个最优控制问题本身可以用三种方法去解决才行;如果某个问题不能用变分法,那谈等价性是没有意义的。)

极小值原理

在计算和使用的时候,极小值原理和变分法的公式很相似,只不过在哈密顿函数上做了改变。因为 u u u 可能不可导,所以就没有 ∂ H ∂ u = 0 \frac{\partial H}{\partial u}=0 uH=0 了,而是用别的方程或不等式去约束。下面直接通过一个问题的形式给出极小值原理。

问题:
min ⁡ u ( t ) ∈ Ω J = φ [ x ( t f ) , t f ] + ∫ t 0 t f L [ x ( t ) , u ( t ) , t ] d t s . t . x ˙ ( t ) = f [ x ( t ) , u ( t ) , t ] , x ( t 0 ) = x 0 , ψ [ x ( t f ) , t f ] = 0 \begin{align} \begin{aligned} & \min_{u(t)\in\Omega}{J=\varphi\left[x(t_f),t_f\right]+\int_{t_0}^{t_f}{L\left[x(t), u(t), t\right]}dt}\\ & s.t.\quad \dot{x}(t)=f\left[x(t), u(t), t\right], x(t_0)=x_0,\psi\left[x(t_f), t_ f\right]=0 \end{aligned} \end{align} u(t)ΩminJ=φ[x(tf),tf]+t0tfL[x(t),u(t),t]dts.t.x˙(t)=f[x(t),u(t),t],x(t0)=x0,ψ[x(tf),tf]=0

由极小值原理,该问题实现最优控制的必要条件是:

  1. 最优状态 x ∗ ( t ) x^*(t) x(t) 和最优协状态 λ ∗ ( t ) \lambda^*(t) λ(t) 满足正则方程 (这里与变分法是一样的)
    λ ˙ ∗ ( t ) = − ∂ H ( x ∗ , u ∗ , λ ∗ , t ) ∂ x x ˙ ( t ) = ∂ H ( x ∗ , u ∗ , λ ∗ , t ) ∂ λ = f [ x ∗ ( t ) , u ∗ ( t ) , t ] \begin{align} \begin{aligned} \dot{\lambda}^*(t)&=-\frac{\partial H(x^*,u^*,\lambda^*,t)}{\partial x}\\ \dot{x}(t)&=\frac{\partial H(x^*,u^*,\lambda^*,t)}{\partial \lambda}=f\left[x^*(t),u^*(t), t\right] \end{aligned} \end{align} λ˙(t)x˙(t)=xH(x,u,λ,t)=λH(x,u,λ,t)=f[x(t),u(t),t]
    其中, H ( x , u , λ , t ) = L [ x ( t ) , u ( t ) , t ] + λ T ( t ) f [ x ( t ) , u ( t ) , t ] H(x,u,\lambda,t)=L\left[x(t), u(t), t\right]+\lambda^T(t)f\left[x(t), u(t), t\right] H(x,u,λ,t)=L[x(t),u(t),t]+λT(t)f[x(t),u(t),t] 为哈密顿函数。
  2. 在最优状态 最优控制 以及最优协变量上,对应的哈密顿函数取得最小值
    Tips: 这里与变分法不一样了,因为 ∂ H ∂ u = 0 \frac{\partial H}{\partial u}=0 uH=0 不一定成立。一方面,导数不一定存在;另一方面,极值点对应的 u u u 不一定在容许控制范围内。
    H ( x ∗ ( t ) , u ∗ ( t ) , λ ∗ ( t ) , t ) = min ⁡ u ( t ) ∈ Ω H ( x ∗ ( t ) , u ( t ) , λ ∗ ( t ) , t ) \begin{align} \begin{aligned} H(x^*(t), u^*(t), \lambda^*(t) ,t)=\min_{u(t)\in\Omega}{H(x^*(t), u(t), \lambda^*(t) ,t)} \end{aligned} \end{align} H(x(t),u(t),λ(t),t)=u(t)ΩminH(x(t),u(t),λ(t),t)
  3. 边界条件与横截条件
    x ∗ ( t 0 ) = x 0 ψ [ x ∗ ( t f ) , t f ] = 0 λ ∗ ( t f ) = ∂ φ ∂ x ( t f ) + ∂ ψ T ∂ x ( t f ) ⋅ γ \begin{align} \begin{aligned} x^*(t_0) &= x_0\\ \psi\left[x^*(t_f), t_f\right] &= 0\\ \lambda^*(t_f) &= \frac{\partial \varphi}{\partial x(t_f)} + \frac{\partial \psi^T}{\partial x(t_f)}\cdot\gamma \end{aligned} \end{align} x(t0)ψ[x(tf),tf]λ(tf)=x0=0=x(tf)φ+x(tf)ψTγ
  4. t f t_f tf 自由时,哈密顿函数还要满足终端时刻的横截条件
    H ( t f ∗ ) = − ∂ φ ∂ t f − γ T ∂ ψ ∂ t f \begin{align} \begin{aligned} H(t_f^*)=-\frac{\partial \varphi}{\partial t_f} - \gamma^T\frac{\partial \psi}{\partial t_f} \end{aligned} \end{align} H(tf)=tfφγTtfψ

下边直接给出不同条件下的极小值原理的必要条件的表格:

t f t_f tf 固定的情况

在这里插入图片描述

t f t_f tf 自由的情况

在这里插入图片描述

动态规划

动态规划也可以用来解决最优控制问题,但是它最初是被设计用来解决多级决策问题的。比如一个地图,好多节点,研究怎么走代价最小的问题。它的公式看起来其实并不是像是控制领域的算法,更像是计算机领域的。它后来被扩展到离散系统的最优控制问题,每一个时间步就是一次决策。比如一共 10 秒,每秒钟 100 次,那么一共就是 1000 次决策,如果这1000次都是最优的,那么最后结果一定是最优的。

更进一步地,如果已知从 960 步到 1000 步的最优决策 u 960 − 1000 ∗ u^*_{960-1000} u9601000,那么不论前边 959 步怎么控制,只要到第 960 步的时候,从 960 步到 1000 步的最优决策一定是 u 960 − 1000 ∗ u^*_{960-1000} u9601000。这便是动态规划的核心:寻找最优子问题和重叠的子结构。很多计算机领域的经典问题都可以用动态规划建模和解决。(汉诺塔,走台阶等等,不搞计算机,不懂)

所以,一般情况下,基于动态规划的控制方法都是从后往前逆序求解的。先算第 1000 个最优决策是啥,然后算第 999 个,最后一步一步反推回第 1 个。仿真或者应用的时候再从第 1 个到第 1000 个顺序执行。典型的例子就是线性二次型最优控制 (LQR),这种问题是有解析解的。

当然动态规划也有连续系统的版本,它就是大名鼎鼎的 HJB 方程。HJB 方程揭示了所有最优控制问题的本质,并且只要解出 HJB 方程,最优控制问题就解决了 (当然前提是有解)。问题就在于有很多非线性的最优控制问题,或者模型不确定的最优控制问题,我们明知道 HJB 方程的解存在且唯一,但就是找不到。由此也衍生出一个新兴的控制方法 (理论):自适应动态规划 (Adaptive Dynamic Programming),也叫近似动态规划 (Approximate Dynamic Programming)。它的另外一个名字比较接地气:强化学习控制。只不过说强化学习控制一般是从计算机的角度看这个问题,说 ADP 一般是从控制理论的角度看这个问题。扯远了…

连续系统 HJB 方程的推导

最优控制问题与 (1) 中所描述的相同。考虑到动态规划中的 “时序逆推” 的概念,取
J [ x ( t ) , t ] = φ [ x ( t f ) , t f ] + ∫ t t f L [ x ( τ ) , u ( τ ) , τ ] d τ \begin{align} \begin{aligned} J\left[x(t), t\right] = \varphi\left[x(t_f), t_f\right] + \int_{t}^{t_f}{L\left[x(\tau), u(\tau), \tau\right]}d\tau \end{aligned} \end{align} J[x(t),t]=φ[x(tf),tf]+ttfL[x(τ),u(τ),τ]dτ
记为从 t t t 时刻到 t f t_f tf 时刻的代价函数,这个问题最终的目的是要求出 J [ x 0 , t 0 ] J\left[x_0, t_0\right] J[x0,t0]

改写 (6),得到
J [ x ( t ) , t ] = ∫ t t + δ t L [ x ( τ ) , u ( τ ) , τ ] d τ + φ [ x ( t f ) , t f ] + ∫ t + δ t t f L [ x ( τ ) , u ( τ ) , τ ] d τ = ∫ t t + δ t L [ x ( τ ) , u ( τ ) , τ ] d τ + J [ x ( t + δ t , t + δ t ) ] \begin{align} \begin{aligned} J\left[x(t), t\right] &= \int_{t}^{t+\delta t}{L\left[x(\tau), u(\tau), \tau\right]}d\tau+\varphi\left[x(t_f), t_f\right] + \int_{t+\delta t}^{t_f}{L\left[x(\tau), u(\tau), \tau\right]}d\tau\\ &=\int_{t}^{t+\delta t}{L\left[x(\tau), u(\tau), \tau\right]}d\tau+J\left[x(t+\delta t, t+\delta t)\right] \end{aligned} \end{align} J[x(t),t]=tt+δtL[x(τ),u(τ),τ]dτ+φ[x(tf),tf]+t+δttfL[x(τ),u(τ),τ]dτ=tt+δtL[x(τ),u(τ),τ]dτ+J[x(t+δt,t+δt)]

上式右边第一项应用积分中值定理,第二项应用 Taylor 展开,得到
J [ x ( t ) , t ] = ∫ t t + δ t L [ x ( τ ) , u ( τ ) , τ ] d τ + J [ x ( t + δ t , t + δ t ) ] = L [ x ( t + α δ t ) , u ( t + α δ t ) , t + α δ t ] δ t + J [ x ( t ) , t ] + ∂ J T ∂ x δ x + ∂ J ∂ t δ t = L [ x ( t + α δ t ) , u ( t + α δ t ) , t + α δ t ] δ t + J [ x ( t ) , t ] + ∂ J T ∂ x d x ( t ) d t δ t + ∂ J ∂ t δ t \begin{align} \begin{aligned} J\left[x(t), t\right] &=\int_{t}^{t+\delta t}{L\left[x(\tau), u(\tau), \tau\right]}d\tau+J\left[x(t+\delta t, t+\delta t)\right]\\ &=L\left[x(t+\alpha\delta t), u(t+\alpha\delta t), t+\alpha\delta t\right]\delta t+J\left[x(t), t\right]\\ & + \frac{\partial J^T}{\partial x}\delta x + \frac{\partial J}{\partial t}\delta t\\ &=L\left[x(t+\alpha\delta t), u(t+\alpha\delta t), t+\alpha\delta t\right]\delta t+J\left[x(t), t\right]\\ &+ \frac{\partial J^T}{\partial x}\frac{dx(t)}{dt}\delta t + \frac{\partial J}{\partial t}\delta t \end{aligned} \end{align} J[x(t),t]=tt+δtL[x(τ),u(τ),τ]dτ+J[x(t+δt,t+δt)]=L[x(t+αδt),u(t+αδt),t+αδt]δt+J[x(t),t]+xJTδx+tJδt=L[x(t+αδt),u(t+αδt),t+αδt]δt+J[x(t),t]+xJTdtdx(t)δt+tJδt
整理,得
L [ x ( t + α δ t ) , u ( t + α δ t ) , t + α δ t ] + ∂ J T ∂ x d x ( t ) d t + ∂ J ∂ t = 0 \begin{align} \begin{aligned} L\left[x(t+\alpha\delta t), u(t+\alpha\delta t), t+\alpha\delta t\right] + \frac{\partial J^T}{\partial x}\frac{dx(t)}{dt}+ \frac{\partial J}{\partial t}=0 \end{aligned} \end{align} L[x(t+αδt),u(t+αδt),t+αδt]+xJTdtdx(t)+tJ=0
δ t → 0 \delta t\rightarrow0 δt0,并应用最优性原理,有
∂ J ∗ [ x ( t ) , t ] ∂ t = − min ⁡ u ∈ Ω { L [ x ( t ) , u ( t ) , t ] + [ ∂ J ∗ ∂ x ] T f [ x , u , t ] } \begin{align} \begin{aligned} \frac{\partial J^*\left[x(t), t \right]}{\partial t}=-\min_{u\in\Omega}{\left\{L\left[x(t), u(t), t\right] + \left[\frac{\partial J^*}{\partial x}\right]^Tf\left[x,u,t\right]\right\}} \end{aligned} \end{align} tJ[x(t),t]=uΩmin{L[x(t),u(t),t]+[xJ]Tf[x,u,t]}
此时,定义哈密顿函数
H [ x ( t ) , u ∗ [ x ( t ) , ∂ J ∗ ∂ x , t ] , ∂ J ∗ ∂ x , t ] = min ⁡ u ∈ Ω H [ x ( t ) , u ( t ) , ∂ J ∗ ∂ x , t ] H\left[x(t), u^*\left[x(t), \frac{\partial J^*}{\partial x}, t\right], \frac{\partial J^*}{\partial x}, t\right]=\min_{u\in\Omega}{H\left[x(t), u(t), \frac{\partial J^*}{\partial x}, t\right]} H[x(t),u[x(t),xJ,t],xJ,t]=uΩminH[x(t),u(t),xJ,t]

则,HJB 方程可以简写如下:
H [ x ( t ) , u ∗ [ x ( t ) , ∂ J ∗ ∂ x , t ] , ∂ J ∗ ∂ x , t ] + ∂ J ∗ ∂ t = 0 \begin{align} \begin{aligned} H\left[x(t), u^*\left[x(t), \frac{\partial J^*}{\partial x}, t\right], \frac{\partial J^*}{\partial x}, t\right]+\frac{\partial J^*}{\partial t}=0 \end{aligned} \end{align} H[x(t),u[x(t),xJ,t],xJ,t]+tJ=0
同时满足边界条件:
J ∗ [ x ( t f ) , t ) f ] = φ [ x ( t f ) , t f ] J^*\left[x(t_f), t)f\right]=\varphi\left[x(t_f), t_f\right] J[x(tf),t)f]=φ[x(tf),tf]

至此,极小值原理与动态规划基本理论的学习笔记就结束了 (不放例题了,敲公式太麻烦了)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/439939.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pandas读取列数不同的CSV文件

使用pandas读取每行不同列的CSV文件 对于序列模型而言,每条数据的大小都不一定相等,但对于一般的神经网络要求输入大小相等。目前的一种方法是选取当前数据集中最大长度的数据作为基准数据大小,其余的数据末尾补零来规范整个数据集每条数据的…

计算机:理解操作系统:内存篇(下)

内存 1. 指针与引用2. 进程的内存模型3. 幻象大师---操作系统4. 总结 本篇是 关于计算机内存最后一篇文章 什么是内存 C/C内存模型 堆区与栈区的本质 Java、Python等内存模型 Java内存模型 Jave中的堆区与栈区是如何实现的 Python内存模型 指针与引用 进程的内存模型 幻想大师-…

css tooltip (web.dev)

目录 版权介绍tool-tip在上居中动画效果宽度边界 tool-tip::after范围锥形渐变-webkit-mask尖角怎么来的? 附录完整代码 版权 本文为原创, 遵循 CC 4.0 BY-SA 版权协议, 转载需注明出处: https://blog.csdn.net/big_cheng/article/details/130262213. 介绍 https://web.dev…

【周末闲谈】AI作图,你真的了解它吗?

个人主页:【😊个人主页】 系列专栏:【❤️周末闲谈】 系列目录 ✨第一周 二进制VS三进制 ✨第二周 文心一言,模仿还是超越? ✨第二周 畅想AR 文章目录 系列目录前言AI绘画🤖🤖🤖工作…

[C++]:万字超详细讲解多态以及多态的实现原理(面试的必考的c++考点)

文章目录 前言一、多态的定义及实现1.多态的构成条件2.c11的override和final3.重载,重写,重定义的比较4.抽象类5.多态的原理6.多继承中的虚函数表7.动态绑定和静态绑定总结 前言 多态的概念: 多态的概念:通俗来说,就是…

【Linux】使用systemd设置开机自启动命令

目录 1 使用使用systemd实现开机自动运行命令1.1 新建一个.service文件1.2 编写.service文件1.2.1 [Unit]1.2.2 [Service]1.2.3 [Install] 1.3 启动服务并设置自启动 2 编写Systemd服务文件的要点2.1 Systemd服务文件的位置2.2 Systemd服务文件的格式2.3 Systemd服务文件的基本…

【基础】Kafka -- 基础架构及核心概念

Kafka -- 基础架构及核心概念 初识 KafkaKafka 基本架构Kafka 主题与分区主题与分区分区副本机制 Replica高水位 HW 生产者生产者客户端必要的参数配置消息的发送序列化分区器生产者拦截器 原理分析重要的生产者参数 消费者消费者与消费者组消费者客户端必要的参数配置订阅主题…

MySQL 按关键字进行截取

一、问题背景 取MySQL数据表中某个字段中的IP信息。 如:t_log 表中的 user_ip 字段值为 {“username”:“miracle”,“ip”:“110.230.128.186”},取出IP信息 110.230.128.186。 建表和初始化SQL语句,如下: SET NAMES utf8mb4…

GORM操作mysql数据库

对象就是程序的数据结构,关系是数据库。就是将程序的数据结构与数据库表对应起来。 在GORM是Go语言的ORM框架,将go的数据结构转化为数据库表,例如将结构体转化为数据库表。 引入gorm框架 远程下载gorm框架 go get -u gorm.io/driver/mysq…

HTTP中的Content-type详解

Content-Type Content-Type(MediaType),即是Internet Media Type,互联网媒体类型,也叫做MIME类型。在互联网中有成百上千中不同的数据类型,HTTP在传输数据对象时会为他们打上称为MIME的数据格式标签&#x…

关于java.io的学习记录(写入文本)

可以通过字节流(FileOutputStream)、字符流(OutputStreamWriter)、字符缓冲流(BufferedWriter)读取文本中的数据。 FileOutputStream写入文本 public void write(){String path "writeTest.txt"…

【是C++,不是C艹】 什么是C++ | C++从哪来 | 学习建议

💞💞欢迎来到 Claffic 的博客 💞💞 👉专栏:《是C,不是C艹》👈 前言: 我知道你急着学C,但你先别急,薛之谦认识认识C还是很有必要的。本期跟大家聊…

文件夹改名,如何在改名之后批量复制文件夹名称

在日常时候中会遇到给文件夹改名的时候,那么我们又如何在改名之后批量复制文件夹名称?今天就由小编来给大家分享一下操作办法。 首先第一步,我们要进入文件批量改名高手,并在板块栏里选择“文件夹批量改名”板块。 第二步&#xf…

SpringBoot 接入chatGPT API

SpringBoot 接入chatGPT API 一、准备工作二、补全接口示例三、申请API-KEY**四、JavaScript调用API**五、SpringBoot整合ChatGPT六、使用curl模拟请求ChatGPT平台已经为技术提供了一个入口了,作为一个Java程序员,我们第一时间想到的就是快速开发一个应用,接入ChatGPT的接口…

第十四天本地锁、Redis分布锁、Redisson锁三者的区别

一、为什么要有redis分布式锁,它解决了什么问题? 在传统单体架构的项目下,使用本地锁synchronized和lock锁就可以锁住当前进程,保证线程的安全性,但是本地锁解决不了分布式环境下多个服务资源共享的问题,而…

产品研发流程管理

先看一张图,该图适应绝大部分的产品的 研发流程 (需要的可以去下 产品研发流程| ProcessOn免费在线作图,在线流程图,在线思维导图) 该图详细描述了,不同阶段应该做什么,具体的来说,是确定了什么时候 “开会…

高精度人员定位系统源码,采用vue+spring boot框架,支持二次开发

智慧工厂人员定位系统源码,高精度人员定位系统源码,UWB定位技术 文末获取联系! 在工厂日常生产活动中,企业很难精准地掌握访客和承包商等各类人员的实际位置,且无法实时监控巡检人员的巡检路线,当厂区发生灾…

【Python】实战:生成无关联单选问卷 csv《精神状态评估表》

目录 一、适用场景 二、业务需求 三、Python 文件 (1)创建文件 (2)代码示例 四、csv 文件 一、适用场景 实战场景: 问卷全部为单选题问卷问题全部为必填问题之间无关联关系每个问题的答案分数不同根据问卷全部问…

使用pandas和seaborn绘图

使用pandas和seaborn绘图 matplotlib实际上是一种比较低级的工具。要绘制一张图表,你组装一些基本组件就行:数据展示 (即图表类型:线型图、柱状图、盒形图、散布图、等值线图等)、图例、标题、刻度标签以及其他注解型…

【远程开发】VSCode使用Remote SSH远程连接Linux服务器

文章目录 前言视频教程1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 转发自CSD…