SAC算法小结

news2025/1/22 17:47:24

算法SAC

基于动态规划的贝尔曼方城如下所示：

则，基于最大熵的软贝尔曼方程可以描述为如下的形式：

可以这么理解soft贝尔曼方程，就是在原有的贝尔曼方程的基础上添加了一个熵项。
另外一个角度理解soft-贝尔曼方程：
首先，将熵项作为奖励函数的一部分，写为如下的形式：

然后将这个 $r_{soft}$ 带入到贝尔曼方程中去，然后通过进一步的转化形式，就可以得到可以得到如下的形式：
$\begin{aligned} Q_{s o f t}\left(s_{t}, a_{t}\right) & =r\left(s_{t}, a_{t}\right)+\gamma \alpha \mathbb{E}_{s_{t+1} \sim \rho} H\left(\pi\left(\cdot \mid s_{t+1}\right)\right)+\gamma \mathbb{E}_{s_{t+1}, a_{t+1}}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)\right] \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho, a_{t+1} \sim \pi}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)\right]+\gamma \alpha \mathbb{E}_{s_{t+1} \sim \rho} H\left(\pi\left(\cdot \mid s_{t+1}\right)\right. \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho, a_{t+1} \sim \pi}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)\right]+\gamma \mathbb{E}_{s_{t+1} \sim \rho} \mathbb{E}_{a_{t+1} \sim \pi}[-\alpha \operatorname{\log \left[\pi\left(a_{t+1} \mid s_{t+1}\right)\right)} \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho}\left[\mathbb{E}_{a_{t+1} \sim \pi}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right) \operatorname{\alpha } \log \left(\pi\left(a_{t+1} \mid s_{t+1}\right)\right)\right]\right] \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1}, a_{t+1}}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)-\alpha \log \left[\pi\left(a_{t+1} \mid s_{t+1}\right)\right)\right] \end{aligned}$
会得出同样的结论。

看上公式的最后一项，以及根据Q和v的关系函数：
$\begin{aligned} Q_{s o f t}\left(s_{t}, a_{t}\right) & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1}, a_{t+1}}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)-\alpha \log \left[\pi\left(a_{t+1} \mid s_{t+1}\right)\right)\right] \end{aligned}$
$Q\left(s_t, a_t\right)=r\left(s_t, a_t\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho}\left[V\left(s_{t+1}\right)\right]$
对比一下上面的这两个公式，也就是等号右侧应该是相等的，因此，软值函数形式为：

中间证明先略过，还不想看

对应代码部分

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/674900.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Vue-组件自定义事件(绑定和解绑)

Vue-组件自定义事件(绑定和解绑)

组件自定义事件(绑定) 像click,change这些都是js的内置事件，我们可以直接使用，本次我们学习自己根据需求打造全新的事件，但是js内置的是给html元素用的,本次的自定义事件是给组件用的注意：组件上也可以绑定原生DOM事件&#xf…

阅读更多...

（十一）CSharp-LINQ（1）

（十一）CSharp-LINQ（1）

一、LINQ 数据库可以通过 SQL 进行访问，但在程序中，数据要被保存在差异很大的类对象或结构中。由于没有通用的查询语言来从数据结构中获取数据。所以可以使用 LINQ 可以很轻松地查询对象集合。 LINQ 高级特性： LINQ 代表语言集成查询。LIN…

阅读更多...

【机器学习】信息熵和信息度量

【机器学习】信息熵和信息度量

一、说明信息熵是概率论在信息论的应用，它简洁完整，比统计方法更具有计算优势。在机器学习中经常用到信息熵概念，比如决策树、逻辑回归、EM算法等。本文初略介绍一个皮毛，更多细节等展开继续讨论。二、关于信息熵的概念 2.1 …

阅读更多...

尚硅谷课程vue学习（一）

尚硅谷课程vue学习（一）

目录 data两种写法el两种写法由vue管理的函数，一定不要写箭头函数，不然this指向windows实例了MVVM模型defineProperty属性数据代理v-on: v-bind:键盘事件keyup keydowncomputed计算属性监视属性watch监视属性和计算属性区别绑定class和style属性条件渲染…

阅读更多...

cocosCreator 3.3~6 安卓热更新官方详细示例

cocosCreator 3.3~6 安卓热更新官方详细示例

官方的热更新虽给出了示例和源码，但是一些细节的地方和步骤还是没说清楚，导致新手包括我死活是运行不起来，热更新失败！很打击人啊。这里有必要给出新手的热更新步骤，前提是你安装了Node.js和python环境，我装…

阅读更多...

chatgpt赋能python：更新Python所有库，避免安全漏洞和兼容性问题！

chatgpt赋能python：更新Python所有库，避免安全漏洞和兼容性问题！

更新 Python 所有库，避免安全漏洞和兼容性问题！ Python 是当今最受欢迎的编程语言之一，拥有强大而多功能的 API 和丰富的第三方库来支持开发，如 numpy、pandas、tensorflow 等等。但是，这些库不断地更新与改进&#x…

阅读更多...

端午作业1

端午作业1

只要文件存在，就会有唯一对应的inode号，且相应的会存在一个struct inode结构体。在应用层通过open（）打开一个设备文件，会对应产生一个inode号，通过inode号可以找到文件的inode结构体根据inode结构体中文件…

阅读更多...

【Dart语言解密】想要深入了解Dart语法和类型变量吗？

【Dart语言解密】想要深入了解Dart语法和类型变量吗？

快来读读这篇文章吧！本文从Dart信息表示的角度出发，详细讲解了Dart的基础语法和类型变量。通过本文的学习，你将会对Dart语言有更深入的认识和理解，更好地掌握Dart的开发技巧和实践应用。快来一起解密Dart语言吧！ 1 Da…

阅读更多...

数据透视表 - 学习笔记

数据透视表 - 学习笔记

教程资源：数据透视表_哔哩哔哩_bilibili 目录一、内容概括数据操作： 案例： 二、数据操作 （一）数据清洗 （二）创建数据透视表 1、数据格式 2、显示方式 3、分组 4、修改数据源 5、…

阅读更多...

Web 安全之 HSTS 详解和使用

Web 安全之 HSTS 详解和使用

HSTS（HTTP Strict Transport Security） 是一种网络安全机制，可用于防范网络攻击，例如中间人攻击和 CSRF（Cross-Site Request Forgery）等攻击。本文将详细介绍 HSTS 的工作原理、应用场景以及如何在网站中开…

阅读更多...

【计算机视觉 | 目标检测】arxiv 计算机视觉关于分类和分割的学术速递（6月 22 日论文合集）

【计算机视觉 | 目标检测】arxiv 计算机视觉关于分类和分割的学术速递（6月 22 日论文合集）

文章目录一、分类相关(4篇)1.1 Annotating Ambiguous Images: General Annotation Strategy for Image Classification with Real-World Biomedical Validation on Vertebral Fracture Diagnosis1.2 Benchmark data to study the influence of pre-training on explanation pe…

阅读更多...

无需专业知识！学会用TensorFlow 2实现天气识别的秘诀

无需专业知识！学会用TensorFlow 2实现天气识别的秘诀

💡《目标识别100例》使用的是Python语言、TensorFlow框架，包含了几十种CNN算法案例💎 附有 🖥 源码，可一键运行，避免调试烦恼🏆 课程大作业、毕业论文可直接考借鉴🎈 同时附带各种算法原理及对应的代码教程，用户可根据自身情况快速排列组合，在不同的数据集上实…

阅读更多...

从零开始：入门双目视觉你需要了解的知识

从零开始：入门双目视觉你需要了解的知识

文章目录前言双目相机标定去畸变极线校正（立体校正）立体匹配深度图生成文章已经同步更新在3D视觉工坊啦，原文链接如下： 前言双目立体视觉是计算机视觉中的一个重要领域，它利用两个相机拍摄同一场景的不同视角的图像…

阅读更多...

HDLBits笔记5:Circuits.Combinational Logic.Basic gates

HDLBits笔记5:Circuits.Combinational Logic.Basic gates

Wire 实现一个电路完成in和out的连线 module top_module (input in, output out);assign out in; endmoduleGND 实现一个电路将out连到GND module top_module (output out);assign out 1b0; endmoduleNOR 实现或非门 module top_module (input in1,input in2,output ou…

阅读更多...

Vue-消息订阅与发布(pub/sub)

Vue-消息订阅与发布(pub/sub)

消息订阅与发布(pub/sub) 消息订阅与发布和全局事件总线一样，也是一种组件间通信的方式 pub/sub全称为publisher(订阅)/subscriber(发布),一般需要数据的人订阅消息，提供数据的人发布消息这个技术非常简单容易上手，主要有以下两步 1 订阅…

阅读更多...

Java集合之ArrayList详解

Java集合之ArrayList详解

Java集合之ArrayList 一、ArrayList类的继承关系1. 基类功能说明1.1. Iterator：提供了一种方便、安全、高效的遍历方式。1.2. Collection：为了使ArrayList具有集合的基本特性和操作。1.3. AbstractCollection：提供了一些通用的集合操作。1.4.…

阅读更多...

Vue-动画效果

Vue-动画效果

vue动画效果 vue中动画效果是很简单的一个东西，vue帮助我们做了一些动画封装，同时也支持自定义动画，过度，第三方库，这些方式都可以实现，我们一一举例说明注意：下面的相关截图，由于…

阅读更多...

55 KVM工具使用指南-LibcarePlus概述

55 KVM工具使用指南-LibcarePlus概述

文章目录 55 KVM工具使用指南-LibcarePlus概述55.1 概述55.2 软硬件要求55.3 注意事项和约束 55 KVM工具使用指南-LibcarePlus概述 55.1 概述 LibcarePlus 是一个用户态进程热补丁框架，可以在不重启进程的情况下对 Linux 系统上运行的目标进程进行热补丁操作。热补…

阅读更多...

语音合成 - TTS-VUE 学习

语音合成 - TTS-VUE 学习

今天给小伙伴测试了一款人工智能文字合成语音的工具，测试中发现应该是某位大神开发的开源工具，经过一下午的测试，发现有可学习之处，有兴趣的小伙伴可以一起来学习下。一、简单介绍微软的语音合成助手利用强大的微软AI语音库&am…

阅读更多...

牛云企业官网小程序，外卖cps权益变现，uniCloud云开发无需购买服务器和域名，助力每一位创业者。

牛云企业官网小程序，外卖cps权益变现，uniCloud云开发无需购买服务器和域名，助力每一位创业者。

技术优势基于 uniapp uniCloud 研发，无需购买服务器和域名，uniCloud 是 DCloud 联合阿里云、腾讯云 serverless 构建。从此不用关心服务器运维、弹性扩容、大并发承载、防DDoS攻击等，轻松应对高并发应用， 上图小程序页面体…

阅读更多...

推荐文章

最新文章