cs285学习笔记

news2024/12/25 13:41:00

文章目录

  • lec1
    • ML和RL之间的区别
    • 几种RL分类
    • current challenges
  • lec4
    • markov chain
    • markov decision process
    • partially observed markov decision process
    • RL's goal
  • Q & A

lec1

ML和RL之间的区别

mlrl
iid data数据不iid,前面的数据会影响future input
训练时有确定的groundtruth只知道succ/fail,不知道具体的label
supervised learning需要人类给label,但是reinforcement learning可以用data给label是success, fail这样的

rl很长一段时间被feature困扰,不知道怎么选择feature更适合policy/value function,用deep RL可以解决feature的问题

几种RL分类

inverse reinforcement learning:learning reward functions from example
unsupervised learning:learning from obsering the world
meta-learning/transfer learning:learning to learn,根据历史的经验去学习

current challenges

  1. 人类学习很快,但DRL很慢
  2. human reuse past knowledge,RL用transfer learning
  3. 不知道reward function怎么设计
  4. 不知道role of prediction怎么设计

lec4

markov chain

定义:
M = { S , T } M = \{S,T\} M={S,T}
其中:

  1. S S S是state
  2. T T T是transition operator,假设 μ t \mu_t μt是一个prob vector,则有: μ t , i = p ( s t = i ) \mu_{t,i} = p(s_t=i) μt,i=p(st=i),因为 T i , j = p ( s t + 1 = i ∣ s t = j ) T_{i,j}=p(s_{t+1}=i|s_t=j) Ti,j=p(st+1=ist=j),所以 μ t + 1 = T μ t \mu_t+1=T\mu_t μt+1=Tμt

markov decision process

M = { S , A , T , r } M = \{S,A, T, r\} M={S,A,T,r}
其中:
3. S S S是state
4. T T T是transition operator
5. A A A是action space,在上面的基础上加上action,有 T i , j , k = p ( s t + 1 = i ∣ s t = j , a t = k ) T_{i,j,k}=p(s_{t+1}=i|s_t=j,a_t=k) Ti,j,k=p(st+1=ist=j,at=k)
6. r : S × A → R r: S \times A \rightarrow \mathbb{R} r:S×AR

partially observed markov decision process

和markov decision process相似,但是有一个observation限制,即:
M = { S , A , O , T , E , r } M = \{S,A, O, T, E, r\} M={S,A,O,T,E,r}
其中:
7. S S S是state
8. T T T是transition operator
9. A A A是action space,在上面的基础上加上action,有 T i , j , k = p ( s t + 1 = i ∣ s t = j , a t = k ) T_{i,j,k}=p(s_{t+1}=i|s_t=j,a_t=k) Ti,j,k=p(st+1=ist=j,at=k)
10. r : S × A → R r: S \times A \rightarrow \mathbb{R} r:S×AR
11. E E E是emission prob,即 p ( o t ∣ s t ) p(o_t|s_t) p(otst)

RL’s goal

在这里插入图片描述

强化学习的goal function如下:
θ ∗ = arg max ⁡ θ E τ ∼ p θ ( τ ) [ ∑ t r ( s t , a t ) ] \theta^*=\argmax_{\theta}E_{\tau \sim p_\theta(\tau)}[\sum_t r(s_t, a_t)] θ=θargmaxEτpθ(τ)[tr(st,at)]

transitions follow markov process

Q & A

RL和MDP/markov decision process是什么关系?
RL是一个解决MDP问题的框架

如果一个问题可以被定义为MDP问题(能够给出transition prob和reward distribution),那么RL可能比较适合来解决这个问题。反过来,如果问题不能被定义为MDP,那么RL可能不能保证能找到useful solution
影响RL的一个关键因素是states是否具有markov property(一个随机过程在给定现在状态和过去所有状态的情况下,其未来状态的条件概率分布仅依赖于当前状态)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/342287.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搜索二叉树

文章目录二叉搜索树模拟实现InsertInsertR()EraseEraseR搜索树的价值实现代码二叉搜索树 在二叉树的基础之上, 左子树的值都比根节点小,右子树都更大。那么他的左右子树也分别叫做二叉搜索树。 查找一个节点,最多查找高度次(建立在这个树是比较均衡的).10亿里面找…

Shennina:一款带有人工智能的自动化主机渗透工具

关于Shennina Shennina是一款功能强大的自动化主机渗透/漏洞利用框架,该项目的主要目的是使用人工智能技术来实现安全扫描、漏洞扫描/分析和漏洞利用开发的完全自动化。Shennina整合了Metasploit和Nmap这两款强大的网络安全工具实现其部分功能,并执行渗…

微搭使用笔记(二)微搭低代码平台介绍及基础使用

概述 官网地址: 官网 官方文档: 官方文档 FAQ: FAQ 腾讯云微搭低代码是一个高性能的低代码开发平台,用户可通过拖拽式开发,可视化配置构建 PC Web、H5 和小程序应用。支持打通企业内部数据,轻松实现企业微信管理、工…

别具一格,原创唯美浪漫情人节表白专辑,(复制就可用)(html5,css3,svg)表白爱心代码(4)

别具一格,独此一家,原创唯美浪漫情人节表白专辑 不一样的惊喜哦~!(html5,css3,svg)表白爱心代码(复制就可用)(4) 目录 款式四:时光的记忆款 1、拷贝完整源代码 2、更新时光盒所…

Springboot使用MDC进行日志追踪

Springboot使用MDC进行日志追踪前言一、为什么要跟踪日志二、MDC存储日志原理三、开始代码1、封装MDC工具类2、注册日志追踪拦截器四、配置logBack五、查看追踪效果六、要解决traceId传递问题1、在不同线程之间的传递2、远程调用时候的传递总结前言 MDC(Mapped Diag…

基于ChatGPT +Node.js的基本使用

一、简介 最近,围绕ChatGPT和OpenAI的话题是层出不穷,国内外的技术工作者都掀起了一股学习OpenAI的技术浪潮,甚至有很多的媒体预测OpenAI将会带来行业的革命,而国外一些大的企业也将OpenAI视为重要的竞争对手,比如Google和微软。 事实上,OpenAI 可以应用于任何涉及理解…

SpringBoot(3)之包结构

根据spring可知道,注解之所以可以使用,是因为通过包扫描器,扫描包,然后才能通过注解开发。 那么springboot需要扫描哪里呢? springboot的默认包扫描器,扫描的是自己所在的包和子包,例子如下 我…

生成式AI对业务流程有哪些影响?企业如何应用生成式AI?一文看懂

集成与融合类ChatGPT工具与技术,以生成式AI变革业务流程ChatGPT背后的生成式AI,聊聊生成式AI如何改变业务流程ChatGPT月活用户过亿,生成式AI对组织的业务流程有哪些影响?生成式AI对业务流程有哪些影响?企业如何应用生成式AI?一文看懂业务流…

Transformer

Transformer由4部分组成,分别是:输入模块、编码模块、解码模块、输出模块整体架构图:一、输入模块结构 (1)源文本嵌入层及其位置编码器(2)目标文本嵌入层及其位置编码器二、编码器模块结构由N个…

【计算器】四则运算的算法实现

先实现整数部分 加减乘比较简单, 可以参考: 高精度算法全套(加,减,乘,除,全网最详细). 除法我参考的是: 大数加减乘除运算总结 四则运算相关的OJ题目 四则远算 关于除法 基本上参考的是: 大数加减乘除…

数据结构:队列

队列 队列(Queue)是一个数据集合,仅允许在列表的一端进行插入,另一端进行删除。 进行插入的一端称为队尾(rear),插入动作称为进队或入队 进行删除的一端称为队头(front),删除动作称为出队 队列的性质:先进先出(First-in, First-o…

C++【二叉树进阶(二叉搜索树)】

文章目录前言1、二叉搜索树1-1、 二叉搜索树概念2、二叉搜索树操作2-1、树和节点的基本框架2-2、二叉搜索树的查找2-3、中序遍历2-4、二叉搜索树的插入2-5、二叉搜索树的删除3、二叉搜索树的模拟实现3-1、循环版本3-2、递归版本4、二叉搜索树的应用4-1、K模型4-2、KV模型4-3、K…

Linux 中断实验

目录 一、Linux 中断简介 上半部与下半部 二、添加设备树 三、编写驱动 1、定义宏 2、编写一个key结构体 3、imx6uirq设备添加成员 ​编辑4、按键中断处理函数 5、按键初始化 6、在驱动入口添加初始化 7、 驱动出口函数 代码如下 四、利用定时器进行消抖处理 1、添…

Spring Security in Action 第十四章 实现资源服务器端

本专栏将从基础开始,循序渐进,以实战为线索,逐步深入SpringSecurity相关知识相关知识,打造完整的SpringSecurity学习步骤,提升工程化编码能力和思维能力,写出高质量代码。希望大家都能够从中有所收获&#…

ArcGIS中的附件功能

从ArcGIS10起,空间数据库增加了"附件"的功能,可灵活管理与要素相关的附加信息,可以是图像、PDF、文本文档或任意其他文件类型。例如,如果用某个要素表示建筑物,则可以使用附件来添加多张从不同角度拍摄的建筑物照片。 启动附件功能 要想使用附件功能,要素类必…

Docker 中遇到的问题

1:docker-tomcat 篇 第一天启动主机和虚拟机都可以正常访问,晚上睡觉的时候就挂起关机睡觉了,但到了第二天主机访问不了了,ping 也能ping 通,后来停掉容器,重启了虚拟机就好了,就很离谱。 这是成…

Web3CN|Damus刷频背后,大众在期待什么样的去中心化社交?

刚过去的一周,许多人的朋友圈包括Twitter、Faceboo在内都在被一串公钥字母刷屏,其重要起因就是 Twitter 前首席执行官 Jack Dorsey 发推称,(2月1日)基于去中心化社交协议 Nostr 的社交产品 Damus 和 Amethyst 已分别在…

互联网舆情监测系统的设计研究,TOOM舆情监测系统研究框架?

舆情监测研究分析是指通过对社会公众对某个事件、话题、品牌、政策等的态度和情绪进行收集、处理、分析和评估,帮助政府、企业、媒体等利益相关者及时掌握公众的反应,做好应对危机和制定舆情管理策略的工作,互联网舆情监测系统的设计研究&…

全志V853芯片 如何在Tina V85x平台切换sensor?

目的 V85x某方案目前默认Sensor是GC2053。实际使用时若需要用到GC4663(比如wdr功能)和SC530AI(支持500W),可按如下步骤完成切换。 步骤 下面以GC4663为例,SC530AI按相应方式适配。 Step1 检查Sensor驱动…

Spring Security in Action 第十七章 全局方法安全:预过滤和后过滤

本专栏将从基础开始,循序渐进,以实战为线索,逐步深入SpringSecurity相关知识相关知识,打造完整的SpringSecurity学习步骤,提升工程化编码能力和思维能力,写出高质量代码。希望大家都能够从中有所收获&#…