lec1

ML和RL之间的区别

ml	rl
iid data	数据不iid，前面的数据会影响future input
训练时有确定的groundtruth	只知道succ/fail，不知道具体的label
supervised learning需要人类给label，但是reinforcement learning可以用data给label是success, fail这样的

rl很长一段时间被feature困扰，不知道怎么选择feature更适合policy/value function，用deep RL可以解决feature的问题

几种RL分类

inverse reinforcement learning：learning reward functions from example
unsupervised learning：learning from obsering the world
meta-learning/transfer learning：learning to learn，根据历史的经验去学习

current challenges

人类学习很快，但DRL很慢
human reuse past knowledge，RL用transfer learning
不知道reward function怎么设计
不知道role of prediction怎么设计

lec4

markov chain

定义：
$M = \{S,T\}$
其中：

$S$ 是state
$T$ 是transition operator，假设 $\mu_t$ 是一个prob vector，则有： $\mu_{t,i} = p(s_t=i)$ ，因为 $T_{i,j}=p(s_{t+1}=i|s_t=j)$ ，所以 $\mu_t+1=T\mu_t$

markov decision process

$M = \{S,A, T, r\}$
其中：
3. $S$ 是state
4. $T$ 是transition operator
5. $A$ 是action space，在上面的基础上加上action，有 $T_{i,j,k}=p(s_{t+1}=i|s_t=j,a_t=k)$
6. $\times A \rightarrow \mathbb{R}$

partially observed markov decision process

和markov decision process相似，但是有一个observation限制，即：
$M = \{S,A, O, T, E, r\}$
其中：
7. $S$ 是state
8. $T$ 是transition operator
9. $A$ 是action space，在上面的基础上加上action，有 $T_{i,j,k}=p(s_{t+1}=i|s_t=j,a_t=k)$
10. $\times A \rightarrow \mathbb{R}$
11. $E$ 是emission prob，即 $p(o_t|s_t)$

RL’s goal

在这里插入图片描述

强化学习的goal function如下：
$\theta^*=\argmax_{\theta}E_{\tau \sim p_\theta(\tau)}[\sum_t r(s_t, a_t)]$

transitions follow markov process

Q & A

RL和MDP/markov decision process是什么关系？
RL是一个解决MDP问题的框架

如果一个问题可以被定义为MDP问题（能够给出transition prob和reward distribution），那么RL可能比较适合来解决这个问题。反过来，如果问题不能被定义为MDP，那么RL可能不能保证能找到useful solution
影响RL的一个关键因素是states是否具有markov property（一个随机过程在给定现在状态和过去所有状态的情况下，其未来状态的条件概率分布仅依赖于当前状态）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/342287.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！