目录
一、两种机器学习类型
1.1 预测型机器学习
1.2 决策型机器学习
二、强化学习的定义
三、强化学习的交互过程
四、强化学习系统要素
五、强化学习智能体分类
一、两种机器学习类型
1.1 预测型机器学习
1有监督学习: 基于数据的一部分输入,去预测相关输出
2无监督学习: 建模数据本身的联合概率分布,直接去生成数据实例
1and2
相同点: 预测数据x的概率分布P(x)
不同点:
有监督学习 用一部分数据x去预测另外一部分数据y的概率分布P(y|x)
无监督学习 将所有的数据做联合概率分布P(x,y)
1.2 决策型机器学习
机器学习直接去做决策,决策会影响整个环境,带来后果
强化学习:在多轮与环境交互过程中,最大化累计奖励
二、强化学习的定义
在交互中学习来实现目标的计算方法
感知 在某种程度上感知环境的状态
行动 可以采取行动来影响状态或者达到目标
目标 随着时间推移最大化累积奖励
三、强化学习的交互过程
四、强化学习系统要素
举例:迷宫游戏
五、强化学习智能体分类