机器学习常用算法的分类:
根据数据集组成不同,可以把机器学习算法分为:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
1、监督学习
- 定义:
- 输入数据是由输入特征值和目标值所组成
- 函数的输出可以是一个连续的值(称为回归)
- 或是输出是有限个离散值(称作分类)
1.1回归问题
例如:预测房价,根据样本集拟出一条连续曲线。
1.2分类问题
2、无监督学习
- 定义:
- 输入数据是由输入特征值组成,没有目标值
- 输入数据没有被标记,也没有确定的结果,样本数据类别未知;
- 需要根据样本间的相似性对样本集进行类别划分
有监督,无监督算法对比:
![在这里插入图片描述](https://img-blog.csdnimg.cn/72c50c3fa7664f87b37174909e5c6e01.png
- 输入数据是由输入特征值组成,没有目标值
3、半监督学习
- 定义:
- 训练集同时包含有标记样本数据和未标记样本数据
举例: - 监督学习训练方式:
- 半监督学习训练方式:
- 训练集同时包含有标记样本数据和未标记样本数据
4、强化学习
- 定义:
- 实质是make decisions问题,即自动进行决策,并且可以做连续决策。
监督学习和强化学习的对比:
独立同分布IID(independent and identically distributed)
1、独立同分布(i.i.d.)
在概率统计理论中,如果变量序列或其他随机变量有相同的概率分布,并且相互独立,那么这些随机变量是独立分布。
- 实质是make decisions问题,即自动进行决策,并且可以做连续决策。
2、简单解释- 独立、同分布、独立同分布
(1)独立:每次抽样之间没有关系,不会相互影响
(2)同分布:每次抽样,样本服从同一个分布
(3)独立同分布:每次抽样之间独立而且同分布
3、机器学习领域的重要假设
独立同分布即假设训练数据和测试数据是满足相同分布的它是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。
5、小结
In | Out | 目的 | 案例 | |
---|---|---|---|---|
监督学习 | 有标签 | 有反馈 | 预测结果 | 猫狗分类 房价预测 |
无监督学习 | 无标签 | 无反馈 | 发现潜在结构 | 物以类聚,人以群分 |
半监督学习 | 部分有标签,部分无标签 | 有反馈 | 降低数据标记的难度 | |
强化学习 | 决策流程及激励系统 | 一系列行动 | 长期利益最大化 | 学下棋 |