小谈：一直想整理机器学习的相关笔记，但是一直在推脱，今天发现知识快忘却了（虽然学的也不是那么深），但还是浅浅整理一下吧，便于以后重新学习。

最近换到新版编辑器写文章了，有的操作挺方便的，但是😭我目前还没有找到在哪里插入目录。

📙参考：ysu期末复习资料和老师的课件

1.机器学习的定义

1.1 机器学习中的专业术语

2.机器学习的发展历程

3.监督学习、半监督学习和无监督学习的特点

3.1 监督学习

3.1.1 回归问题

3.1.2 分类问题

3.2 无监督学习

3.3 半监督学习

3.4 强化学习

4.机器学习的一般流程

4.1 数据预处理

4.1.1 数据清洗

4.1.2数据采样

4.1.3 数据集拆分

4.2 特征工程

4.2.1 特征编码

4.2.2 特征选择

4.2.3 特征降维

4.2.4 特征规范化

4.3 数据建模

4.4 结果评估

1.机器学习的定义

机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新知识或技能，重新组织已有的知识结构使之不断改善自己的性能。

机器学习是人工智能的一个分支。我们使用计算机设计一个系统，使它能够根据提供的训练数据按照一定的方式来学习；随着训练次数的增加，该系统可以在性能上不断学习和改进，通过参数优化的学习模型，能够用于预测相关问题的输出。

1.1 机器学习中的专业术语

样本（sample）或者输入（input）：送入模型的数据点。
目标（traget）真实值。对于外部数据源，理想情况下，模型应该能够预测出目标。
预测（prediction）或输出（output）：从模型出来的结果。
预测误差（prediction error）或损失值（loss value）：模型预测与目标之间的距离。
类别（class）：分类问题中供选择的一组标签。比如”猫“和”狗“就是两个类别。
标签（label）：分类问题中类别标注的具体例子。比如”猫“是0，”狗“是1.
真值（ground-truch）或标注（annotation）：数据集的所有目标。
二分类（binary classification）：一种分类任务，包括两个类别，每个输入样本都应被划分到两个类别的其中一类。
多分类（multiclass classification）：一种分类任务，包括多个类别，每个输入样本都应被划分到多个类别的其中一类，如手写数字分类。
多标签分类（multilabel classification）：一种分类任务，每个输入样本都可以分配多个标签。比如，一幅画像里面既有狗又有猫，那么应该同时标注”猫“标签和”狗标签“。
标量回归（scalar regression）：目标是连续标量值的任务，比如预测房价。
向量回归（vector regression）：目标是一组连续值的任务如果对多个值进行回归，那就是向量回归。
小批量（mini-batch）或批量（batch）：模型同时处理的一部分小样本。样本通常取2的幂，这样便于GPU上的内存分配。训练时，小批量用来为模型权重计算一次梯度下降更新。