1 基本概念

过度拟合（overfit）

创建的模型与用于该模型的训练数据之间发生过于密切的关系，从而引起该模型无法对新数据进行准确的预测。正则化（Regularization）策略可以减少过度拟合，或者使用大数据量、多样化数据类型的数据集用于训练也可以减少过度拟合。

过度拟合问题，非常类似于学生与老师之间的学习关系，例如，一个偏科的学生仅善于自己有兴趣的科目以及只善于从该科目的老师中学习，而对其他科目不感兴趣以及不善于从其他科目的老师中学习，因而，偏科就是一个现实中过度拟合的实例。因此，一个学生需要培养对不同的科目感兴趣以及善于从不同的老师中学习，则该学生具备综合能力、具备处理问题的应变能力。

正则化（regularization）

用于在训练过程中减少过度拟合的机制，在机器学习的过程中使用正则化机制不断地校正相关的数据，常用的正则化机制的类型包括：

L1正则化（L1 regularization）
L2正则化（L2 regularization）
删除正则化（dropout regularization）
提早停止（early stopping），该机制不是常规正则化方法，但是，也可以有效地减少过度拟合）

正则化也被定义成对模型复杂度的处罚措施。

正则化机制是违反直觉的，例如，增加正则化通常会增加训练的损失值，这种场景很容混淆，合理的解释是，最小化损失值的目标是提升预测的准确程度，而正则化机制的目标也是提升预测的准确度，但是最小化损失值不是正则化的目标，因此，即使正则化会增加损失值，但是正则化有利于帮助模型对现实世界的数据样本做出更准确的预测。

L1正则化（L1 regularization）

该正则化机制是处罚一个权重在所有权重的绝对值之和中的比例，也就是，将不相关或者强相关特征的权重占比设置为0，因而，一个权重占比等于0的特征可以高效地从模型中被删除。

L2正则化（L2regularization）

该正则化机制是处罚一个权重在所有权重平方之和中的比例，也就是，将离群的特征值（数值大的正值或者数值小的负值）的权重设置为接近0值但是不等于0值，因而，一个权重占比接近0值的特征在模型中依然被保留，但是不会影响模型预测的准确度。

删除正则化（dropout regularization）

该正则化机制是用于训练神经网络，在一个隐藏层固定数目的单元中为一个梯度步骤删除一个随机选择的单元，删除的单元越多，正则化的效果越强。

提早停止（early stopping）

该正则方法是用在训练过程中损失值完成最小化之前结束训练，使用提早停止训练，用户可以有目标地在验证数据集的损失值开始上升的时候停止模型训练，也就是，该正则化机制可以在模型训练的效果变差之前提早结束训练。

离群值

与大部分值都保持一定距离的值，在机器学习中，离群值分类如下所示：