Introduction and Overview
-
-
- 机器学习算法
- 模型压缩
- Feature scaling 特征缩放
- 损失函数
- 正则化
- 优化方式
- 激活函数
-
机器学习算法
逻辑回归: 用于二分类问题。它基于一个或多个预测变量建模二元结果的概率。
线性回归: 用于预测基于一个或多个预测变量的连续结果。它通过拟合线性方程来建模因变量和自变量之间的关系。
决策树: 一种用于分类和回归任务的树状模型。它根据特征值将数据分支,以做出决策或预测。
梯度提升决策树 (GBDT) 和随机森林:
GBDT: 一种集成技术,它按顺序构建多个决策树,每个树纠正前一个的错误。用于回归和分类。
随机森林: 另一种集成方法,它独立构建多个决策树,并平均它们的预测(用于回归)或进行多数投票(用于分类)。
支持向量机 (SVM): 用于分类和回归。SVM在特征空间中找到最能分离类别的超平面。
朴素贝叶斯: 基于贝叶斯定理的分类技术。它假设预测变量之间相互独立,常用于文本分类。
因式分解机 (FM): 用于稀疏数据中的预测任务,如推荐系统。它通过捕获所有特征对之间的交互来推广矩阵分解。
神经网络: 受人脑启发的一组算法,用于各种任务,包括分类、回归和更复杂的任务,如图像识别。神经网络由层层相连的神经元组成,并通过根据数据调整这些连接的权重来学习。
重采样是指调整不同类之间的比例,使数据更加均衡的过程。例如,我们可以对少数类进行过采样(图 1.17)或对多数类进行欠采样(图 1.18)
大规模训练变得越来越重要,因为模型随着时间的推移变得越来越大,并且数据集的大小也急剧增加。分布式训练通常用于通过将工作分配给多个工作节点来训练模型。这些工作节点并行运行,以加快模型训练速度。分布式训练主要有两种类型:数据并行[13]和模型并行[14]。
模型压缩
Knowledge distillation: The goal of knowledge distillation is to train a small model (student) to mimic a larger model (teacher).
知识蒸馏:知识蒸馏的目标是训练一个小模型(学生)来模仿更大的模型(老师)。
Pruning: Pruning refers to the process of finding the least useful parameters and setting them to zero. This leads to sparser models which can be stored more efficiently.
剪枝:剪枝是指找到最无用的参数并将其设置为零的过程。这导致模型更稀疏,可以更有效地存储。
Quantization: Model parameters are often represented with 32-bit floating numbers. In quantization, we use fewer bits to represent the parameters, which reduces the model’s size. Quantization can happen during training or post-training [39].
量化:模型参数通常用 32 位浮点数表示。在量化中,我们使用更少的位数来表示参数,从而减小了模型的大小。量化可以在训练期间或训练后进行[39]。
Feature scaling 特征缩放
标准化(最小-最大缩放)。在此方法中,使用以下公式对特征进行缩放,因此所有值都在 [0,1] 范围内:
标准化(Z 分数标准化)。标准化是改变特征分布以具有 0均值和 1 标准差的过程。以下公式用于标准化特征:
对数缩放。为了减轻特征的偏度,可以使用一种称为对数缩放的常用技术,其公式如下:
离散化(分桶)
损失函数
-
交叉熵损失(Cross-Entropy Loss):
- 常用于分类问题,特别是多分类问题。它衡量的是实际标签与预测概率分布之间的差异。
- 公式: L = − ∑ i = 1 N y i log ( y ^ i ) L = -\sum_{i=1}^{N} y_i \log(\hat{y}_i) L=−i=1∑Nyilog(y^i)
其中, y i y_i yi 是实际标签, y ^ i \hat{y}_i y^i 是预测概率。
-
均方误差(Mean Squared Error, MSE):
- 常用于回归问题。它衡量的是预测值与实际值之间差异的平方和的平均值。
- 公式: MSE = 1 N ∑ i = 1 N ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 MSE=N1i=1∑N(yi−y^i)2
其中, y i y_i yi 是实际值, y ^ i \hat{y}_i y^i 是预测值, N N N 是样本数量。
-
平均绝对误差(Mean Absolute Error, MAE):
- 也是常用于回归问题。它衡量的是预测值与实际值之间差异的绝对值的平均值。
- 公式: MAE = 1 N ∑ i = 1 N ∣ y i − y ^ i ∣ \text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| MAE=N1i=1∑N∣yi−y^i∣
其中, y i y_i yi 是实际值, y ^ i