特征缩放
监督/无监督机器学习算法已广泛用于开发数据驱动的异常检测、诊断和预测方法。此外,对于复杂电子设备的 PHM 来说,使用高维数据是不可或缺的。然而,如果各维度没有被标准化到相似水平,机器学习算法的输出可能会偏向于某些大尺度数据。例如,大多数分类器通过欧氏距离计算两点之间的距离。如果某个特征值范围很广,距离将由这个特征主导。因此,特征缩放(或数据标准化)以标准化独立变量或数据特征的范围,是数据预处理的关键任务之一,本节主要介绍 PHM 中常用的标准化方法。
Min-Max 标准化方法根据数据集特征 X 的最小值和最大值对其值进行缩放。
即,该方法使用以下公式将特征 X 的值 x 转换为 ̂x,落在 [low, high] 范围内:
Min-Max 标准化的另一种方法是所谓的 z 分数标准化(或标准化)。z 分数标准化的结果是特征将被重新缩放,使其具有 μ = 0 和 σ = 1 的标准正态分布特性,其中 μ 是均值(平均值),σ 是标准差。样本的标准分数(也称为 z 分数)计算如下:
一些需要特征缩放的算法示例包括:
- 使用欧氏距离度量的 k-NN,如果希望所有特征均等贡献;
- k-means 聚类;
- 如果使用基于梯度下降/上升的优化,如逻辑回归、支持向量机(SVM)、感知机、神经网络等,否则某些权重会更新得更快;
- 线性判别分析(LDA)、主成分分析(PCA)、核 PCA,因为需要找到最大化方差的方向(在这些方向/特征向量/主成分正交的约束下);特征需要在同一量表上,否则"量表较大"的变量会被强调。
使用 Min-Max 还是 z 分数进行标准化取决于应用场景。例如,在聚类分析中,z 分数标准化可能特别关键,以便基于某些距离度量比较特征之间的相似性。另一个突出的例子是 PCA,通常更喜欢使用标准化而不是 Min-Max 缩放,因为关注的是通过相关矩阵而不是协方差矩阵来最大化方差的主成分。但这并不意味着 Min-Max 缩放完全没有用处。典型的神经网络需要 0-1 范围内的数据。
尽管 Min-Max 和 z 分数标准化方法已广泛应用,但也可以考虑使用以下方法进行数据标准化。在十进制缩放标准化中,特征集 X 的值的小数点移动到其最大绝对值。移动的小数点数取决于 X 的最大绝对值。因此,X 中的值 x 被标准化为 ̂x,使用公式:
其中 d 是使 max(|̂x|) < 1 的最小整数。中位数标准化方法通过 X 的中位数来标准化 X 的每个值,这是一种有用的标准化方法,当需要计算两个混合样本之间的比率时。同样地,最著名和最简单的标准化方法之一是 sigmoid 标准化,表达式为:
这种标准化方法的优点是不依赖于数据分布。中位数和中位数绝对偏差(MAD)是单变量量化数据样本可变性的稳健度量。此外,MAD 是一种统计离散度量,对数据集中的异常值更加稳健,相比标准差而言。可以使用 MAD 进行如下数据标准化:
其中 MAD = median{abs(xi - median(X))},xi 是 X 中的第 i 个实例。
原文链接:设备的预测与健康管理 - 特征缩放 - 知乎 (zhihu.com)