机器学习之非监督学习（二）异常检测（基于高斯概率密度）

news2026/2/13 14:09:14

机器学习之非监督学习（二）异常检测（基于高斯概率密度）

0. 文章传送
1.案例引入
2.高斯正态分布
3.异常检测算法
4.异常检测 vs 监督学习
5.算法优化

0. 文章传送

机器学习之监督学习（一）线性回归、多项式回归、算法优化[巨详细笔记]
机器学习之监督学习（二）二元逻辑回归
机器学习之监督学习（三）神经网络基础
机器学习之监督学习（四）决策树和随机森林
机器学习之实战篇——预测二手房房价(线性回归）
机器学习之实战篇——肿瘤良性/恶性分类器（二元逻辑回归）
机器学习之实战篇——MNIST手写数字0~9识别（全连接神经网络模型）
机器学习之非监督学习（一）K-means 聚类算法
机器学习之实战篇——图像压缩(K-means聚类算法)

1.案例引入

假设你是飞机生产商，生产了一批飞机发动机，并记录其两个特征x1(heat)和x2(vibration)。由于我们的生产技术过硬，可以相信其中大多数发动机能够正常工作。从机器学习的角度出发，那么我们能否充分利用已有的发动机数据，用来检测后续生产的发动机是否异常呢？这就是典型的异常监测任务。

如下图所示，可以根据数据建立概率密度分布模型，对于新的测试数据，若其位置对应的概率小于某个设定阈值，则可将其标记为‘异常。’
在这里插入图片描述
再举一个例子，数据中心可以通过用户电脑工作的实时数据（例如内存使用、CPU使用率）监测用户电脑是否异常，发现潜在的风险，例如计算机被攻击或感染恶意软件。一旦检测到异常，系统可以自动提醒用户注意，或向 IT 支持团队发送警报进行进一步检查，以保障用户体验和数据安全性。
在这里插入图片描述

2.高斯正态分布

在这里插入图片描述
高斯正态分布（Gaussian Normal Distribution）是概率统计中最重要和最常用的分布之一。它在许多自然现象中都有广泛的应用。以下是关于高斯正态分布的详细介绍：

定义
高斯正态分布是一个连续概率分布，其概率密度函数（PDF）由以下公式给出：

$\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$

其中：
μ 是均值（mean），决定了分布的中心位置。
σ 是标准差（standard deviation），影响分布的宽度和形状。
σ^2是方差（variance），表示数据的离散程度。

特性
对称性：高斯正态分布是一个对称分布，均值 \muμ 是其对称中心。
钟形曲线：概率密度函数图形呈现为钟形曲线，具有单峰性，意味着大多数数据集中在均值附近。
68-95-99.7法则：在高斯分布中，约68%的数据点位于均值的一个标准差内 $（\mu - \sigma到 \mu + \sigma）$ ，约95%位于两个标准差内，99.7%位于三个标准差内。
渐近性：分布在无限远处趋向于零，但永远不会等于零。
标准正态分布
标准正态分布是特殊的高斯分布，其均值为0，标准差为1。其概率密度函数为：

$\frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$

其中 z 是标准分数（z-score），定义为： $\frac{x - \mu}{\sigma}$ .

通过标准化，可以将任意高斯分布转换为标准正态分布。

3.异常检测算法

在异常检测中，我们需要建立概率密度分布模型，通常假设每个特征满足正态分布。
$x_i～N(\mu_i,\sigma_i^2),p(x_i)=\frac{1}{\sqrt{2\pi}\sigma_i}e^{-\frac{(x-\mu_i)^2}{2\sigma_i^2}}$
其中均值和标准差（无偏估计）的计算公式为：
$\mu_i=\frac{1}{m}\sum_{k=1}^{m}x_i^{(k)},\sigma_i=\sqrt{\frac{1}{m-1}\sum_{k=1}^{m}(\mu_i-x_{i}^{(k)})^2}$
考虑多个特征，理想情况是考虑各个特征之间相互独立，则由概率公式可得
$p(x)=\prod_j{p(x_j;\mu_j,\sigma_j^2)}$

尽管通常情况下各个特征之间不完全独立，但事实表明这种计算方式能取得较好的模型效果。

设置异常检测的临界概率（阈值） $\epsilon$ ,对于待检测样本，计算其概率p(x)并与 $\epsilon$ 比较，如果p(x)< $\epsilon$ ,则将其检测为异常样本。

在异常检测中，如何确定合适的阈值 $\epsilon$ ？在前面的系列文章中我们提到，对于参数选择，一种有效方式是引入验证集，通过验证效果来决定理想的参数。

如下图所示，假设我们已知有10000台正常发动机和20台异常发动机，这时可以选择6000台正常发动机作为训练集（符合算法假设）；然后选择2000台正常发动机和10台异常发动机作为验证集；剩下的部分作为测试集。

由于异常检测任务归类于分类问题，因此评估的参数包括混淆矩阵、召回率、精确率、F1-score等等。通过选取不同的阈值，比较验证效果，来选择最优阈值。
同样的，测试集上的表现可以用这些分类指标进行评估。
在这里插入图片描述

4.异常检测 vs 监督学习

异常检测属于非监督学习，训练集中的数据均未带标签（默认正常），但我们可能拥有少量带标签的数据（例如发动机案例中已知少量异常发动机），这时候使用监督学习分类算法也可行，那如何在监督学习和基于概率的异常检测之间进行选择呢？

一般来说，异常检测通常适用的情况如下：
①我们只有少量异常数据和大量正常数据
②异常种类很多，未来新的样本可能出现新的异常情况，算法很难从已有数据中捕获足够的异常信息。

监督学习更适用的情况如下：
①我们有大量的正常和异常数据
②异常种类可枚举或未来新的样本呈现的异常情况具有重复性。
在这里插入图片描述
适合两种算法的典型场景如下图所示：

5.算法优化

在异常检测任务中，选取和构建合适的特征非常重要，因为基本假设是特征满足正态分布，因此对于偏离正态分布较大的特征，我们希望通过特征处理，将其分布趋近于正态分布。

如下图所示，绘制了某个特征的直方图，可以看到分布曲线向左偏移，偏离正态分布较大。这时候可以通过取对数函数 $l o g (x + c)$ ,或取幂函数 $x^c(0<c<1)$ ,调整分布接近正态分布。这一过程可以通过编程尝试不同参数c实现。
在这里插入图片描述
异常检测中另一种有效的优化方法是通过误差分析引入新的特征。例如在线上交易安全检测器中，我们选取了特征x1(表示交易量)作为特征，训练好模型后进行验证时发现一个错误的案例，发现该案例用户打字速度异常快，因此可以引入新的特征x2：打字速度。这样建立的模型取得了更好的分类效果。
在这里插入图片描述
再比如在电脑检测案例中，如果发现一台电脑具有很的高CPU使用率，却使用了很少的网络流量，基于此异常情况可以构建新的特征（如下图，可以取比值）。

特征工程的手段灵活而丰富，但最终的目的都是提升模型的检测能力，在验证集和测试集中都能取得满意的表现。